Intelligenza artificiale open source con recupero batte ChatGPT afferma il documento Nvidia

Open source AI with retrieval beats ChatGPT, claims Nvidia document.

Un recente articolo di ricerca ha scoperto che un sistema di intelligenza artificiale open source che utilizza il potenziamento del recupero può superare modelli di chatbot proprietari come il GPT-3.5 di OpenAI.

L’articolo, pubblicato il 4 ottobre da ricercatori di Nvidia, confronta diverse tecniche per gestire il contesto lungo nei modelli di linguaggio di grandi dimensioni (LLM) – gli algoritmi chiave dietro l’IA conversazionale di oggi. Un metodo consiste nell’estendere semplicemente la finestra di contesto, consentendo all’LLM di “leggere” direttamente più token di testo come input e tenerlo presente quando produce il suo output. L’altro approccio utilizza il recupero per fornire all’LLM solo il contesto più rilevante da un ampio database.

Il loro miglior approccio combina entrambe le tecniche – un modello open source LLaMA con 70 miliardi di parametri, con una finestra di contesto estesa di 32.000 token, ulteriormente potenziata dal recupero di passaggi rilevanti da un corpus. Il recupero fornisce il contesto su richiesta, anziché dover memorizzare tutto nell’LLM, rendendolo più efficiente.

Su un insieme di 7 benchmark di risposta a domande e riassunto di lunghezza estesa, questo LLaMA potenziato dal recupero ha raggiunto un punteggio medio di 43,6, superando GPT-3.5-turbo che consente 16.000 token di contesto (42,8 in media). Ha eguagliato il massiccio modello proprietario Davinci di OpenAI con 175 miliardi di parametri su un sottoinsieme di 4 compiti.

Gli autori sostengono che il recupero fornisce significativi vantaggi anche quando gli LLM molto grandi hanno già finestre di contesto estese. Hanno scoperto che un LLaMA di 4.000 token con recupero ha prestazioni simili a LLaMA senza recupero con 16.000 token, mentre è molto più veloce a causa di un input inferiore.

I ricercatori ritengono che si possa ottenere una prestazione paragonabile a sistemi commerciali chiusi come ChatGPT combinando modelli open source esistenti come LLaMA con tecniche di recupero. I risultati suggeriscono che l’integrazione del recupero e del contesto lungo sia una direzione promettente per costruire un’IA conversazionale open source più capace.

L’articolo fornisce prove che, con gli algoritmi giusti, l’IA open source può eguagliare o superare i chatbot proprietari. I risultati potrebbero influenzare il modo in cui i prossimi sistemi di intelligenza artificiale integrano modelli in grado di gestire input di testo lungo con informazioni extra rilevanti e indicano il recupero come un elemento chiave insieme all’estensione della lunghezza del contesto.

Immagine in evidenza: Markus Winkler; Pexels; Grazie!