Il Gemini di Google è il vero inizio dell’esplosione dell’IA generativa

Il Gemini di Google l'impulso decisivo per l'esplosione dell'Intelligenza Artificiale generativa

La storia dell’intelligenza artificiale è stata caratterizzata da periodi di cosiddetto “inverno dell’AI”, quando la tecnologia sembrava raggiungere un punto morto e i finanziamenti si esaurivano. Ogni periodo è stato accompagnato da proclami secondo cui rendere le macchine veramente intelligenti è troppo difficile per gli esseri umani da capire.

Il lancio di Gemini da parte di Google, che afferma essere un modello di intelligenza artificiale fondamentalmente nuovo e il più potente dell’azienda fino ad oggi, suggerisce che un nuovo inverno dell’AI non arriverà presto. Infatti, nonostante i 12 mesi trascorsi dal lancio di ChatGPT siano stati un anno straordinario per l’AI, c’è una buona ragione per pensare che l’attuale boom dell’AI sia solo all’inizio.

OpenAI non aveva grandi aspettative quando ha lanciato la “versione di ricerca a basso profilo” chiamata ChatGPT nel novembre 2022. Era semplicemente un test di una nuova interfaccia per i suoi grandi modelli di linguaggio generativo (LLM). Ma la capacità del chatbot di fare una vasta gamma di cose, dalla sintesi di saggi e poesie alla risoluzione di problemi di programmazione, ha impressionato e spaventato molte persone e ha acceso l’industria tecnologica. Quando OpenAI ha aggiunto il suo nuovo LLM GPT-4 a ChatGPT, alcuni esperti erano così spaventati che hanno supplicato l’azienda di rallentare.

Iscriviti oggi

La newsletter Fast Forward di ENBLEWill Knight

Le prove erano già scarse che qualcuno avesse dato ascolto a quell’allarme. Ora è inconcepibile che Google abbia alzato la posta in gioco – e forse anche cambiato le regole del gioco – annunciando Gemini.

Google aveva già lanciato in fretta una risposta diretta a ChatGPT sotto forma di Bard all’inizio di quest’anno, lanciando finalmente una tecnologia di chatbot LLM che aveva sviluppato prima di OpenAI ma scelto di tenere privata. Con Gemini afferma di aver aperto una nuova era che va oltre i LLM ancorati principalmente al testo, aprendo così la strada a una nuova serie di prodotti AI significativamente diversi da quelli resi possibili da ChatGPT.

Google definisce Gemini un modello “nativamente multimodale”, il che significa che può imparare da dati oltre al solo testo, assorbendo anche informazioni da audio, video e immagini. ChatGPT mostra come i modelli di intelligenza artificiale possano imparare una quantità impressionante sul mondo se forniti di sufficiente testo. E alcuni ricercatori di intelligenza artificiale hanno sostenuto che semplicemente rendendo i modelli di linguaggio più grandi aumenterebbe le loro capacità al punto di poter competere con quelle degli esseri umani.

Ma c’è solo tanto che si può imparare sulla realtà fisica tramite il filtro del testo che gli esseri umani hanno scritto su di essa, e le limitazioni difficili da eradicare dell’LLM come GPT-4 – come l’allucinazione di informazioni, la scarsa ragionamento e le strane vulnerabilità di sicurezza – sembrano suggerire che la scalabilità della tecnologia esistente ha i suoi limiti.

In vista dell’annuncio di Gemini di ieri, ENBLE ha parlato con Demis Hassabis, l’esecutivo che ha guidato lo sviluppo di Gemini e le cui precedenti realizzazioni includono il comando del team che ha sviluppato il bot AlphaGo in grado di giocare a Go in modo superumano. Era prevedibilmente entusiasta di Gemini, affermando che introduce nuove capacità che alla fine faranno risaltare i prodotti di Google. Ma Hassabis ha anche detto che per fornire sistemi di intelligenza artificiale in grado di comprendere il mondo in modi che i chatbot odierni non possono, gli LLM dovranno essere combinati con altre tecniche di intelligenza artificiale.

Hassabis è in una competizione aggressiva con OpenAI, ma i rivali sembrano essere d’accordo sul fatto che servano approcci radicalmente nuovi. Un misterioso progetto in corso presso OpenAI, chiamato Q*, suggerisce che l’azienda stia esplorando anche idee che coinvolgono più di semplicemente scalare sistemi come GPT-4.

Questo si adatta a quanto detto ad aprile dal CEO di OpenAI, Sam Altman, al MIT, quando ha chiarito che nonostante il successo di ChatGPT, il campo dell’IA ha bisogno di una grande nuova idea per fare progressi significativi.” Penso che siamo alla fine dell’era in cui avremo questi modelli giganti, giganti,” ha detto Altman. “li renderemo migliori in altri modi.”

Google potrebbe aver appena dimostrato un approccio che può andare oltre ChatGPT. Ma forse il messaggio più rilevante dal lancio di Gemini è che Google è determinato a puntare a qualcosa di più significativo rispetto agli attuali chatbot—così come sembra fare anche OpenAI.