Demis Hassabis di Google DeepMind afferma che Gemini è una nuova generazione di intelligenza artificiale

Demis Hassabis di Google DeepMind sostiene che Gemini rappresenta una nuova generazione di intelligenza artificiale

Demis Hassabis non ha mai avuto timore di annunciare grandi progressi nell’intelligenza artificiale. In particolare, è diventato famoso nel 2016 dopo che un bot chiamato AlphaGo ha imparato da solo a giocare al complesso e sottile gioco da tavolo Go con abilità e ingegno sovrumani.

Oggi, Hassabis dice che il suo team di Google ha compiuto un passo avanti ancora più grande—per lui, per l’azienda e sperabilmente per l’intero campo dell’IA. Gemini, il modello di intelligenza artificiale annunciato da Google oggi, apre una strada mai battuta nell’IA che potrebbe portare a nuovi grandi progressi.

“Essendo sia un neuroscienziato che un informatico, da anni ho voluto cercare di creare una sorta di nuova generazione di modelli di intelligenza artificiale ispirati dal modo in cui interagiamo e comprendiamo il mondo attraverso tutti i nostri sensi”, ha dichiarato Hassabis a ENBLE prima dell’annuncio di oggi. Gemini è “un grande passo verso quel tipo di modello”, afferma. Google descrive Gemini come “multimodale” perché può elaborare informazioni sotto forma di testo, audio, immagini e video.

Una versione iniziale di Gemini sarà disponibile tramite il chatbot Bard di Google a partire da oggi. L’azienda afferma che la versione più potente del modello, Gemini Ultra, sarà rilasciata l’anno prossimo e supererà GPT-4, il modello dietro ChatGPT, su diversi benchmark comuni. I video pubblicati da Google mostrano Gemini risolvere compiti che implicano ragionamento complesso e anche esempi del modello che combina informazioni da immagini, testo, audio e video.

“Fino ad ora, la maggior parte dei modelli ha approssimato la multimodalità addestrando moduli separati e poi riunendoli insieme”, afferma Hassabis, in quello che sembrava essere un riferimento velato alla tecnologia di OpenAI. “Va bene per alcuni compiti, ma non puoi avere questo tipo di ragionamento complesso in uno spazio multimodale.”

OpenAI ha lanciato un aggiornamento a ChatGPT a settembre che ha conferito al chatbot la capacità di prendere immagini e audio come input oltre al testo. OpenAI non ha divulgato dettagli tecnici su come GPT-4 faccia ciò o sulla base tecnica delle sue capacità multimodali.

Google ha sviluppato e lanciato Gemini con una velocità sorprendente rispetto ai precedenti progetti di intelligenza artificiale dell’azienda, spinto dalla recente preoccupazione riguardo alla minaccia che sviluppi da parte di OpenAI e altri potrebbero rappresentare per il futuro di Google.

Alla fine del 2022, Google era considerata l’azienda leader nell’IA tra le grandi aziende tecnologiche, con un gruppo di ricercatori di intelligenza artificiale che hanno dato un grande contributo al settore. Il CEO Sundar Pichai aveva dichiarato che la strategia dell’azienda era “essere ‘AI first'” e Google aveva aggiunto con successo l’IA a molti dei suoi prodotti, dalla ricerca agli smartphone.

Come Fermare un Altro Disastro di OpenAI

Paresh Dave

OpenAI ha Accettato di Acquistare Chip di Intelligenza Artificiale per 51 Milioni di Dollari da una Startup Supportata dal CEO Sam Altman

Paresh Dave

Come la Struttura Insolita di OpenAI ha Permesso a 4 Persone di Licenziare Sam Altman

Paresh Dave

Poco dopo il lancio di ChatGPT da parte di OpenAI, una stravagante startup con meno di 800 dipendenti, Google non veniva più considerata al primo posto nell’IA. La capacità di ChatGPT di rispondere a ogni tipo di domanda con arguzia che poteva sembrare sovrumana sollevava l’ipotesi che il motore di ricerca di punta di Google potesse essere superato—soprattutto quando Microsoft, un investitore in OpenAI, ha inserito la tecnologia sottostante nel proprio motore di ricerca Bing.

Stordito all’azione, Google si è affrettato a lanciare Bard, un concorrente di ChatGPT, ha rivoluzionato il suo motore di ricerca e ha lanciato un nuovo modello, PaLM 2, per competere con quello dietro ChatGPT. Hassabis è stato promosso a capo della nuova divisione di intelligenza artificiale di Google, combinando il suo team di laboratorio di intelligenza artificiale con il gruppo di ricerca di intelligenza artificiale principale di Google, Google Brain. A maggio, alla conferenza per sviluppatori di Google, I/O, Pichai ha annunciato che stava addestrando un nuovo successore più potente di PaLM chiamato Gemini. Non lo ha detto all’epoca, ma il progetto è stato nominato in onore del gemellaggio dei due principali laboratori di intelligenza artificiale di Google, e come omaggio al Progetto Gemini della NASA, che ha aperto la strada agli allunaggi dell’Apollo.

Circa sette mesi dopo, Gemini è finalmente qui. Hassabis afferma che la capacità del nuovo modello di gestire diverse forme di dati, inclusi quelli oltre il testo, è stata una parte chiave della visione del progetto fin dall’inizio. La capacità di attingere dati in diversi formati è considerata da molti ricercatori di intelligenza artificiale come una capacità fondamentale dell’intelligenza naturale che finora è stata in gran parte assente dalle macchine.

I grandi modelli linguistici dietro i sistemi come ChatGPT ottengono la loro flessibilità e potenza essendo basati su algoritmi che imparano da enormi volumi di dati di testo prelevati dal web e da altre fonti. Possono rispondere a domande e produrre poesie e pastiches letterari sorprendenti riproducendo e rimescolando schemi appresi da quei dati di addestramento (aggiungendo talvolta anche fatti “inventati”).

Ma sebbene ChatGPT e chatbot simili possano usare lo stesso trucco per discutere o rispondere a domande sul mondo fisico, questa apparente comprensione può rapidamente disfarsi. Molti esperti di intelligenza artificiale ritengono che per far progredire significativamente l’intelligenza delle macchine sarà necessario sviluppare sistemi che abbiano una qualche forma di “radicamento” nella realtà fisica, magari combinando un modello linguistico con un software in grado anche di vedere, ascoltare e forse in futuro anche toccare.

Hassabis afferma che Google DeepMind sta già analizzando come Gemini potrebbe essere combinato con la robotica per interagire fisicamente con il mondo. “Per diventare davvero multimodali, si vorrebbe includere il tatto e il feedback tattile”, afferma. “Ci sono molte possibilità nell’applicare questo tipo di modelli fondamentali alla robotica, e stiamo esplorando a fondo questa possibilità”.

Google ha già compiuto i primi passi in questa direzione. A maggio 2022, l’azienda ha annunciato un modello di intelligenza artificiale chiamato Gato in grado di imparare a svolgere una vasta gamma di compiti, tra cui giocare a giochi Atari, descrivere immagini e utilizzare un braccio robotico per impilare blocchi. A luglio, Google ha presentato un progetto chiamato RT-2 che coinvolge l’uso di modelli linguistici per aiutare i robot a comprendere ed eseguire azioni.

Hassabis afferma che i modelli in grado di ragionare meglio sulle informazioni visive dovrebbero essere anche più utili come agenti software, o bot che cercano di fare cose utilizzando un computer e Internet in modo simile a una persona. OpenAI e altri stanno già cercando di adattare ChatGPT e sistemi simili a una nuova generazione di assistenti virtuali molto più capaci e utili, ma attualmente sono poco affidabili.

Perché gli agenti di intelligenza artificiale funzionino in modo affidabile, gli algoritmi che li alimentano devono essere molto più intelligenti. OpenAI sta lavorando a un progetto chiamato Q* che è stato progettato per migliorare le capacità di ragionamento dei modelli di intelligenza artificiale, forse utilizzando l’apprendimento per rinforzo, la tecnica che è al cuore di AlphaGo. Hassabis afferma che anche la sua azienda sta conducendo ricerche in questa direzione.

“Abbiamo alcuni degli esperti di apprendimento per rinforzo migliori al mondo che hanno inventato alcune di queste cose”, afferma. I progressi compiuti da AlphaGo sperano di aiutare a migliorare la pianificazione e il ragionamento nei modelli futuri, come quello lanciato oggi. “Abbiamo alcune interessanti innovazioni su cui stiamo lavorando per le future versioni di Gemini. Vedrete molti avanzamenti rapidi l’anno prossimo”.

Con Google, OpenAI e altri giganti tecnologici in gara per accelerare il ritmo della loro ricerca e implementazione nell’intelligenza artificiale, i dibattiti sui rischi che i modelli attuali e futuri potrebbero comportare sono diventati più intensi, compresi quelli tra i capi di stato. Hassabis è stato coinvolto in un’iniziativa lanciata dal governo britannico all’inizio di quest’anno che ha portato a una dichiarazione di avvertimento sui potenziali pericoli dell’IA e alla richiesta di ulteriori ricerche e discussioni. Le tensioni legate al ritmo con cui OpenAI stava commercializzando la sua IA sembrano aver giocato un ruolo in un recente dramma in sala riunioni che ha visto il CEO Sam Altman brevemente deposto.

Hassabis afferma che molto prima che Google acquisisse DeepMind nel 2014, lui e i suoi co-fondatori Shane Legg e Mustafa Suleyman stavano già discutendo modi per studiare e mitigare possibili rischi. “Abbiamo alcune delle migliori squadre al mondo alla ricerca di pregiudizi, tossicità e anche altre forme di sicurezza”, afferma.

Anche se Google lancia oggi la versione iniziale di Gemini, il lavoro sul test di sicurezza della versione più potente, Ultra, prevista per il prossimo anno, è ancora in corso. “Stiamo perfezionando quei controlli e bilanci, test di sicurezza e responsabilità”, dice Hassabis. “Poi rilasceremo all’inizio del prossimo anno”.