Questa nuova tecnologia potrebbe spazzare via GPT-4 e tutto ciò che gli assomiglia

Questa nuova tecnologia potrebbe rivoluzionare completamente il GPT-4 e tutti i suoi simili

Iena

La Gerarchia delle Iene di Stanford e MILA è una tecnologia per relazionare elementi di dati, che siano parole o pixel in un’immagine digitale. La tecnologia può raggiungere una precisione simile alle attuali “fonti d’oro” per modelli di linguaggio estesi, come il meccanismo di “attenzione”, ma con una potenza di calcolo fino a 100 volte inferiore.

Nonostante tutta la fervente attenzione nell’intelligenza artificiale del programma chatbot noto come ChatGPT, sviluppato da OpenAI, e nella sua successiva tecnologia, GPT-4, alla fine questi programmi sono solo applicazioni software. E come tutte le applicazioni, hanno delle limitazioni tecniche che possono influire negativamente sulle prestazioni. 

In un articolo pubblicato a marzo, scienziati nell’intelligenza artificiale dell’Università di Stanford e dell’istituto canadese MILA hanno proposto una tecnologia che potrebbe essere molto più efficiente di GPT-4, o qualsiasi altra tecnologia simile, nel processare grandi quantità di dati e convertirli in una risposta. 

Inoltre: Ex dipendenti Apple vogliono sostituire gli smartphone con questo gadget

Chiamata Hyena, questa tecnologia è in grado di raggiungere una precisione equivalente nei test di riferimento, come la risposta a una domanda, utilizzando solo una frazione della potenza di calcolo necessaria. In alcuni casi, il codice di Hyena è in grado di gestire quantità di testo tali da far fallire la tecnologia di tipo GPT a causa della mancanza di memoria. 

“I nostri promettenti risultati su scala di sottomiliardo di parametri suggeriscono che l’attenzione potrebbe non essere tutto ciò di cui abbiamo bisogno”, scrivono gli autori. Questo commento si riferisce al titolo di un importante rapporto sull’intelligenza artificiale del 2017, “L’attenzione è tutto ciò di cui hai bisogno“. In quel documento, lo scienziato di Google Ashish Vaswani e i suoi colleghi hanno presentato al mondo il programma di intelligenza artificiale chiamato Transformer. Il Transformer è diventato la base per tutti i modelli di linguaggio di grandi dimensioni recenti.

Tuttavia, il Transformer ha un grande difetto. Utilizza qualcosa chiamato “attenzione”, dove il programma informatico prende le informazioni da un gruppo di simboli, come parole, e sposta quelle informazioni verso un nuovo gruppo di simboli, come la risposta che vedi da ChatGPT, che è l’output. 

Inoltre: Cosa è GPT-4? Ecco tutto quello che devi sapere

Questa operazione di attenzione, lo strumento essenziale di tutti i programmi di linguaggio di grandi dimensioni, inclusi ChatGPT e GPT-4, ha una complessità computazionale “quadratica” (Wikipedia “complessità temporale” del calcolo). Questa complessità significa che il tempo richiesto da ChatGPT per produrre una risposta aumenta in modo esponenziale rispetto alla quantità di dati ricevuti come input. 

Ad un certo punto, se ci sono troppi dati – troppe parole nella frase di input o troppe stringhe di conversazioni che si sono svolte per ore e ore con il programma – il programma si blocca fornendo una risposta, o deve essere dotato di un numero sempre maggiore di chip GPU per funzionare più velocemente, comportando un aumento nella richiesta di calcolo.

Nel nuovo articolo, “Hyena Hierarchy: verso modelli di linguaggio convoluzionali più grandi”, pubblicato sul server arXiv come bozza preliminare, l’autore principale Michael Poli di Stanford e i suoi colleghi propongono di sostituire la funzione di attenzione del Transformer con qualcosa di sub-quadratico, ovvero Hyena.

Inoltre: Cosa è Auto-GPT? Tutto quello che devi sapere sul prossimo potente strumento di IA

Gli autori non spiegano il significato del nome, ma si possono immaginare diverse ragioni per un programma chiamato “Hyena”. Le iene sono animali che vivono in Africa e possono cacciare per miglia e miglia. In un certo senso, un modello di linguaggio molto potente potrebbe essere simile a una iena, che caccia per miglia e miglia per trovare nutrimento.

Ma gli autori sono veramente interessati alla “gerarchia”, come suggerisce il titolo, e le famiglie di iene hanno una rigorosa gerarchia in cui i membri di un branco locale di iene hanno diversi livelli di rango che stabiliscono la dominanza. In qualche modo analogo, il programma Hyena applica una serie di operazioni molto semplici, come vedrete, più e più volte, in modo che si combinino per formare una sorta di gerarchia di elaborazione dati. È questo elemento combinatorio che dà al programma il suo nome Hyena.

Inoltre: Versioni future del ChatGPT potrebbero sostituire la maggior parte del lavoro che le persone fanno oggi, secondo Ben Goertzel

Gli autori contribuenti del documento includono luminari del mondo dell’IA, come Yoshua Bengio, direttore scientifico del MILA, che è ricevente del Premio Turing 2019, l’equivalente del Nobel dell’informatica. A Bengio è ampiamente attribuito lo sviluppo della meccanismo di attenzione molto prima che Vaswani e il suo team lo adattassero per il Transformer.

tra gli autori figura anche Christopher Ré, professore associato di informatica all’Università di Stanford, che negli ultimi anni ha contribuito a promuovere l’idea di un’IA come “software 2.0”.

Per trovare un’alternativa sub-quadratica all’attenzione, Poli e il suo team hanno iniziato a studiare come il meccanismo di attenzione fa ciò che fa, per vedere se quel lavoro potesse essere svolto in modo più efficiente.

Una pratica recente nella scienza dell’IA, nota come interpretabilità meccanicistica, sta producendo conoscenze su cosa succede all’interno di una rete neurale, all’interno dei “circuiti” computazionali dell’attenzione. Puoi pensare a questa pratica come smontare un software come si smonta un orologio o un PC per vedere le sue parti e capire come funziona.

Inoltre: Ho usato ChatGPT per scrivere la stessa routine in 12 dei principali linguaggi di programmazione. Ecco come si è comportato

Uno dei lavori citati da Poli e dal suo team è un insieme di esperimenti condotti dal ricercatore Nelson Elhage della startup di IA Anthropic. Questi esperimenti smontano i programmi Transformer per vedere cosa fa l’attenzione.

In sostanza, ciò che Elhage e il suo team hanno scoperto è che l’attenzione funziona al suo livello più basilare attraverso operazioni informatiche molto semplici, come copiare una parola dall’input recente e incollarla nell’output.

Ad esempio, se uno inizia a digitare in un grande programma di modellazione del linguaggio come ChatGPT una frase tratta da Harry Potter e la Pietra Filosofale, come “Mr. Dursley era il direttore di una ditta chiamata Grunnings…”, digitando solo “D-u-r-s”, l’inizio del nome, potrebbe essere sufficiente per far sì che il programma completi il nome “Dursley” perché ha visto il nome in una frase precedente di Pietra Filosofale. Il sistema è in grado di copiare dalla memoria il record dei caratteri “l-e-y” per autocompletare la frase.

Inoltre: ChatGPT è più simile a un’intelligenza aliena che a un cervello umano, afferma un futurologo

Tuttavia, l’operazione di attenzione si scontra con il problema della complessità quadratica man mano che il numero di parole cresce. Più parole richiedono più “pesi” o parametri, per eseguire l’operazione di attenzione.

Come scrivono gli autori: “Il blocco del Transformer è uno strumento potente per la modellazione di sequenze, ma non è privo di limitazioni. Uno dei più evidenti è il costo computazionale, che cresce rapidamente all’aumentare della lunghezza della sequenza di input”.

Anche se i dettagli tecnici di ChatGPT e GPT-4 non sono stati divulgati da OpenAI, si pensa che possano avere un trilione o più di tali parametri. L’esecuzione di questi parametri richiede un numero maggiore di chip GPU di Nvidia, aumentando così il costo di elaborazione.

Per ridurre il costo computazionale quadratico, Poli e il suo team sostituiscono l’operazione di attenzione con ciò che viene chiamato una “convoluzione”, che è una delle operazioni più antiche nei programmi di intelligenza artificiale, sviluppata negli anni ’80. Una convoluzione è semplicemente un filtro che può selezionare elementi nei dati, che siano pixel in una foto digitale o parole in una frase.

Inoltre: Il successo di ChatGPT potrebbe spingere verso l’adozione di un’approccio più segreto nell’intelligenza artificiale, afferma il pioniere dell’IA Bengio

Poli e il suo team fanno una sorta di mash-up: prendono il lavoro svolto da Daniel Y. Fu e dal team di ricerca di Stanford per applicare filtri convoluzionali a sequenze di parole, e lo combinano con il lavoro svolto dal ricercatore David Romero e i suoi colleghi presso l’Università Vrije di Amsterdam che permette al programma di modificare la dimensione del filtro al volo. Questa capacità di adattamento flessibile riduce il numero di parametri costosi, o pesi, che il programma deve avere.

Hyena è una combinazione di filtri che si basano l’uno sull’altro senza aumentare notevolmente i parametri della rete neurale.

Il risultato del mash-up è che una convoluzione può essere applicata a una quantità illimitata di testo senza richiedere sempre più parametri per copiare sempre più dati. È un approccio “senza attenzione”, come affermano gli autori.

“Gli operatori di Hyena sono in grado di ridurre significativamente il divario qualitativo con l’attenzione su larga scala”, scrivono Poli e il suo team, “raggiungendo una perplessità e prestazioni simili con un budget computazionale più ridotto”. La perplessità è un termine tecnico che si riferisce a quanto sofisticata sia la risposta generata da un programma come ChatGPT.

Per dimostrare le capacità di Hyena, gli autori testano il programma su una serie di benchmark che determinano quanto un programma di linguaggio sia bravo in una varietà di compiti di intelligenza artificiale.

Inoltre:  “Stanno accadendo cose strane nel software”, afferma il professor Chris Ré dell’IA di Stanford

Uno dei test è The Pile, una raccolta di testi di 825 gigabyte realizzata nel 2020 da Eleuther.ai, un’organizzazione di ricerca sull’intelligenza artificiale senza scopo di lucro. I testi sono raccolti da fonti “di alta qualità” come PubMed, arXiv, GitHub, l’Ufficio Brevetti degli Stati Uniti e altre, in modo che le fonti abbiano una forma più rigorosa rispetto alle discussioni su Reddit, ad esempio.

La sfida chiave per il programma era generare la parola successiva quando gli venivano fornite alcune nuove frasi come input. Il programma Hyena è riuscito a ottenere un punteggio equivalente al programma GPT originale di OpenAI del 2018, con il 20% in meno di operazioni di calcolo: “la prima architettura di convoluzione senza attenzione in grado di raggiungere la qualità di GPT con meno operazioni”, scrivono i ricercatori.

Hyena è riuscito a raggiungere il programma GPT originale di OpenAI con il 20% in meno di operazioni di calcolo.

Successivamente, gli autori hanno testato il programma su compiti di ragionamento noti come SuperGLUE, introdotti nel 2019 da studiosi dell’Università di New York, della Ricerca sull’IA di Facebook, dell’unità DeepMind di Google e dell’Università di Washington.

Ad esempio, quando viene fornita la frase “Il mio corpo getta un’ombra sull’erba” e due alternative per la causa, “il sole stava sorgendo” o “l’erba è stata tagliata”, e viene chiesto di scegliere una delle due, il programma dovrebbe generare “il sole stava sorgendo” come output appropriato.

In diversi compiti, il programma Hyena ha ottenuto punteggi pari o vicini a quelli di una versione di GPT pur essendo addestrato con meno della metà dei dati di addestramento.

Inoltre: Come utilizzare il nuovo Bing (e come si differenzia da ChatGPT)

Anche più interessante è ciò che è successo quando gli autori hanno aumentato la lunghezza delle frasi usate come input: più parole significavano un miglioramento migliore delle prestazioni. A 2.048 “token”, che si possono considerare come parole, Hyena impiega meno tempo per completare un compito linguistico rispetto all’approccio dell’attenzione.

A 64.000 token, riferiscono gli autori, “gli speed-up di Hyena raggiungono 100 volte” – un miglioramento delle prestazioni di cento volte.

Poli e il suo team sostengono che non hanno semplicemente provato un approccio diverso con Hyena, hanno “superato la barriera quadratica”, causando un cambiamento qualitativo nel modo in cui è difficile per un programma calcolare i risultati.

Suggeriscono che ci possano essere anche cambiamenti potenzialmente significativi nella qualità più avanti: “Superare la barriera quadratica è un passo fondamentale verso nuove possibilità per il deep learning, come utilizzare interi libri di testo come contesto, generare musica lunga o elaborare immagini di scala gigapixel”, scrivono.

La capacità di Hyena di utilizzare un filtro che si estende in modo più efficiente su migliaia e migliaia di parole, scrivono gli autori, significa che non può esserci praticamente alcun limite al “contesto” di una query verso un programma linguistico. Potrebbe, in pratica, richiamare elementi di testi o di conversazioni precedenti molto distanti dal filo corrente della conversazione, proprio come le iene che cacciano per miglia.

Inoltre: I migliori chatbot di intelligenza artificiale: ChatGPT e altre alternative divertenti da provare

“Gli operatori di Hyena hanno un contesto illimitato”, scrivono. “In altre parole, non sono limitati artificialmente ad esempio dalla località e possono apprendere dipendenze a lunga distanza tra qualunque elemento [input]”.

Inoltre, oltre alle parole, il programma può essere applicato a dati di diverse modalità, come immagini e forse anche video e suoni.

È importante notare che il programma Hyena mostrato nel documento è di piccole dimensioni rispetto a GPT-4 o persino GPT-3. Mentre GPT-3 ha 175 miliardi di parametri o pesi, la versione più grande di Hyena ha solo 1,3 miliardi di parametri. Quindi, bisognerà vedere quanto bene Hyena si comporterà in un confronto diretto completo con GPT-3 o 4.

Ma se l’efficienza ottenuta si mantiene nelle versioni più grandi del programma Hyena, potrebbe essere un nuovo paradigma tanto diffuso quanto l’attenzione è stata durante l’ultimo decennio.

Come concludono Poli e il suo team: “Progetti più semplici e sub-quadratici come Hyena, basati su un insieme di semplici principi guida e valutazione su benchmark di interpretabilità meccanicistica, potrebbero costituire la base per modelli grandi ed efficienti”.