Il guru dell’IA di Meta, LeCun La maggior parte degli approcci di intelligenza artificiale attuali non porteranno mai a una vera intelligenza.

Il guru dell'IA di Meta, LeCun, afferma che la maggior parte degli approcci di intelligenza artificiale attuali non porteranno mai a una vera intelligenza.

“Penso che i sistemi di intelligenza artificiale abbiano bisogno di saper ragionare”, dice Yann LeCun, capo scienziato di intelligenza artificiale di Meta. Gli approcci di intelligenza artificiale popolari oggi come i Transformers, molti dei quali si basano sui suoi stessi lavori pionieristici nel campo, non saranno sufficienti. “Devi fare un passo indietro e dire, Ok, abbiamo costruito questa scala, ma vogliamo andare sulla luna, e non c’è modo che questa scala ci porti lì”, afferma LeCun.

(L’articolo è aggiornato con le confutazioni di Gary Marcus e Jürgen Schmidhuber nel contesto.)

Yann LeCun, capo scienziato di intelligenza artificiale di Meta, proprietaria di Facebook, Instagram e WhatsApp, è probabile che faccia arrabbiare molte persone nel suo campo.

Con la pubblicazione a giugno di un articolo di riflessione sul server di Open Review, LeCun ha offerto una panoramica generale di un approccio che ritiene promettente per raggiungere l’intelligenza a livello umano nelle macchine.

Non dichiarato ma sottinteso nel documento è l’affermazione che la maggior parte dei grandi progetti di intelligenza artificiale attuali non sarà mai in grado di raggiungere quell’obiettivo di livello umano.

In una discussione questo mese con ENBLE tramite Zoom, LeCun ha chiarito di vedere con grande scetticismo molte delle strade di ricerca più di successo nell’apprendimento profondo al momento.

“Penso che siano necessarie ma non sufficienti”, ha detto LeCun, vincitore del premio Turing, riguardo alle ricerche dei suoi colleghi.

Queste includono grandi modelli di linguaggio come il GPT-3 basato su Transformer e simili. Come lo descrive LeCun, i devoti dei Transformer credono che “tokenizziamo tutto e addestriamo modelli giganteschi per fare previsioni discrete e in qualche modo l’intelligenza artificiale emergerà da tutto questo”.

“Non hanno torto”, afferma, “nel senso che potrebbe essere un componente di un futuro sistema intelligente, ma penso che manchino pezzi essenziali”.

Inoltre: L’esperto di intelligenza artificiale di Meta LeCun esplora la frontiera energetica dell’apprendimento profondo

È una critica sorprendente a ciò che sembra funzionare da parte dello studioso che ha perfezionato l’uso delle reti neurali convoluzionali, una tecnica pratica che ha prodotto risultati incredibili nei programmi di apprendimento profondo.

LeCun vede difetti e limitazioni in molte altre aree di successo della disciplina.

Anche l’apprendimento per rinforzo non sarà mai sufficiente, sostiene. Ricercatori come David Silver di DeepMind, che ha sviluppato il programma AlphaZero che ha padroneggiato gli scacchi, il gioco degli scacchi giapponese Shogi e il gioco cinese Go, si stanno concentrando su programmi “molto basati sull’azione”, osserva LeCun, ma “la maggior parte dell’apprendimento che facciamo, non lo facciamo prendendo effettivamente azioni, lo facciamo osservando”.

Lecun, 62 anni, da una prospettiva di decenni di successi, esprime comunque un’urgenza nel confrontare ciò che ritiene essere vicoli ciechi verso cui molti potrebbero precipitare e cercare di spingere il suo campo nella direzione in cui pensa che dovrebbe andare.

“Vediamo molte affermazioni su cosa dovremmo fare per spingerci verso l’intelligenza artificiale a livello umano”, afferma. “E ci sono idee che, secondo me, sono sbagliate”.

“Non siamo al punto in cui le nostre macchine intelligenti hanno tanto senso comune quanto un gatto”, osserva Lecun. “Quindi, perché non cominciamo da lì?”

Ha abbandonato la sua precedente fiducia nell’uso di reti generative in cose come la previsione del frame successivo in un video. “È stato un completo fallimento”, dice.

LeCun denuncia quelli che chiama “probabilisti religiosi”, che “pensano che la teoria delle probabilità sia l’unico quadro che puoi usare per spiegare l’apprendimento automatico”.

L’approccio puramente statistico è inestricabile, afferma. “È troppo chiedere che un modello del mondo sia completamente probabilistico; non sappiamo come farlo”.

Non solo gli accademici, ma anche l’intelligenza artificiale industriale ha bisogno di una profonda riflessione, sostiene LeCun. La folla delle auto a guida autonoma, le startup come Wayve, sono state “un po’ troppo ottimiste”, dice, pensando che potessero “buttarci dati” su grandi reti neurali “e poter imparare praticamente qualsiasi cosa”.

“Sai, penso che sia del tutto possibile avere auto autonome di livello cinque senza senso comune”, dice, facendo riferimento ai termini “ADAS”, sistema avanzato di assistenza alla guida per la guida autonoma, “ma dovrai ingegnerizzarla fino all’inverosimile”.

Crede che questa tecnologia di guida autonoma sovra-ingegnerizzata sarà qualcosa di scricchiolante e fragile come tutti i programmi di visione artificiale che sono stati resi obsoleti dall’apprendimento profondo.

“In definitiva, ci sarà una soluzione più soddisfacente e possibilmente migliore che coinvolge sistemi che fanno un lavoro migliore nel comprendere il funzionamento del mondo”.

Per strada, LeCun offre alcune opinioni corrosive sui suoi critici più importanti, come il professor Gary Marcus dell’NYU – “non ha mai contribuito nulla all’IA” – e Jürgen Schmidhuber, co-direttore dell’Istituto Dalle Molle per la Ricerca sull’Intelligenza Artificiale – “è molto facile piantare bandiere”.

Oltre alle critiche, il punto più importante sollevato da LeCun è che tutti gli ambiti dell’IA affrontano certi problemi fondamentali, in particolare come misurare l’informazione.

“Devi fare un passo indietro e dire, Ok, abbiamo costruito questa scala, ma vogliamo andare sulla luna, e non c’è modo che questa scala ci ci porti”, dice LeCun, desiderando stimolare una rivalutazione dei concetti di base. “Fondamentalmente, quello che sto scrivendo qui è che abbiamo bisogno di costruire razzi, non posso darti i dettagli su come costruiamo i razzi, ma ecco i principi di base”.

Il documento e i pensieri di LeCun nell’intervista possono essere meglio compresi leggendo l’intervista di LeCun all’inizio di quest’anno con ENBLE, in cui sostiene l’apprendimento auto-supervisionato basato sull’energia come una via avanti per l’apprendimento profondo. Queste riflessioni offrono un’idea dell’approccio fondamentale a ciò che spera di costruire come alternativa alle cose che afferma non arriveranno al traguardo.

Robotica

  • Questa mano protesica alimentata dall’IA sta portando design e stile a un prodotto che cambia la vita
  • I migliori robot aspirapolvere disponibili ora
  • Perché sono solo gli universitari ad avere tutti i robot fantastici?
  • I 5 migliori robot tosaerba: cura del prato senza sforzo

Ciò che segue è una trascrizione leggermente modificata dell’intervista.

ENBLE: L’argomento della nostra conversazione è questo documento, “Un percorso verso l’intelligenza delle macchine autonome”, di cui la versione 0.9.2 è l’attuale versione, giusto?

Yann LeCun: Sì, considero questo un documento di lavoro. L’ho pubblicato su Open Review, in attesa che le persone facciano commenti e suggerimenti, forse forniscano riferimenti aggiuntivi, e poi produrrò una versione rivista.

ENBLE: Vedo che Juergen Schmidhuber ha già aggiunto alcuni commenti su Open Review.

YL: Beh, sì, lo fa sempre. Cito uno dei suoi articoli nel mio. Penso che gli argomenti che ha fatto sui social network, secondo cui ha praticamente inventato tutto questo nel 1991, come ha fatto in altri casi, non siano veri. Voglio dire, è molto facile piantare bandiere e suggerire un’idea senza alcun esperimento, senza alcuna teoria, solo suggerire che potresti farlo in questo modo. Ma sai, c’è una grande differenza tra avere semplicemente l’idea, farla funzionare su un problema di prova, farla funzionare su un problema reale, fare una teoria che spieghi perché funziona e poi implementarla. C’è tutta una catena, e la sua idea di credito scientifico è che la persona che ha avuto per prima l’idea dovrebbe ottenere tutto il merito. E questo è ridicolo.

(Aggiornamento: Jürgen Schmidhuber risponde, “LeCun afferma che la mia ‘idea di credito scientifico è che la persona che ha avuto per prima l’idea dovrebbe ottenere tutto il merito’. In nessun universo questo è vero. Come ho scritto [DLC]: ‘l’inventore di un metodo importante dovrebbe ottenere il merito per averlo inventato. Potrebbe non sempre essere la persona che lo ha reso popolare. In tal caso, la persona che lo ha reso popolare dovrebbe ottenere il merito per averlo reso popolare (ma non per averlo inventato)’. LeCun, tuttavia, apparentemente non è soddisfatto solo del merito di aver reso popolari le invenzioni degli altri; vuole anche il merito dell’inventore. Sta rafforzando una posizione insostenibile che è incompatibile con le regole di integrità scientifica universalmente accettate [T22].”)

ENBLE: Non credere a tutto ciò che senti sui social media.

YL: Voglio dire, il lavoro principale che dice di citare non ha nessuna delle principali idee di cui parlo nel mio lavoro. Ha fatto la stessa cosa anche con i GAN e altre cose, che non si sono rivelate vere. È facile piantare la bandiera, è molto più difficile fare un contributo. E, tra l’altro, in questo particolare lavoro ho esplicitamente detto che non è un lavoro scientifico nel senso usuale del termine. È più un documento di posizione su dove questa cosa dovrebbe andare. E ci sono un paio di idee nuove lì, ma la maggior parte non lo è. Non sto rivendicando alcuna priorità su gran parte di ciò che ho scritto in quel lavoro, essenzialmente.

(Aggiornamento: Schmidhuber risponde, “LeCun afferma su di me: ‘… il lavoro principale che dice che dovrei citare non ha nessuna delle principali idee di cui parlo nel mio lavoro.’ Questo non ha senso. Ho elencato non solo uno, ma diversi lavori rilevanti (inclusi [AC90] [UN1] [AC02] [HRL1] [PLAN4]) che contengono la maggior parte di ciò che LeCun chiama esplicitamente le sue ‘principali contribuzioni originali’ [LEC22a]. LeCun dice [LEC22c]: ‘Non sto rivendicando alcuna priorità su gran parte di ciò che ho scritto in quel lavoro, essenzialmente.’ Tuttavia, lui ha elencato le sue ‘principali contribuzioni originali’ [LEC22a] e ho dimostrato che erano tutto tranne che [LEC]. LeCun afferma su di me ‘Ha fatto la stessa cosa anche con i GAN.’ Questa affermazione falsa non ha giustificazione e nessun riferimento. Le mie reti neurali generative e avversarie basate sul gradiente del 1990 [AC90-AC90b] descrivono i principi di base (spesso citati, implementati e utilizzati) del GAN del 2014, il cui lavoro [GAN1] non ha assegnato correttamente il merito [T22]. La mia pubblicazione sottoposta a revisione paritaria [AC20] su questo tema rimane indiscussa.)

Anche l’apprendimento per rinforzo non sarà mai sufficiente, sostiene LeCun. Ricercatori come David Silver di DeepMind, che ha sviluppato il programma AlphaZero che ha padroneggiato gli scacchi, lo shogi e il go, sono “molto basati sull’azione”, osserva LeCun, ma “la maggior parte dell’apprendimento che facciamo, non lo facciamo prendendo effettivamente azioni, lo facciamo osservando”.

ENBLE: E questo è forse un buon punto di partenza, perché mi chiedo perché hai intrapreso questo percorso ora? Cosa ti ha fatto pensare a questo? Perché volevi scriverlo?

YL: Bene, quindi, ci ho pensato a lungo, a un percorso verso un’intelligenza o un apprendimento di livello umano o animale. E, nei miei discorsi, sono stato piuttosto esplicito su tutta questa cosa che sia l’apprendimento supervisionato che l’apprendimento per rinforzo sono insufficienti per emulare il tipo di apprendimento che osserviamo negli animali e negli esseri umani. Lo faccio da circa sette o otto anni. Quindi, non è recente. Ho tenuto una presentazione principale a NeurIPS molti anni fa in cui ho fatto questo punto, essenzialmente, e vari discorsi, ci sono registrazioni. Ora, perché scrivere un lavoro ora? Siamo arrivati al punto – [il ricercatore di Google Brain] Geoff Hinton ha fatto qualcosa di simile – voglio dire, certamente, lui più di me, vediamo il tempo che passa. Non siamo giovani.

ENBLE: </strong"Sessanta è il nuovo cinquanta".

YL: È vero, ma il punto è che vediamo molte affermazioni su cosa dovremmo fare per spingere verso un’intelligenza di livello umano. E ci sono idee che secondo me sono sbagliate. Quindi, un’idea è, Oh, dovremmo semplicemente aggiungere il ragionamento simbolico sopra le reti neurali. E non so come farlo. Quindi, forse ciò che ho spiegato nel lavoro potrebbe essere un approccio che farebbe la stessa cosa senza manipolazione esplicita dei simboli. Questo è il tipo di persone tradizionalmente come Gary Marcus nel mondo. Gary Marcus non è una persona di intelligenza artificiale, a proposito, è uno psicologo. Non ha mai contribuito nulla all’intelligenza artificiale. Ha fatto davvero un buon lavoro in psicologia sperimentale, ma non ha mai scritto un articolo sottoposto a revisione paritaria sull’intelligenza artificiale. Quindi, ci sono quelle persone.

(Aggiornamento: Gary Marcus smentisce l’affermazione di mancanza di articoli sottoposti a revisione paritaria. Ha fornito via email a ENBLE i seguenti articoli sottoposti a revisione paritaria: Ragionamento di senso comune sugli oggetti utilizzando informazioni radicalmente incomplete in Intelligenza Artificiale; Ragionamento da informazioni radicalmente incomplete: il caso degli oggetti in Advances In Cog Sys; L’ambito e i limiti della simulazione nel ragionamento automatizzato in Intelligenza Artificiale; Ragionamento di senso comune e conoscenza di senso comune in Comunicazioni dell’ACM; Ripensare il connessionismo eliminativo in Cog Psy)

Ci sono [DeepMind principle research scientist] David Silvers nel mondo che dicono, sapete, la ricompensa è sufficiente, fondamentalmente, si tratta di apprendimento per rinforzo, dobbiamo solo renderlo un po’ più efficiente, va bene? E, penso che non abbiano torto, ma penso che i passi necessari per rendere l’apprendimento per rinforzo più efficiente, fondamentalmente relegerebbero l’apprendimento per rinforzo a una sorta di ciliegina sulla torta. E la parte principale mancante è imparare come funziona il mondo, principalmente attraverso l’osservazione senza azione. L’apprendimento per rinforzo è molto basato sull’azione, impari cose sul mondo compiendo azioni e vedendo i risultati.

ENBLE: E’ focalizzato sulla ricompensa.

YL: E’ focalizzato sulla ricompensa, ed è anche focalizzato sull’azione. Quindi, devi agire nel mondo per poter imparare qualcosa sul mondo. E la principale affermazione che faccio nel documento sull’apprendimento auto-sovrainteso è che la maggior parte dell’apprendimento che facciamo, non lo facciamo compiendo effettivamente azioni, lo facciamo osservando. Ed è molto inusuale, sia per le persone dell’apprendimento per rinforzo, in particolare, ma anche per molti psicologi e scienziati cognitivi che pensano che, sai, l’azione è – non sto dicendo che l’azione non sia essenziale, è essenziale. Ma penso che la maggior parte di ciò che impariamo riguardi principalmente la struttura del mondo e coinvolge, ovviamente, interazione e azione e gioco e cose del genere, ma gran parte di ciò è osservativo.

ENBLE:Riuscirai anche a far arrabbiare le persone del Transformer, le persone che danno priorità al linguaggio, allo stesso tempo. Come puoi costruire tutto ciò senza prima il linguaggio? Riuscirai a far arrabbiare molte persone.

YL: Sì, ci sono le persone che danno priorità al linguaggio, che dicono, sai, l’intelligenza riguarda il linguaggio, la base dell’intelligenza è il linguaggio, eccetera, eccetera. Ma questo, in un certo senso, esclude l’intelligenza animale. Sai, non siamo ancora al punto in cui le nostre macchine intelligenti hanno tanto buon senso quanto un gatto. Quindi, perché non iniziare da lì? Cosa permette a un gatto di comprendere il mondo circostante, fare cose abbastanza intelligenti, e pianificare e cose del genere, e i cani ancora meglio?

Poi ci sono tutte le persone che dicono, Oh, l’intelligenza è una cosa sociale, giusto? Siamo intelligenti perché parliamo tra di noi e scambiamo informazioni, eccetera, eccetera. Ci sono tutte le specie non sociali che non incontrano mai i loro genitori che sono molto intelligenti, come ad esempio gli polpi o gli oranghi. Voglio dire, certo, vengono educati dalla madre, ma non sono animali sociali.

Ma l’altra categoria di persone che potrei far arrabbiare sono le persone che dicono che la scalabilità è sufficiente. Quindi, fondamentalmente, usiamo giganteschi Transformers, li addestriamo su dati multimodali che coinvolgono, sai, video, testo, eccetera. Abbiamo, in un certo senso, petrificato tutto, e tokenizzato tutto, e poi addestriamo modelli giganteschi per fare previsioni discrete, fondamentalmente, e in qualche modo l’IA emergerà da questo. Non hanno torto, nel senso che potrebbe essere un componente di un futuro sistema intelligente. Ma penso che manchino parti essenziali.

Spazio

  • Cos’è Artemis? Tutto ciò che devi sapere sulla nuova missione lunare della NASA
  • La NASA ha risolto il mistero delle strane trasmissioni di dati di Voyager 1
  • Il nuovo laser piccolo ma potente della NASA potrebbe trovare acqua sulla Luna
  • La NASA sta aprendo una strada inspirativa. Dobbiamo assicurarci che tutti possano seguirla

C’è un’altra categoria di persone che farò arrabbiare con questo documento. E sono i probabilitisti, i probabilitisti religiosi. Quindi, le persone che pensano che la teoria delle probabilità sia l’unico framework che si possa usare per spiegare l’apprendimento automatico. E come ho cercato di spiegare nel pezzo, è fondamentalmente troppo chiedere che un modello del mondo sia completamente probabilistico. Non sappiamo come farlo. C’è l’intrattabilità computazionale. Quindi sto proponendo di abbandonare completamente questa idea. E ovviamente, sai, questo è un enorme pilastro non solo dell’apprendimento automatico, ma di tutta la statistica, che si proclama il formalismo normale per l’apprendimento automatico.

L’altra cosa –

ENBLE: Stai andando a gonfie vele…

YL: — è ciò che viene chiamato modelli generativi. Quindi, l’idea che si possa imparare a prevedere e si possa forse imparare molto sul mondo tramite la previsione. Quindi, ti do un pezzo di video e chiedo al sistema di prevedere cosa succede dopo nel video. E potrei chiederti di prevedere fotogrammi video effettivi con tutti i dettagli. Ma ciò su cui discuto nel mio articolo è che in realtà è troppo chiedere e troppo complicato. Ed è qualcosa di cui ho cambiato idea. Fino a circa due anni fa, ero un sostenitore di ciò che chiamo modelli generativi a variabile latente, modelli che prevedono cosa succederà dopo o le informazioni mancanti, eventualmente con l’aiuto di una variabile latente, se la previsione non può essere deterministica. Ma ho rinunciato a questa idea. E il motivo per cui l’ho fatto si basa su risultati empirici, in cui le persone hanno cercato di applicare, in un certo senso, l’addestramento basato sulla previsione o sulla ricostruzione del tipo utilizzato in BERTe nei grandi modelli di linguaggio, hanno cercato di applicarlo alle immagini ed è stato un completo fallimento. E il motivo per cui è stato un completo fallimento è, ancora una volta, a causa dei vincoli dei modelli probabilistici in cui è relativamente facile prevedere token discreti come le parole perché possiamo calcolare la distribuzione di probabilità su tutte le parole nel dizionario. Questo è facile. Ma se chiediamo al sistema di produrre la distribuzione di probabilità su tutti i possibili fotogrammi video, non abbiamo idea di come parametrizzarla, o abbiamo qualche idea di come parametrizzarla, ma non sappiamo come normalizzarla. Si tratta di un problema matematico insolubile che non sappiamo come risolvere. 

“Non siamo ancora al punto in cui le nostre macchine intelligenti hanno tanto senso comune quanto un gatto”, osserva Lecun. “Quindi, perché non iniziamo da lì? Cosa permette a un gatto di comprendere il mondo circostante, fare cose intelligenti e pianificare, e ai cani ancora meglio?”

Quindi, ecco perché dico che abbandoniamo la teoria delle probabilità o l’approccio per cose del genere, quello più debole, i modelli basati sull’energia. Ho sostenuto questo anche per decenni, quindi non è una cosa recente. Ma allo stesso tempo, abbandonare l’idea dei modelli generativi perché ci sono molte cose nel mondo che non sono comprensibili e non prevedibili. Se sei un ingegnere, lo chiami rumore. Se sei un fisico, lo chiami calore. E se sei una persona che si occupa di apprendimento automatico, lo chiami, sai, dettagli irrilevanti o cose del genere.

Quindi, l’esempio che ho usato nell’articolo, o che ho usato in conferenze, è quello di volere un sistema di previsione del mondo che aiuti in un’auto a guida autonoma, giusto? Deve essere in grado di prevedere in anticipo le traiettorie di tutte le altre auto, cosa accadrà ad altri oggetti che potrebbero muoversi, pedoni, biciclette, un bambino che corre dietro a un pallone da calcio, cose del genere. Quindi, tutte le cose sul mondo. Ma lungo la strada, potrebbero esserci alberi, e oggi c’è vento, quindi le foglie si muovono nel vento, e dietro gli alberi c’è un laghetto, e ci sono increspature sul laghetto. E queste sono, in sostanza, fenomeni in gran parte imprevedibili. E non vuoi che il tuo modello spenda una quantità significativa di risorse nella previsione di quelle cose che sono sia difficili da prevedere che irrilevanti. Ecco perché sto sostenendo l’architettura di incorporamento congiunto, quei casi in cui la variabile che stai cercando di modellare, non stai cercando di prevederla, stai cercando di modellarla, ma passa attraverso un codificatore e quell’encoder può eliminare molti dettagli sull’input che sono irrilevanti o troppo complicati, fondamentalmente equivalenti a rumore.

ENBLE: Abbiamo discusso all’inizio di quest’anno di modelli basati sull’energia, JEPA e H-JEPA. La mia impressione, se ho capito correttamente, è che tu stia cercando il punto di bassa energia in cui queste due previsioni di incorporamenti X e Y sono più simili, il che significa che se c’è un piccione su un albero in una previsione e c’è qualcosa nello sfondo di una scena, quei potrebbero non essere i punti essenziali che rendono questi incorporamenti simili.

YL: Esatto. Quindi, l’architettura JEPA cerca effettivamente di trovare un compromesso, un compromesso, tra l’estrazione di rappresentazioni che sono massimamente informative sugli input ma anche prevedibili tra loro con un certo livello di accuratezza o affidabilità. Trova un compromesso. Quindi, se ha la scelta tra spendere una quantità enorme di risorse includendo i dettagli del movimento delle foglie e modellare la dinamica che deciderà come si muoveranno le foglie tra un secondo, o semplicemente eliminare tutto ciò lasciandolo cadere a terra attraverso un predittore che elimina tutti quei dettagli, probabilmente lo eliminerà perché è semplicemente troppo difficile da modellare e catturare.

Intelligenza Artificiale

  • 7 suggerimenti avanzati per la scrittura di prompt ChatGPT che devi conoscere
  • I 10 migliori plugin ChatGPT del 2023 (e come sfruttarli al meglio)
  • Ho testato molti strumenti di intelligenza artificiale per il lavoro. Questi sono i miei 5 preferiti finora
  • Umano o bot? Questo gioco del test di Turing mette alla prova le tue capacità di individuazione dell’IA

ENBLE: Una cosa sorprendente è che tu sei stato un grande sostenitore del dire “Funziona, troveremo in seguito la teoria della termodinamica per spiegarla.” Qui hai assunto un approccio del tipo “Non so come risolveremo necessariamente questo problema, ma voglio proporre alcune idee per pensarci,” e forse anche avvicinarti a una teoria o un’ipotesi, almeno. Questo è interessante perché ci sono molte persone che spendono molti soldi per lavorare sulla macchina che può vedere il pedone indipendentemente dal fatto che la macchina abbia il senso comune. E immagino che alcune di queste persone diranno, non arrabbiate, ma diranno, “Va bene, non ci interessa se non ha il senso comune, abbiamo costruito una simulazione, la simulazione è incredibile e continueremo a migliorarla, continueremo a scalare la simulazione.”

E quindi è interessante che tu sia in una posizione in cui puoi dire, facciamo un passo indietro e pensiamo a quello che stiamo facendo. E l’industria sta dicendo che stiamo solo scalando, scalando, scalando, scalando, perché quella manopola funziona davvero. Voglio dire, la manopola dei semiconduttori delle GPU funziona davvero.

YL: Ci sono, tipo, cinque domande lì. Quindi, voglio dire che scalare è necessario. Non sto criticando il fatto che dovremmo scalare. Dovremmo scalare. Quei neural network migliorano man mano che diventano più grandi. Non c’è dubbio che dovremmo scalare. E quelli che avranno un certo livello di senso comune saranno grandi. Non c’è modo di evitarlo, penso. Quindi scalare è buono, è necessario, ma non sufficiente. Questo è il punto che sto facendo. Non si tratta solo di scalare. Questo è il primo punto.

Secondo punto, se la teoria viene prima e cose del genere. Quindi, penso che ci siano concetti che vengono prima che, devi fare un passo indietro e dire, ok, abbiamo costruito questa scala, ma vogliamo andare sulla luna e non c’è modo che questa scala ci porti lì. Quindi, fondamentalmente, quello che sto scrivendo qui è che dobbiamo costruire dei razzi. Non posso darti i dettagli su come costruiamo i razzi, ma ecco i principi di base. E non sto scrivendo una teoria o qualcosa del genere, ma sarà un razzo, ok? O un ascensore spaziale o qualsiasi cosa. Potremmo non avere tutti i dettagli di tutta la tecnologia. Stiamo cercando di far funzionare alcune di queste cose, come ho lavorato su JEPA. L’incorporazione congiunta funziona molto bene per il riconoscimento delle immagini, ma per usarla per addestrare un modello di mondo, ci sono delle difficoltà. Stiamo lavorando su di esse, speriamo di farle funzionare presto, ma potremmo incontrare alcuni ostacoli che potremmo non superare, eventualmente.

Poi c’è un’idea chiave nel documento sul ragionamento, dove se vogliamo che i sistemi siano in grado di pianificare, che puoi pensare come una forma semplice di ragionamento, devono avere variabili latenti. In altre parole, cose che non vengono calcolate da un neural network ma cose che sono – il cui valore viene dedotto in modo da minimizzare una qualche funzione oggettiva, qualche funzione di costo. E quindi puoi usare questa funzione di costo per guidare il comportamento del sistema. E questa non è affatto un’idea nuova, giusto? Questo è un controllo ottimale molto classico che risale alla fine degli anni ’50, inizio anni ’60. Quindi, non rivendico alcuna novità qui. Ma ciò che sto dicendo è che questo tipo di inferenza deve far parte di un sistema intelligente in grado di pianificare e il cui comportamento può essere specificato o controllato non da un comportamento rigido, non dall’apprendimento per imitazione, ma da una funzione oggettiva che guida il comportamento – non guida necessariamente l’apprendimento, ma guida il comportamento. Sai, abbiamo questo nel nostro cervello, e ogni animale ha costi intrinseci o motivazioni intrinseche per le cose. Questo spinge i bambini di nove mesi a voler stare in piedi. Il costo di essere felici quando stai in piedi, quella parte nella funzione di costo è rigida. Ma come ti metti in piedi non lo è, quello è apprendimento.

“Scalare è buono, è necessario, ma non sufficiente,” dice LeCun dei modelli linguistici giganti come i programmi basati sul Transformer della varietà GPT-3. I devoti del Transformer credono che “Tokenizziamo tutto e addestriamo modelli giganteschi per fare previsioni discrete, e in qualche modo l’IA emergerà da questo… ma penso che manchino pezzi essenziali.”

ENBLE: Solo per completare questo punto, gran parte della comunità dell’apprendimento profondo sembra essere d’accordo nel procedere con qualcosa che non ha il senso comune. Sembra che tu stia facendo un argomento abbastanza chiaro qui che ad un certo punto diventa un punto morto. Alcune persone dicono: non abbiamo bisogno di un’auto autonoma con il senso comune perché la scalabilità lo farà. Sembra che tu stia dicendo che non va bene continuare sulla stessa strada?

YL: Sai, penso che sia del tutto possibile che avremo auto autonome di livello cinque senza senso comune. Ma il problema di questo approccio è che sarà temporaneo, perché dovrai ingegnerizzarlo al massimo. Quindi, sai, mappare l’intero mondo, cablare tutti i tipi di comportamenti specifici in situazioni particolari, raccogliere dati sufficienti per avere tutte le situazioni strane che si possono incontrare sulla strada, eccetera, eccetera. E la mia ipotesi è che con sufficienti investimenti e tempo, puoi semplicemente ingegnerizzarlo al massimo. Ma alla fine, ci sarà una soluzione più soddisfacente e forse migliore che coinvolge sistemi che fanno un lavoro migliore nel comprendere il modo in cui il mondo funziona e che hanno, sai, un certo livello di quello che chiameremmo senso comune. Non deve essere un senso comune di livello umano, ma qualche tipo di conoscenza che il sistema può acquisire osservando, ma non osservando qualcuno che guida, solo osservando cose che si muovono intorno e comprendendo molto del mondo, costruendo una base di conoscenza di base su come funziona il mondo, su cui puoi imparare a guidare.

Prendiamo un esempio storico di questo. La visione artificiale classica si basava su molti moduli ingegnerizzati, su cui avresti, in un certo senso, uno strato sottile di apprendimento. Quindi, le cose che sono state battute da AlexNet nel 2012 avevano essenzialmente una prima fase di estrazione delle caratteristiche fatte a mano, come le SIFT [Scale-Invariant Feature Transform (SIFT), una tecnica classica di visione per identificare oggetti salienti in un’immagine] e le HOG [Histogram of Oriented Gradients, un’altra tecnica classica] e varie altre cose. E poi il secondo strato, sorta di caratteristiche di livello medio basate su kernel di caratteristiche e altro, e qualche tipo di metodo non supervisionato. E poi su tutto questo, metti una macchina a vettori di supporto, o altrimenti un classificatore relativamente semplice. E quella era, in un certo senso, la pipeline standard dal 2000 a 2012. E quella è stata sostituita dalle reti neurali end-to-end, in cui non si cabla nulla di tutto questo, si ha solo molti dati e si addestra il sistema dall’inizio alla fine, che è l’approccio che ho sostenuto per molto tempo, ma che, sai, fino ad allora, non era pratico per problemi complessi.

C’è stata una storia simile nel riconoscimento vocale, dove ancora una volta c’è stata una grande quantità di ingegneria dettagliata su come pre-elaborare i dati, estrarre il cepstrum su larga scala [un’inversa della trasformata di Fourier veloce per l’elaborazione del segnale], e poi hai modelli nascosti di Markov, con una sorta di architettura predefinita, eccetera, eccetera, con una mistura di gaussiane. E quindi, è un po’ la stessa architettura della visione in cui hai una parte anteriore fatta a mano e poi uno strato di mezzo addestrato in modo non supervisionato e infine uno strato supervisionato in cima. E ora questo è stato praticamente eliminato dalle reti neurali end-to-end. Quindi, sto vedendo qualcosa di simile nel tentativo di imparare tutto, ma devi avere il giusto a priori, la giusta architettura, la giusta struttura.

La folla delle auto a guida autonoma, startup come Waymo e Wayve, sono state “un po’ troppo ottimistiche”, dice, pensando che potessero “gettare dati e imparare praticamente qualsiasi cosa”. Le auto a guida autonoma di livello 5 di ADAS sono possibili, “Ma dovrai ingegnerizzarle al massimo” e il risultato sarà “fragile” come i modelli di visione artificiale iniziali.

ENBLE: Quello che stai dicendo è che alcune persone cercheranno di ingegnerizzare ciò che attualmente non funziona con l’apprendimento profondo per renderlo applicabile, ad esempio, nell’industria, e inizieranno a creare qualcosa che diventerà obsoleto come nella visione artificiale?

YL: Esatto. Ed è in parte per questo che le persone che lavorano sull’autoguida sono state un po’ troppo ottimistiche negli ultimi anni, perché, sai, hai queste cose, sorta di generiche, come le reti convoluzionali e i Transformer, a cui puoi gettare dati e possono imparare praticamente qualsiasi cosa. Quindi dici, Ok, ho la soluzione a quel problema. La prima cosa che fai è costruire una dimostrazione in cui l’auto si guida da sola per qualche minuto senza ferire nessuno. E poi ti rendi conto che ci sono molti casi particolari e cerchi di tracciare la curva di quanto miglioramento sto ottenendo raddoppiando il set di addestramento e ti rendi conto che non arriverai mai lì perché ci sono tutti i tipi di casi particolari. E devi avere un’auto che provocherà un incidente mortale meno di ogni 200 milioni di chilometri, giusto? Quindi, cosa fai? Beh, vai in due direzioni.

La prima direzione è: come posso ridurre la quantità di dati necessari per il mio sistema per imparare? Ed è qui che entra in gioco l’apprendimento auto-supervisionato. Quindi, molte aziende di auto a guida autonoma sono molto interessate all’apprendimento auto-supervisionato perché è un modo per utilizzare comunque gigantesche quantità di dati di supervisione per l’apprendimento per imitazione, ma ottenendo una migliore performance tramite il pre-addestramento, essenzialmente. E non è ancora del tutto andata a buon fine, ma lo sarà. E poi c’è l’altra opzione, che la maggior parte delle aziende più avanzate a questo punto ha adottato, che è, okay, possiamo fare l’addestramento end-to-end, ma ci sono molti casi particolari che non possiamo gestire, quindi stiamo solo progettando sistemi che si occuperanno di quei casi particolari e, fondamentalmente, li tratteremo come casi speciali e programmeremo il controllo, e quindi programmeremo anche molti comportamenti di base per gestire situazioni speciali. E se hai un team abbastanza grande di ingegneri, potresti farcela. Ma ci vorrà molto tempo e alla fine sarà comunque un po’ fragile, forse abbastanza affidabile da poter essere implementato, ma con un certo grado di fragilità, che, con un approccio più basato sull’apprendimento che potrebbe apparire in futuro, le auto non avranno perché potrebbe avere un certo livello di buon senso e comprensione di come funziona il mondo.

A breve termine, l’approccio “ingegnerizzato” vincerà – già vince. Questo è ciò che fanno Waymo, Cruise e Wayve e simili. Poi c’è l’approccio dell’apprendimento auto-supervisionato, che probabilmente aiuterà l’approccio “ingegnerizzato” a fare progressi. Ma poi, nel lungo periodo, che potrebbe essere troppo lungo per queste aziende aspettare, probabilmente sarà un sistema di guida autonomo intelligente più integrato.

ENBLE: Diciamo oltre l’orizzonte di investimento della maggior parte degli investitori.

YL: Esatto. Quindi, la domanda è, le persone perderanno la pazienza o finiranno i soldi prima che le prestazioni raggiungano il livello desiderato.

ENBLE: C’è qualcosa di interessante da dire su perché hai scelto alcuni degli elementi che hai scelto nel modello? Perché citi Kenneth Craik [1943, La natura dell’esplicazione], e citi Bryson e Ho [1969, Controllo ottimale applicato], e mi chiedo perché hai iniziato con queste influenze, se credevi soprattutto che queste persone avessero fatto centro per quanto riguarda ciò che avevano fatto. Perché hai iniziato da lì?

YL: Beh, non penso che loro avessero tutti i dettagli risolti. Quindi, Bryson e Ho, questo è un libro che ho letto nel 1987 quando ero un borsista postdoc con Geoffrey Hinton a Toronto. Ma sapevo di questa linea di lavoro già quando stavo scrivendo il mio dottorato di ricerca, e ho fatto il collegamento tra il controllo ottimale e il retropropagazione, essenzialmente. Se davvero volessi essere, sai, un altro Schmidhuber, diresti che i veri inventori della retropropagazione erano in realtà i teorici del controllo ottimale Henry J. Kelley, Arthur Bryson, e forse anche Lev Pontryagin, che è un teorico russo del controllo ottimale alla fine degli anni ’50.

Quindi, loro l’hanno capito, e infatti, puoi effettivamente vedere la radice di questo, la matematica sottostante, nella meccanica lagrangiana. Quindi puoi tornare a Euler e Lagrange, in effetti, e trovare un accenno di questo nella loro definizione della meccanica classica lagrangiana, davvero. Quindi, nel contesto del controllo ottimale, questi ragazzi erano interessati fondamentalmente a calcolare le traiettorie dei razzi. Sai, questa era l’era spaziale iniziale. E se hai un modello del razzo, ti dice ecco lo stato del razzo al tempo t, e ecco l’azione che prenderò, quindi spinta e attuatori di vario tipo, ecco lo stato del razzo al tempo t+1.

ENBLE: Un modello stato-azione, un modello di valore.

YL: Esatto, la base del controllo. Quindi, ora puoi simulare il lancio del tuo razzo immaginando una sequenza di comandi, e poi hai una qualche funzione di costo, che è la distanza del razzo dal suo obiettivo, una stazione spaziale o qualunque cosa sia. E quindi, tramite una sorta di discesa del gradiente, puoi capire come posso aggiornare la mia sequenza di azioni in modo che il mio razzo arrivi il più vicino possibile all’obiettivo. E questo deve avvenire retropropagando i segnali all’indietro nel tempo. E questa è la retropropagazione, la retropropagazione del gradiente. Quei segnali, sono chiamati variabili coniugate nella meccanica lagrangiana, ma in realtà sono gradienti. Quindi, hanno inventato la retropropagazione, ma non si sono resi conto che questo principio poteva essere utilizzato per addestrare un sistema a più stadi che può fare riconoscimento dei pattern o qualcosa del genere. Questo non è stato realizzato fino forse alla fine degli anni ’70, inizio degli anni ’80, e poi non è stato effettivamente implementato e reso funzionante fino metà degli anni ’80. Okay, quindi, qui è dove la retropropagazione ha davvero preso il volo perché le persone hanno dimostrato che ecco poche righe di codice che puoi addestrare una rete neurale, end to end, multistrato. E questo supera le limitazioni del Percettrone. E sì, ci sono collegamenti con il controllo ottimale, ma va bene.

ENBLE: Quindi, in pratica, queste influenze con cui hai cominciato risalgono a backprop, ed è stato importante come punto di partenza per te?

YL: Sì, ma penso che le persone abbiano un po’ dimenticato che c’è stato parecchio lavoro su questo, sai, negli anni ’90, o addirittura negli anni ’80, incluso da persone come Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] e persone del genere che ora non lavorano più con le reti neurali, ma l’idea che si possano usare reti neurali per il controllo, e che si possano usare idee classiche di controllo ottimale. Quindi, cose come quello che si chiama controllo modello-predittivo, quello che ora viene chiamato controllo modello-predittivo, questa idea che si possano simulare o immaginare l’esito di una sequenza di azioni se si ha un buon modello del sistema che si vuole controllare e dell’ambiente in cui si trova. E quindi attraverso la discesa del gradiente, essenzialmente – questo non è apprendimento, è inferenza – si può capire qual è la migliore sequenza di azioni che minimizza il mio obiettivo. Quindi, l’uso di una funzione di costo con una variabile latente per l’inferenza è, secondo me, qualcosa che le attuali generazioni di reti neurali su larga scala hanno dimenticato. Ma è stato un componente molto classico dell’apprendimento automatico per molto tempo. Quindi, ogni rete bayesiana o modello grafico o modello grafico probabilistico usava questo tipo di inferenza. Si ha un modello che cattura le dipendenze tra un gruppo di variabili, si conosce il valore di alcune delle variabili, e poi si deve inferire il valore più probabile delle altre variabili. Questo è il principio di base dell’inferenza nei modelli grafici e nelle reti bayesiane, e cose del genere. E penso che fondamentalmente sia di questo che dovrebbe trattarsi il ragionamento, il ragionamento e la pianificazione.

ENBLE: Sei un bayesiano nascosto.

YL: Sono un bayesiano non probabilistico. Ho fatto questa battuta in precedenza. In realtà ero a NeurIPS qualche anno fa, penso che fosse nel 2018 o nel 2019, e sono stato ripreso in video da un bayesiano che mi ha chiesto se fossi un bayesiano, e ho detto, Sì, sono un bayesiano, ma sono un bayesiano non probabilistico, sorta di bayesiano basato sull’energia, se vuoi.

ENBLE: Suona sicuramente come qualcosa di Star Trek. Hai menzionato alla fine di questo articolo che ci vorranno anni di duro lavoro per realizzare ciò che immagini. Raccontami un po’ di che cosa consiste in questo momento parte di quel lavoro.

YL: Quindi, spiego come addestrare e costruire il JEPA nell’articolo. E il criterio che sto sostenendo è avere un modo di massimizzare il contenuto informativo che le rappresentazioni estratte hanno sull’input. E poi il secondo è minimizzare l’errore di previsione. E se hai una variabile latente nel predittore che consente al predittore di essere non deterministico, devi anche regolarizzare questa variabile latente minimizzando il suo contenuto informativo. Quindi, ora ci sono due problemi, che sono come massimizzare il contenuto informativo dell’output di una rete neurale e l’altro è come minimizzare il contenuto informativo di una variabile latente? E se non fai queste due cose, il sistema collasserà. Non imparerà nulla di interessante. Darà energia zero a tutto, qualcosa del genere, cosa che non è un buon modello di dipendenza. È il problema della prevenzione del collasso che ho menzionato.

E sto dicendo che di tutte le cose che le persone hanno mai fatto, ci sono solo due categorie di metodi per prevenire il collasso. Una sono i metodi contrastivi, e l’altra sono i metodi regolarizzati. Quindi, questa idea di massimizzare il contenuto informativo delle rappresentazioni dei due input e minimizzare il contenuto informativo della variabile latente, appartiene ai metodi regolarizzati. Ma gran parte del lavoro in queste architetture di joint embedding sta usando metodi contrastivi. In effetti, sono probabilmente i più popolari al momento. Quindi, la domanda è esattamente come si misura il contenuto informativo in modo tale da poterlo ottimizzare o minimizzare? E qui le cose diventano complicate perché in realtà non sappiamo come misurare effettivamente il contenuto informativo. Possiamo approssimarlo, possiamo fornire un limite superiore, possiamo fare cose del genere. Ma in realtà non misurano effettivamente il contenuto informativo, che, in effetti, in qualche misura non è nemmeno ben definito.

ENBLE: Non è la legge di Shannon? Non è teoria dell’informazione? Hai una certa quantità di entropia, entropia buona e entropia cattiva, e l’entropia buona è un sistema di simboli che funziona, l’entropia cattiva è rumore. Non è tutto risolto da Shannon?

YL: Hai ragione, ma c’è un grave difetto dietro a tutto questo. Hai ragione nel senso che se hai dei dati che ti arrivano e riesci in qualche modo a quantizzare i dati in simboli discreti, e poi misuri la probabilità di ciascuno di quei simboli, allora la quantità massima di informazione portata da quei simboli è la somma dei simboli possibili di Pi log Pi, giusto? Dove Pi è la probabilità del simbolo i – questa è l’entropia di Shannon. [La legge di Shannon è comunemente formulata come H = – ∑ pi log pi.]

Ecco il problema, però: cosa è Pi? È facile quando il numero di simboli è piccolo e i simboli sono estratti in modo indipendente. Quando ci sono molti simboli e dipendenze, diventa molto difficile. Quindi, se hai una sequenza di bit e assumi che i bit siano indipendenti tra loro e le probabilità siano uguali tra uno e zero o quello che vuoi, allora puoi facilmente misurare l’entropia, nessun problema. Ma se le cose che ti arrivano sono vettori ad alta dimensionalità, come, sai, frame video o qualcosa del genere, cosa è Pi? Qual è la distribuzione? Prima devi quantizzare quello spazio, che è uno spazio continuo ad alta dimensionalità. Non hai idea di come quantizzare correttamente questo spazio. Puoi usare il k-means, eccetera. Questo è quello che fanno le persone quando fanno compressione video e compressione immagini. Ma è solo un’approssimazione. E poi devi fare delle ipotesi di indipendenza. Quindi, è evidente che in un video, i frame successivi non sono indipendenti. Ci sono dipendenze, e quel frame potrebbe dipendere da un altro frame che hai visto un’ora fa, che era una foto della stessa cosa. Quindi, sai, non puoi misurare Pi. Per misurare Pi, devi avere un sistema di apprendimento automatico che impara a predire. E quindi torni al problema precedente. Quindi, puoi solo approssimare la misura dell’informazione, fondamentalmente.

“La domanda è esattamente come misurare il contenuto informativo in modo da poter ottimizzare o minimizzare?” dice LeCun. “E qui le cose diventano complicate perché in realtà non sappiamo come misurare effettivamente il contenuto informativo.” Quello che finora si può fare è trovare un sostituto che sia “abbastanza buono per il compito che vogliamo.”

Prendiamo un esempio più concreto. Uno degli algoritmi con cui abbiamo giocato, e di cui ho parlato nell’articolo, è questa cosa chiamata VICReg, varianza-invarianza-regolarizzazione della covarianza. È in un articolo separato che è stato pubblicato all’ICLR ed è stato messo su arXiv circa un anno prima, nel 2021. E l’idea lì è massimizzare l’informazione. E l’idea in realtà è venuta fuori da un articolo precedente del mio gruppo chiamato Barlow Twins. Si massimizza il contenuto informativo di un vettore che esce da una rete neurale assumendo, in sostanza, che l’unica dipendenza tra le variabili sia la correlazione, la dipendenza lineare. Quindi, se si assume che l’unica dipendenza possibile tra coppie di variabili o tra variabili nel tuo sistema sia la correlazione tra coppie di variabili, che è una grossolana approssimazione, allora si può massimizzare il contenuto informativo che esce dal tuo sistema facendo in modo che tutte le variabili abbiano varianza non nulla – diciamo, varianza uno, non importa quale sia – e poi le si correlano all’indietro, lo stesso processo che si chiama sbiancamento, che non è nemmeno nuovo. Il problema con questo è che puoi avere dipendenze estremamente complesse tra gruppi di variabili o anche solo tra coppie di variabili che non sono dipendenze lineari e che non emergono dalle correlazioni. Quindi, ad esempio, se hai due variabili e tutti i punti di quelle due variabili si allineano in una sorta di spirale, c’è una dipendenza molto forte tra quelle due variabili, giusto? Ma in realtà, se calcoli la correlazione tra quelle due variabili, non sono correlate. Quindi, ecco un esempio in cui il contenuto informativo di queste due variabili è in realtà molto piccolo, è solo una quantità perché è la tua posizione nella spirale. Sono decorrelate, quindi pensi di avere molte informazioni che escono da quelle due variabili quando in realtà non le hai, puoi prevedere una delle variabili dall’altra, fondamentalmente. Quindi, questo mostra che abbiamo solo modi molto approssimativi per misurare il contenuto informativo.

ENBLE: E quindi questa è una delle cose su cui devi lavorare ora? Questa è la domanda più ampia su come sappiamo quando stiamo massimizzando e minimizzando il contenuto informativo?

YL: O se il sostituto che stiamo usando per questo è abbastanza buono per il compito che vogliamo. In realtà, facciamo questo tutto il tempo nell’apprendimento automatico. Le funzioni di costo che minimizziamo non sono mai quelle che vogliamo effettivamente minimizzare. Quindi, ad esempio, vuoi fare una classificazione, okay? La funzione di costo che vuoi minimizzare quando addestri un classificatore è il numero di errori che il classificatore sta commettendo. Ma quella è una funzione di costo non differenziabile, orribile che non puoi minimizzare perché, sai, cambierai i pesi della tua rete neurale, nulla cambierà fino a quando uno di quei campioni non cambierà la sua decisione, e poi un salto nell’errore, positivo o negativo.

ENBLE: Quindi hai un proxy che è una funzione obiettivo di cui puoi dire definitivamente, possiamo sicuramente far fluire i gradienti di questa cosa.

YL: Esatto. Quindi le persone usano questa perdita di entropia incrociata, o SOFTMAX, ha diversi nomi, ma è la stessa cosa. Ed essenzialmente è una approssimazione liscia del numero di errori che il sistema commette, dove la smussatura è fatta, fondamentalmente, tenendo conto del punteggio che il sistema assegna a ciascuna delle categorie.

ENBLE: C’è qualcosa che non abbiamo affrontato che vorresti coprire?

YL: Probabilmente è importante sottolineare i punti principali. Penso che i sistemi di intelligenza artificiale debbano essere in grado di ragionare, e il processo che sto sostenendo per questo è quello di minimizzare un obiettivo rispetto a una variabile latente. Ciò consente ai sistemi di pianificare e ragionare. Penso che dovremmo abbandonare il quadro probabilistico perché diventa inestricabile quando vogliamo fare cose come catturare le dipendenze tra variabili continue ad alta dimensionalità. E sto sostenendo di abbandonare i modelli generativi perché il sistema dovrà dedicare troppe risorse alla previsione di cose troppo difficili da prevedere e potrebbe consumare troppe risorse. E questo è praticamente tutto. Questi sono i messaggi principali, se vuoi. E poi l’architettura complessiva. Poi ci sono quelle speculazioni sulla natura della coscienza e il ruolo del configuratore, ma questo è davvero solo speculazione.

ENBLE: Arriveremo a questo la prossima volta. Volevo chiederti, come si fa a fare il benchmarking di questa cosa? Ma suppongo che tu sia un po’ lontano dal benchmarking in questo momento?

YL: Non necessariamente così lontano, in versioni semplificate. Puoi fare quello che tutti fanno nel controllo o nell’apprendimento per rinforzo, cioè addestrare il sistema a giocare ai giochi Atari o qualcosa del genere o qualche altro gioco che ha una certa incertezza.

ENBLE: Grazie per il tuo tempo, Yann.