Questi indizi suggeriscono la vera natura del misterioso progetto Q* di OpenAI

Questi indizi rivelano la vera natura del misterioso progetto Q* di OpenAI

La scorsa settimana, dopo che il CEO destituito Sam Altman è stato reinserito in OpenAI, due rapporti hanno affermato che un progetto top-secret dell’azienda aveva spaventato alcuni ricercatori con il suo potenziale per risolvere problemi insolubili in un modo nuovo e potente.

“Con immense risorse di calcolo, il nuovo modello è stato in grado di risolvere alcuni problemi matematici”, ha riportato Reuters, citando una sola fonte anonima. “Nonostante si limiti a eseguire operazioni matematiche di livello scolastico, l’abilità nel superare simili test ha reso i ricercatori molto ottimisti riguardo al futuro successo di Q*”. The Information ha affermato che Q* è visto come una svolta che porterà a “modelli di intelligenza artificiale molto più potenti”, aggiungendo che “il ritmo di sviluppo ha allarmato alcuni ricercatori focalizzati sulla sicurezza dell’IA”, citando una sola fonte anonima.

Iscriviti Oggi stesso

La newsletter Fast Forward di ENBLEWill Knight

Reuters ha inoltre riferito che alcuni ricercatori hanno inviato una lettera esprimendo preoccupazioni sul potenziale di potenza di Q* al consiglio non-profit che ha espulso Altman, sebbene una fonte di ENBLE informata sulla mentalità del consiglio dica che non è stato il caso. E forse in parte grazie al suo nome che evoca teorie del complotto, la speculazione su Q* ha aumentato durante il weekend del Ringraziamento, costruendo una reputazione temibile per un progetto del quale sappiamo praticamente nulla. Altman stesso sembrava confermare l’esistenza del progetto quando gli è stato chiesto di Q* in un’intervista a ENBLE ieri, dicendo “Nessun commento particolare su quella sfortunata fuga di notizie”.

Cosa potrebbe essere Q*? Combinando una lettura attenta dei rapporti iniziali con la considerazione dei problemi più attuali nell’IA, si suggerisce che potrebbe essere correlato a un progetto annunciato da OpenAI a maggio, che afferma potenti risultati ottenuti da una tecnica chiamata “supervisione del processo”.

Il progetto coinvolgeva Ilya Sutskever, chief scientist e cofondatore di OpenAI, che ha contribuito a estromettere Altman ma successivamente ha ritrattato – secondo The Information, ha guidato il lavoro su Q*. Il lavoro di maggio era incentrato sulla riduzione dei piccoli errori logici commessi da grandi modelli di linguaggio (LLM). La supervisione del processo, che consiste nell’addestrare un modello di intelligenza artificiale a disassemblare i passaggi necessari per risolvere un problema, può migliorare le possibilità di un algoritmo di ottenere la risposta giusta. Il progetto ha dimostrato come ciò potrebbe aiutare gli LLM, che spesso commettono errori banali nelle domande di matematica elementare, ad affrontare tali problemi in modo più efficace.

Andrew Ng, professore dell’Università di Stanford che ha guidato i laboratori di intelligenza artificiale sia presso Google che Baidu e che ha introdotto molte persone all’apprendimento automatico attraverso i suoi corsi su Coursera, afferma che migliorare i grandi modelli di linguaggio è il passo logico successivo per renderli più utili. “Gli LLM non sono così bravi con la matematica, ma nemmeno gli esseri umani”, dice Ng. “Tuttavia, se mi dai una penna e della carta, allora sono molto migliore nella moltiplicazione e penso che in realtà non sia così difficile perfezionare un LLM con memoria in modo che possa seguire l’algoritmo per la moltiplicazione.”

Ci sono altre indizi su cosa potrebbe essere Q*. Il nome potrebbe alludere al Q-learning, una forma di apprendimento per rinforzo che implica che un algoritmo impari a risolvere un problema attraverso un feedback positivo o negativo, ed è stato utilizzato per creare bot per i videogiochi e per regolare ChatGPT in modo più utile. Alcuni suggeriscono che il nome potrebbe anche essere correlato all’algoritmo di ricerca A*, ampiamente utilizzato per far sì che un programma trovi il percorso ottimale verso un obiettivo.

Le informazioni forniscono un altro indizio: “La svolta di Sutskever ha permesso a OpenAI di superare i limiti nel reperire dati di alta qualità sufficienti per addestrare nuovi modelli”, dice il suo articolo. “La ricerca ha coinvolto l’utilizzo di dati generati al computer, invece di dati reali come testo o immagini estratte da Internet, per addestrare nuovi modelli.” Quello sembra essere un riferimento all’idea di addestrare algoritmi con dati di addestramento sintetici, che è emersa come un modo per addestrare modelli AI più potenti.

Subbarao Kambhampati, un professore dell’Università di Stato dell’Arizona che sta facendo ricerche sulle limitazioni del ragionamento dei LLM, pensa che Q* potrebbe coinvolgere l’uso di enormi quantità di dati sintetici, combinati con l’apprendimento per rinforzo, per addestrare LLM a compiti specifici come l’aritmetica semplice. Kambhampati osserva che non c’è garanzia che l’approccio si generalizzi in qualcosa che possa capire come risolvere qualsiasi problema matematico possibile.

Per ulteriori speculazioni su cosa potrebbe essere Q*, leggi questo post di un scienziato dell’apprendimento automatico che riassume il contesto e gli indizi in modo impressionante e logico. La versione TLDR è che Q* potrebbe essere un tentativo di utilizzare l’apprendimento per rinforzo e alcune altre tecniche per migliorare la capacità di un grande modello di linguaggio di risolvere compiti attraverso un ragionamento passo dopo passo. Anche se ciò potrebbe rendere ChatGPT migliore nel risolvere enigmi matematici, non è chiaro se ciò suggerirebbe automaticamente che i sistemi AI potrebbero sfuggire al controllo umano.

È plausibile che OpenAI cerchi di utilizzare l’apprendimento per rinforzo per migliorare i LLM perché molti dei primi progetti dell’azienda, come i bot per videogiochi, erano incentrati su questa tecnica. L’apprendimento per rinforzo è stato anche centrale nella creazione di ChatGPT, perché può essere utilizzato per far produrre risposte più coerenti ai LLM chiedendo agli esseri umani di fornire feedback durante una conversazione con un chatbot. Quando ENBLE ha parlato con Demis Hassabis, CEO di Google DeepMind, all’inizio di quest’anno, ha suggerito che l’azienda stava cercando di combinare idee dall’apprendimento per rinforzo con i progressi visti nei grandi modelli di linguaggio.

Riassumendo gli indizi disponibili su Q*, non sembra affatto una ragione per panico. Ma tutto dipende dal tuo valore P(doom) personale, la probabilità che assegni alla possibilità che l’AI distrugga l’umanità. Molto prima di ChatGPT, gli scienziati e i leader di OpenAI erano così spaventati dalla sviluppo di GPT-2, un generatore di testi del 2019 che ora sembra ridicolmente insignificante, che dissero che non poteva essere rilasciato pubblicamente. Ora l’azienda offre accesso gratuito a sistemi molto più potenti.

OpenAI ha rifiutato di commentare su Q*. Forse otterremo ulteriori dettagli quando l’azienda deciderà che è il momento di condividere ulteriori risultati dei suoi sforzi per rendere ChatGPT non solo bravo a parlare ma anche a ragionare.