La AI generativa può risolvere il più grande problema irrisolto delle scienze informatiche?

La AI generativa risolve il problema irrisolto delle scienze informatiche?

Quando gli scienziati informatici si ritrovano alle feste, sono inclini a conversare, tra le altre cose, sul problema irrisolto più importante nella scienza dell’informatica: la domanda, P = NP?

Formulata quasi 50 anni fa, la questione se P sia uguale a NP è una riflessione profonda su ciò che può essere raggiunto in definitiva con i computer. La domanda, che ha implicazioni per campi come la crittografia e la computazione quantistica, ha resistito a una risposta convincente nonostante decenni di studio intenso. Ora, questo sforzo ha coinvolto l’aiuto dell’IA generativa.

Inoltre: RT-2 di DeepMind rende il controllo dei robot una questione di chat di intelligenza artificiale

In un articolo intitolato “Grande modello di linguaggio per la scienza: uno studio su P vs. NP,” l’autore principale Qingxiu Dong e i colleghi programmano il grande modello di linguaggio GPT-4 di OpenAI utilizzando quello che chiamano il metodo socratico, diverse conversazioni tramite prompt con GPT-4. (L’articolo è stato pubblicato questo mese sul server di pre-stampa arXiv da scienziati di Microsoft, dell’Università di Pechino, dell’Università Beihang di Pechino e dell’Università di Tecnologia e Commercio di Pechino.)

Il metodo del team consiste nel prendere argomenti da un articolo precedente e “nutrire” GPT-4 per ottenere risposte utili.

Dong e il team osservano che GPT-4 dimostra argomenti per concludere che P, effettivamente, non è uguale a NP. E sostengono che il lavoro dimostra che i grandi modelli di linguaggio possono fare più che restituire grandi quantità di testo, possono anche “scoprire nuove intuizioni” che possono portare a “scoperte scientifiche”, prospettiva che hanno chiamato “LLMs per la Scienza”.

Per comprendere ciò che gli autori stanno facendo, è necessario conoscere un po’ il problema P = NP.

Formulato indipendentemente negli anni ’70 dagli scienziati informatici Stephen Cook e Leonid Levin, il problema P versus NP – o, “P = NP”, come spesso viene indicato – è una questione su quanto sia facile risolvere un determinato problema con un computer. La lettera P rappresenta i problemi che sono stati dimostrati essere fattibili da risolvere, cioè il tempo per calcolare una soluzione non è irraggiungibile; e la soluzione è anche facile da verificare, cioè è facile controllare se la risposta è corretta.

Inoltre: Microsoft, TikTok danno all’IA generativa una sorta di memoria

Le lettere NP, al contrario, stanno per problemi la cui risposta è relativamente facile da verificare, proprio come P, ma per i quali non è noto un modo facile per calcolare una soluzione. È comune citare il gioco del Sudoku come esempio di NP: qualsiasi gioco del Sudoku completato può essere facilmente controllato per verificare l’accuratezza, ma il compito di trovare una soluzione cresce in modo esponenziale in termini di tempo richiesto all’aumentare delle dimensioni della griglia di gioco. (Se vuoi approfondire i dettagli teorici pesanti di P = NP, prova l’articolo del 2000 di Cook sul problema.)

La domanda, quindi, P = NP?, chiede se quei problemi che pensiamo siano difficili da risolvere, NP, ma che sappiamo essere facili da verificare, potrebbero effettivamente rivelarsi sia facilmente verificabili che facilmente risolvibili, proprio come i problemi P.

Una risposta negativa, che P non è uguale a NP, significherebbe che alcuni problemi sono al di là della capacità dei computer di risolverli anche con enormi budget di calcolo, un limite superiore per il calcolo, in altre parole. Sfide come rompere alcune cifrature sembrerebbero quindi più formidabili, al di là della portata del calcolo.

Per affrontare P = NP, Dong e il team si basano su una tendenza degli ultimi anni di “ragionare” con i grandi modelli di linguaggio. Come esemplificato nel lavoro del 2022 di Takeshi Kojima e del team presso l’Università di Tokyo e Google Research, è possibile migliorare la capacità dei grandi modelli di linguaggio su determinati compiti semplicemente aggiungendo la frase “Pensiamo passo dopo passo” all’inizio del prompt, accompagnata da una risposta di esempio. Quella frase, hanno scoperto, era sufficiente a indurre passaggi di “catena di pensiero” da parte del modello di linguaggio.

Inoltre: IA generativa: non chiamatela ‘artista’, dicono gli studiosi nella rivista Science

È lo stesso tipo di procedura di catena di pensiero che Dong e il suo team cercano di ottenere con il loro Metodo Socratico. Attraverso 97 round di prompt, gli autori sollecitano GPT-4 con una varietà di richieste che approfondiscono la matematica di P = NP, anteporre ciascuno dei loro prompt con una dichiarazione iniziale per condizionare GPT-4, come ad esempio, “Sei un saggio filosofo”, “Sei un matematico esperto in teoria della probabilità” – in altre parole, il gioco ormai familiare di far interpretare a GPT-4 un ruolo, o “persona”, per stilizzare la generazione del testo.

Esempio di uno dei round di chat della discussione altamente teorica.

La loro strategia è quella di indurre GPT-4 a dimostrare che P non è uguale a NP, assumendo inizialmente che lo sia con un esempio e poi trovando un modo in cui l’esempio si smonta – un approccio noto come dimostrazione per contraddizione.

La cosa interessante è che due degli autori della ricerca, Ke Xu e Guangyan Zhou, hanno pubblicato separatamente questo mese un articolo in cui ragionano direttamente su P = NP in termini matematici formali tradizionali. In quel documento, concludono che P non è uguale a NP.

Quindi, ciò che Dong, Xu, Zhou e il loro team stanno facendo è simile a ricostruire il loro articolo di matematica formale guidando GPT-4 attraverso il linguaggio del loro stesso ragionamento, prompt dopo prompt. Infatti, delle 73 pagine del documento, 67 pagine sono una stampa completa di ciascuno dei 97 prompt e della risposta completa di GPT-4. È come un gigantesco esercizio di ingegneria del prompt per ricostruire un argomento.

Se l’output che Dong e il suo team hanno ottenuto con GPT-4 dimostra effettivamente che P non è uguale a NP, è difficile dirlo perché l’articolo di Xu e Zhou è molto recente. Sul sito Semantic Scholar, che raccoglie citazioni di articoli, non ci sono ancora citazioni per l’articolo – a parte il loro stesso articolo con Dong e il suo team. Ci sono alcune discussioni sul documento di GPT-4 da parte di vari lettori interessati sul sito AI HuggingFace che puoi consultare.

Quindi, il mondo deve ancora accettare il loro argomento.

Ma, cosa più importante per le persone che amano l’IA generativa, gli autori sostengono che il loro dialogo nei prompt mostra la prospettiva per modelli di linguaggio di grandi dimensioni di fare più che semplicemente imitare le creazioni testuali umane.

Inoltre: ChatGPT: cosa sbagliano terribilmente il New York Times e gli altri

“La nostra indagine mette in evidenza la potenziale capacità di GPT-4 di collaborare con gli umani nell’esplorare problemi estremamente complessi e di livello esperto”, scrivono. Nel corso delle 67 pagine di prompt e risposte, evidenziano passaggi che considerano “le parti illuminanti” di ciò che GPT-4 produce.

Quanto illuminanti siano effettivamente queste risposte è probabilmente anche un argomento che richiede un’indagine a parte. Alcuni scienziati hanno scoperto che i grandi modelli di linguaggio sono particolarmente superficiali nel modo in cui uniscono citazioni e descrizioni.

Tuttavia, una cosa interessante emerge nei margini del documento, dove Dong e il suo team annotano le risposte di GPT-4 con le loro osservazioni sulla qualità delle risposte.

In una di quelle note parentetiche, gli autori scrivono che ciascuna delle risposte precedenti di GPT-4 è stata incorporata come contesto nell’ultimo prompt – tranne quando gli autori hanno scelto di potare le risposte per mantenere solo le parti più rilevanti.

Inoltre: ChatGPT ‘manca di profondità e intuizione’, dicono gli editori di prestigiose riviste scientifiche

“Se il modello fornisce più soluzioni, includiamo solo la soluzione più preziosa nella cronologia della conversazione”, scrivono nel margine a pagina 7. “Questa strategia consente a GPT-4 di concentrarsi sulle informazioni pertinenti, migliorando così la sua efficienza e efficacia complessive.”

In altre parole, c’è stata una selezione attenta del modo in cui GPT-4 ha utilizzato la storia passata in ciò che viene chiamata “finestra di contesto”, tutti i round precedenti su cui può attingere. Dong e il suo team si sono impegnati in un’ingegneria del prompt molto selettiva per guidare GPT-4 attraverso il filo di un argomento. Ciò incide sulla pratica della “generazione potenziata dalla ricerca”, o “RAG”, l’interesse attuale nell’utilizzare i dati delle chat precedenti come nuovo input per un grande modello di linguaggio.

Inoltre: ChatGPT mente sui risultati scientifici, ha bisogno di alternative open-source, dicono i ricercatori

Potrebbe essere uno dei contributi più significativi dell’intero esercizio: che risolva o meno P = NP, una nuova frontiera nell’ingegneria dei prompt potrebbe avvicinare i programmi a RAG per dare alle sessioni di chat una maggiore profondità. Quando si torna indietro di poco tempo alle sessioni di chat, tendevano ad essere insulse, spesso divaganti dal tema principale.

Attraverso 97 turni, Dong e il suo team sono riusciti a mantenere la macchina concentrata su ciò che era importante, e c’è qualcosa da dire al riguardo.