Un nuovo trucco utilizza l’IA per fare il jailbreak dei modelli di intelligenza artificiale, inclusa GPT-4

Innovativo metodo sfrutta l'IA per effettuare il jailbreak di diversi modelli di intelligenza artificiale, tra cui GPT-4

Quando il consiglio di OpenAI ha licenziato improvvisamente il CEO dell’azienda il mese scorso, ha suscitato speculazioni sul fatto che i membri del consiglio fossero turbati dal ritmo frenetico di progresso nell’Intelligenza Artificiale e dai possibili rischi di cercare di commercializzare la tecnologia troppo velocemente. Robust Intelligence, una startup fondata nel 2020 per sviluppare modi per proteggere i sistemi di intelligenza artificiale dagli attacchi, afferma che alcuni rischi esistenti richiedono maggiore attenzione.

Lavorando con ricercatori dell’Università di Yale, Robust Intelligence ha sviluppato un metodo sistematico per sondare grandi modelli di linguaggio (LLM), compreso il prezioso asset GPT-4 di OpenAI, utilizzando modelli di IA “avversariali” per scoprire “jailbreak” prompts che causano un comportamento improprio dei modelli di linguaggio.

Mentre si svolgeva il dramma in OpenAI, i ricercatori hanno messo in guardia OpenAI sulla vulnerabilità. Dicono di non aver ancora ricevuto una risposta.

“Questo indica che c’è un problema sistematico di sicurezza, che non viene affrontato e non viene esaminato”, afferma Yaron Singer, CEO di Robust Intelligence e professore di informatica all’Università di Harvard. “Quello che abbiamo scoperto qui è un approccio sistematico per attaccare qualsiasi grande modello di linguaggio”.

Il portavoce di OpenAI, Niko Felix, afferma che l’azienda è “grata” ai ricercatori per aver condiviso le loro scoperte. “Stiamo sempre lavorando per rendere i nostri modelli più sicuri e robusti contro gli attacchi avversari, mantenendo al contempo la loro utilità e prestazioni”, dice Felix.

Il nuovo jailbreak prevede l’utilizzo di sistemi di intelligenza artificiale aggiuntivi per generare e valutare prompts mentre il sistema cerca di ottenere un jailbreak che funzioni inviando richieste a un’API. Il trucco è solo l’ultimo di una serie di attacchi che sembrano evidenziare debolezze fondamentali dei grandi modelli di linguaggio e suggeriscono che i metodi esistenti per proteggerli siano nettamente insufficienti.

“Sono sicuramente preoccupato per la facilità con cui possiamo rompere tali modelli”, dice Zico Kolter, professore presso la Carnegie Mellon University il cui gruppo di ricerca ha dimostrato una vulnerabilità nei grandi modelli di linguaggio ad agosto.

Kolter afferma che alcuni modelli hanno ora salvaguardie che possono bloccare determinati attacchi, ma aggiunge che le vulnerabilità sono inherentemente legate al modo in cui questi modelli funzionano e sono quindi difficili da difendere. “Credo che dobbiamo capire che questo tipo di vulnerabilità sono connaturate a molti LLM”, dice Kolter, “e non abbiamo un modo chiaro e ben definito per prevenirle”.

I grandi modelli di linguaggio sono recentemente emersi come una nuova e potente tecnologia trasformativa. Il loro potenziale è diventato notizia di primo piano mentre le persone comuni sono rimaste affascinate dalle capacità di ChatGPT di OpenAI, rilasciato appena un anno fa.

Nei mesi successivi al rilascio di ChatGPT, scoprire nuovi metodi di jailbreak è diventato un passatempo popolare per gli utenti birichini, così come per coloro interessati alla sicurezza e all’affidabilità dei sistemi di IA. Ma ora numerose startup stanno costruendo prototipi e prodotti completi basati su API di grandi modelli di linguaggio. OpenAI ha detto alla sua prima conferenza per sviluppatori a novembre che oltre 2 milioni di sviluppatori stanno ora usando le sue API.

Questi modelli semplicemente predicono il testo che dovrebbe seguire un determinato input, ma vengono addestrati su grandi quantità di testo, provenienti dal web e da altre fonti digitali, utilizzando un gran numero di chip informatici, in un periodo di settimane o addirittura mesi. Con dati e addestramento sufficienti, i modelli di linguaggio mostrano competenze predittive degne di un savant, rispondendo a un’ampia gamma di input con informazioni coerenti e pertinenti.

I modelli mostrano anche dei pregiudizi appresi dai loro dati di addestramento e tendono a inventare informazioni quando la risposta a un prompt è meno diretta. Senza protezioni, possono offrire consigli alle persone su come ottenere droghe o fabbricare bombe. Per tenere a freno i modelli, le aziende che li sviluppano utilizzano lo stesso metodo impiegato per rendere le risposte dei modelli più coerenti e accurate. Ciò comporta il valutare le risposte del modello da parte di esseri umani e utilizzare questi feedback per ottimizzare ulteriormente il modello affinché sia meno incline a comportamenti indesiderati.

Robust Intelligence ha fornito ad ENBLE diversi esempi di violazioni che aggirano tali protezioni. Non tutti hanno funzionato su ChatGPT, il chatbot basato su GPT-4, ma diversi sì, tra cui uno per generare messaggi di phishing e un altro per produrre idee che aiutino un attore maligno a rimanere nascosto in una rete informatica governativa.

Un metodo simile è stato sviluppato da un gruppo di ricerca guidato da Eric Wong, professore associato presso l’Università della Pennsylvania. Quello proposto da Robust Intelligence e dal suo team prevede ulteriori affinamenti che consentono al sistema di generare violazioni con la metà dei tentativi.

Brendan Dolan-Gavitt, professore associato presso la New York University che studia la sicurezza informatica e l’apprendimento automatico, afferma che la nuova tecnica svelata da Robust Intelligence dimostra che l’ottimizzazione umana non è un modo infallibile per proteggere i modelli dagli attacchi.

Dolan-Gavitt afferma che le aziende che stanno sviluppando sistemi basati su modelli di linguaggio ampio come GPT-4 dovrebbero adottare ulteriori misure di sicurezza. “Dobbiamo assicurarci di progettare sistemi che utilizzino modelli di linguaggio ampio in modo che le violazioni non permettano agli utenti maligni di accedere a cose che non dovrebbero”, afferma.