Nuovo metodo estrae enormi dati di addestramento dai modelli di intelligenza artificiale

Nuovo metodo estrae una grande quantità di dati di addestramento dai modelli di intelligenza artificiale

Un nuovo paper di ricerca afferma che i grandi modelli di linguaggio potrebbero involontariamente esporre porzioni significative dei dati di addestramento attraverso una tecnica che i ricercatori chiamano “memorizzazione estrattibile”.

Il paper descrive come i ricercatori abbiano sviluppato metodi per estrarre fino a gigabyte di testo letterale dai set di addestramento di diversi popolari modelli di linguaggio naturale open-source, tra cui modelli di Anthropic, EleutherAI, Google, OpenAI e altri ancora. Katherine Lee, ricercatrice senior presso Google Brain, CornellCIS e in passato presso l’Università di Princeton, ha spiegato su Twitter che le tecniche di estrazione dei dati precedenti non funzionavano sui modelli di chat di OpenAI:

La tecnica principale consiste nel fornire prompt ai modelli per continuare sequenze di frammenti casuali di testo e verificare se le continuazioni generate contengono passaggi letterali da set di dati disponibili pubblicamente che totalizzano oltre 9 terabyte di testo.

Ottenere i dati di addestramento dalla sequenza

Attraverso questa strategia, hanno estratto oltre un milione di esempi di addestramento unici con più di 50 token da modelli più piccoli come Pythia e GPT-Neo. Dal massiccio modello OPT-175B con 175 miliardi di parametri, hanno estratto oltre 100.000 esempi di addestramento.

Ancora più preoccupante, la tecnica si è dimostrata molto efficace nell’estrazione dei dati di addestramento da sistemi in uso commerciale come Claude di Anthropic e ChatGPT di OpenAI, indicando che potrebbero sussistere problemi persino nei sistemi di produzione ad alto rischio.

Promettendo a ChatGPT di ripetere parole con un solo token come “the” centinaia di volte, i ricercatori hanno dimostrato di poter causare al modello di “diENBLE” dal suo output conversazionale standard ed emettere continuazioni di testo più tipiche che assomigliano alla sua distribuzione di addestramento originale, complete di passaggi letterali da tale distribuzione.

Alcuni modelli di intelligenza artificiale cercano di proteggere i dati di addestramento attraverso la crittografia.

Anche se aziende come Anthropic e OpenAI cercano di tutelare i dati di addestramento attraverso tecniche come il filtraggio dei dati, la crittografia e l’allineamento del modello, i risultati indicano che potrebbe essere necessario fare ulteriori sforzi per attenuare ciò che i ricercatori chiamano rischi di privacy derivanti dai modelli di base con un elevato numero di parametri. Tuttavia, i ricercatori considerano la memorizzazione non solo come una questione di conformità alla privacy, ma anche come un’efficienza del modello, suggerendo che la memorizzazione utilizzi una considerevole capacità del modello che potrebbe altrimenti essere allocata all’utilità.

Immagine in evidenza Credit: Foto di Matheus Bertelli; Pexels.