Il team di red team di Microsoft monitora l’IA dal 2018. Ecco cinque grandi intuizioni.

Il team di red team di Microsoft monitora l'IA dal 2018. Ecco cinque intuizioni.

Negli ultimi sei mesi, gli impatti positivi dell’intelligenza artificiale sono stati evidenziati più che mai, ma anche i rischi.

Al suo meglio, l’IA ha reso possibile per le persone completare compiti quotidiani con maggiore facilità e persino creare innovazioni nelle diverse industrie che possono rivoluzionare il modo in cui si svolge il lavoro.

Al suo peggio, tuttavia, l’IA può produrre disinformazione, generare contenuti dannosi o discriminatori e presentare rischi per la sicurezza e la privacy. Per questo motivo, è fondamentale effettuare test accurati prima che i modelli vengano rilasciati al pubblico, e Microsoft lo fa da cinque anni ormai.

Inoltre: Microsoft sta espandendo Bing AI su più browser, ma c’è un problema

Prima dell’esplosione di ChatGPT, l’IA era già una tecnologia emergente di grande impatto, e di conseguenza Microsoft ha creato un team rosso per l’IA nel 2018.

Il team rosso per l’IA è composto da esperti interdisciplinari dedicati all’indagine dei rischi dei modelli di IA “pensando come attaccanti” e “sondando i sistemi di IA per individuare le vulnerabilità”, secondo Microsoft.

Quasi cinque anni dopo il suo lancio, Microsoft condivide le sue pratiche e apprendimenti sul red teaming per l’IA responsabile. Secondo l’azienda, è essenziale testare i modelli di IA sia a livello di modello di base che a livello di applicazione. Ad esempio, per Bing Chat, Microsoft ha monitorato l’IA sia a livello di GPT-4 che nell’esperienza di ricerca effettiva supportata da GPT-4.

“Entrambi i livelli offrono vantaggi specifici: ad esempio, il red teaming del modello aiuta a identificare sin dall’inizio come i modelli possono essere utilizzati impropriamente, a definire le capacità del modello e a comprendere le sue limitazioni”, afferma Microsoft.

L’azienda condivide cinque importanti approfondimenti sul red teaming per l’IA che ha ottenuto dalla sua esperienza quinquennale.

Il primo è l’ampiezza del red teaming per l’IA. Invece di limitarsi a testare la sicurezza, il red teaming per l’IA include una serie di tecniche che valutano fattori come l’equità e la generazione di contenuti dannosi.

Il secondo è la necessità di concentrarsi sui fallimenti sia da parte di persone malintenzionate che benignamente intenzionate. Sebbene il red teaming si concentri tipicamente su come un attore maligno potrebbe utilizzare la tecnologia, è anche essenziale testare come potrebbe generare contenuti dannosi per l’utente medio.

“Nel nuovo Bing, il red teaming per l’IA non si è concentrato solo su come un avversario malintenzionato possa sovvertire il sistema di IA attraverso tecniche e exploit focalizzati sulla sicurezza, ma anche su come il sistema possa generare contenuti problematici e dannosi quando gli utenti normali interagiscono con il sistema”, afferma Microsoft.

Il terzo approfondimento è che i sistemi di IA sono in continua evoluzione e, di conseguenza, è necessario sottoporre questi sistemi di IA a red teaming a diversi livelli per ottenere una valutazione completa; ciò porta al quarto approfondimento: il red teaming dei sistemi di IA generativi richiede tentativi multipli.

Inoltre: ChatGPT sta ricevendo una serie di aggiornamenti questa settimana. Ecco cosa devi sapere

Ogni volta che interagisci con un sistema di IA generativo, è probabile che ottieni un output diverso; pertanto, Microsoft ritiene che siano necessari tentativi multipli di red teaming per assicurarsi che i guasti del sistema non siano trascurati.

Infine, Microsoft afferma che mitigare i guasti dell’IA richiede una difesa in profondità, il che significa che una volta che un red team identifica un problema, saranno necessarie una varietà di mitigazioni tecniche per affrontare la questione.

Misure come quelle messe in atto da Microsoft dovrebbero contribuire a ridurre le preoccupazioni riguardo ai sistemi di IA emergenti, aiutando anche a mitigare i rischi ad essi associati.