Misurare la fiducia perché ogni modello di intelligenza artificiale ha bisogno di un punteggio FICO

Misurare la fiducia per il punteggio FICO di ogni modello di intelligenza artificiale.

La generazione di AI diventerà presto mainstream, dicono 9 dirigenti IT su 10, secondo la ricerca “Stato dell’IT 2023” di Salesforce.

McKinsey riporta che il 50% delle organizzazioni ha utilizzato l’AI nel 2022. IDC prevede che la spesa globale per l’AI aumenterà del 26,9% solo nel 2023. Un recente sondaggio tra professionisti del servizio clienti ha rilevato che l’adozione dell’AI è aumentata dell’88% tra il 2020 e il 2022. La ricerca mostra che l’86% dei dirigenti IT ritiene che la generazione di AI avrà un ruolo prominente nella loro organizzazione nel prossimo futuro.

Inoltre: Due terzi dei professionisti pensano che l’AI aumenterà il valore delle loro competenze

Eppure, il 64% dei dirigenti IT è preoccupato per l’etica della generazione di AI, e il 62% è preoccupato per le sue conseguenze sulla propria carriera. In un recente sondaggio tra i dirigenti IT, le preoccupazioni legate alla generazione di AI includono rischi per la sicurezza (79%), pregiudizi (73%) e impronta di carbonio (71%). Un altro rapporto ha scoperto che il 23% dei clienti non si fida dell’AI e il 56% è neutrale. Questo deficit di fiducia può oscillare in entrambe le direzioni in base a come le aziende utilizzano e offrono servizi alimentati dall’AI.

Le ultime ricerche di McKinsey stimano che la generazione di AI potrebbe aggiungere l’equivalente di 2,6-4,4 trilioni di dollari all’anno attraverso i 63 casi d’uso analizzati da McKinsey – a titolo di confronto, il PIL dell’intero Regno Unito nel 2021 era di 3,1 trilioni di dollari. Ciò aumenterebbe l’impatto di tutta l’intelligenza artificiale del 15 al 40%. Il più grande ostacolo alla crescita e all’adozione dell’AI è la fiducia. La mancanza di competenze dei dipendenti e la mancanza di fiducia sono i principali ostacoli all’adozione aziendale della generazione di AI.

Inoltre: AI generativa e il quarto “perché”: Costruire fiducia con il cliente

Per avere una prospettiva migliore su come i fornitori di soluzioni AI possono ottenere fiducia da tutti gli stakeholder – dipendenti, clienti, partner e comunità a cui servono – ho avuto una discussione affascinante con Richie Etwaru, esperto in privacy dei dati, analisi avanzate, AI e trasformazione digitale. Etwaru, co-fondatore e direttore creativo di Mobeus, ha numerosi brevetti, libri, TEDx talk e innovazioni di primo piano all’attivo.

Come possiamo costruire fiducia con tutti i modelli fondamentali utilizzati per la generazione di AI e oltre? Ecco cosa ha proposto Etwaru.

L’affermazione di Arthur C. Clarke, “Qualsiasi tecnologia sufficientemente avanzata è indistinguibile dalla magia”, scritta nel suo libro del 1962 “Profili del Futuro: Un’indagine sui Limiti del Possibile”, ha resistito alla prova del tempo.

Guardando avanti di 60 anni al 20 novembre 2022, OpenAI ha presentato ChatGPT, una meraviglia tecnologica così avanzata che sembrava sfocare i confini tra magia e stregoneria. Questo non era solo magia; era inquietante. La relazione dell’umanità con la magia è basata sull’equilibrio. Ci deliziamo con la magia quando è affascinante e sorprendente, ma quando supera la nostra comprensione, oltrepassando un limite di comprensione, diventa intimidatoria. Il momento in cui la magia sembra troppo potente, ci allontana dalle nostre zone di comfort e ci porta in una dimensione perplessa. Il disagio deriva dal confronto con fenomeni che sfuggono a spiegazioni logiche o scientifiche.

Inoltre: I migliori chatbot AI: ChatGPT e altre alternative degne di nota Nel panorama tecnologico, sia ChatGPT che i suoi contemporanei – grandi modelli di linguaggio creati per l’interazione e simili a DALL-E con la capacità di generare testo-immagini – offrono qualcosa di inaspettato. Presentano progressi che Clarke potrebbe non aver immaginato e raggiungono un livello di sofisticazione che va oltre la semplice “magia”, suscitando preoccupazione istintiva perché introducono concetti e capacità che faticiamo a comprendere.

La psiche umana è delicata. Di fronte a fenomeni inspiegabili, la nostra risposta innata, plasmata dall’evoluzione, tende spesso alla paura. È per questo che una creatura sconosciuta e minuscola può essere più intimidatoria di una bestia enorme e familiare. ChatGPT e i suoi simili hanno superato questa barriera “oltre la semplice magia” e le loro capacità che suscitano meraviglia stanno effettivamente causando una reazione.

l’IA non ci spaventa per le sue capacità, ma piuttosto perché abbiamo una scarsa comprensione di come funziona e raggiunge ciò che fa. La nostra mancanza di comprensione ci fa immaginare tutte le altre cose che l’IA potrebbe “potenzialmente fare”.

Inoltre: Come scrivere prompt migliori per ottenere i migliori risultati generativi dell’IA

Nell’articolo “Calmiamoci riguardo a GPT-4”, Rodney Brooks sostiene che dovremmo “smettere di confondere prestazioni con competenza”. Brooks spiega che se un modello di IA può fare X, non dovremmo presumere che possa fare anche Y solo perché gli esseri umani che possono fare X di solito possono fare anche Y. La nostra paura deriva dall’immaginare capacità illimitate dell’IA quando in realtà stiamo sovrastimando la competenza generale di sistemi che mostrano una sorprendente efficacia in applicazioni specifiche. Demistificare il funzionamento interno dell’IA potrebbe ridurre significativamente la paura che la circonda. Se riusciamo a trasformare l’IA da una “scatola nera” opaca a un “cubo di vetro” trasparente, possiamo ricalibrare il nostro modo di adottare la tecnologia come specie.

Nel suo intervento “Oltre ChatGPT: Dentro le menti dell’IA generativa”, il dott. Michael Wu spiega come una semplice domanda come “Di che colore è il cielo?” funzioni effettivamente. Wu fa un ottimo lavoro nel demistificare i modelli generativi, dimostrando che le loro sorprendenti risposte sono prodotte utilizzando “solo matematica” e statistica, non intelligenza consapevole. Rivelare le basi matematiche dietro le risposte dell’IA conferma agli spettatori che i sistemi non possiedono una consapevolezza come gli esseri umani.

Inoltre: Questa truffa di fatture crittografiche generate dall’IA quasi mi ha ingannato, e sono un esperto di sicurezza Anche se oggi stiamo iniziando a capire meglio l’IA, il cammino che ci attende è ancora lungo. A giugno, il CEO di AWS Adam Selipsky ha detto a CNBC che siamo solo “tre passi avanti, e si tratta di una gara di 10K”. Man mano che l’IA progredisce, i modelli andranno oltre le loro capacità attuali. Il miglioramento della gestione dei dati, la migliore gestione dei modelli, una maggiore integrazione nell’ecosistema, il miglioramento delle competenze umane e l’innovazione matematica/statistica continua possono migliorare significativamente, se non esponenzialmente, l’IA nel tempo. Mentre abbiamo regolamentato le nostre paure per tecnologie passate come l’elettricità, il volo, le automobili e Internet, è improbabile che possiamo regolamentare completamente le nostre paure riguardo all’IA. Questo perché l’IA ha una crescente esponenziale, mentre tutto ciò che è venuto prima è lineare al massimo. Al suo nucleo, la nostra ansia deriva da come l’IA potrebbe influenzare la capacità dell’umanità di continuare a prosperare come specie. In uno scenario estremo, catastrofizziamo riguardo all’IA che porta all’estinzione umana. Ma il risultato probabilmente sarà meno binario di una vittoria o sconfitta totale. Invece di considerare il futuro come una vittoria o una perdita per l’umanità, dobbiamo trovare modi per coesistere in modo durevole e sostenibile con l’intelligenza artificiale.

Inoltre: I 5 rischi più grandi dell’IA generativa, secondo un esperto

Con la coesistenza come principio guida, abbiamo bisogno di un meccanismo per valutare quanto un modello di IA sia allineato con tale obiettivo. Quando ci viene presentato un sistema di intelligenza artificiale, dovremmo essere in grado di giudicare immediatamente se è una “buona IA” che sostiene la coesistenza tra umani e IA e serve le esigenze umane, o se ignora la coesistenza e non può essere fidata. Abbiamo bisogno di un sistema di valutazione facile da capire che segnali l’affidabilità di un modello di IA e il suo servizio all’umanità.

Senza un tale meccanismo, potremmo diventare sempre più sospettosi di tutta l’IA, il che potrebbe generare diffidenza verso qualsiasi azienda che la impieghi. Un quadro coerente per valutare l’allineamento dell’IA con la coesistenza collaborativa tra umani e IA è fondamentale per costruire la fiducia pubblica ed estrarre valore dalla tecnologia. L’AI Act dell’Unione Europea ha compiuto i primi passi verso un sistema di valutazione dell’IA richiedendo una marcatura CE e un numero di modello unico per ciascun modello di IA, ricollegabile ai dati di valutazione di conformità. Tuttavia, le informazioni alla base di questa marcatura CE rivelano solo come un modello è stato addestrato e creato. Non basta segnalare se il modello può essere fidato. Un modello può essere conforme alle normative applicabili ma ancora non riuscire a guadagnare fiducia pubblica, influenzando le percezioni dei consumatori, delle aziende o dei paesi che utilizzano il modello per prodotti e servizi. Soddisfare semplicemente i requisiti non equivale a un allineamento nella coesistenza. Abbiamo bisogno di un quadro di valutazione dell’IA che vada oltre le metriche tecniche per valutare esplicitamente il beneficio umano, la trasparenza e il potenziale di coesistenza.

Inoltre: Etica dell’IA: Vantaggi e rischi dell’intelligenza artificiale

Compagnie come Google e OpenAI hanno iniziato a utilizzare “schede dei modelli” per raccogliere e presentare informazioni sul design, i dati, l’addestramento, le prestazioni e le limitazioni dei loro modelli. Ad esempio, il modello di intelligenza artificiale MediaPipe BlazeFace di Google ha una scheda del modello che ha le sezioni, i dati e il formato prescritti in un articolo scritto principalmente da dipendenti di Google. OpenAI, d’altra parte, ha una “scheda di sistema” per GPT-4 che ha le sezioni, i dati e il formato prescritti in un articolo dell’Università di Stanford.

Mentre entrambe le schede modello/sistema sono un passo nella giusta direzione, il fatto che ognuna segua un formato e un’architettura delle informazioni indipendenti è solo una delle molte sfide. La sfida principale è che la maggior parte dei consumatori non avrà il tempo, la pazienza o l’abilità per leggere e capire queste schede modello/sistema e, quindi, sebbene le schede siano disponibili per il consumo pubblico, sono inutili per i consumatori. Troppo lunghe da leggere e troppo difficili da capire.

Inoltre: il 40% dei lavoratori dovrà acquisire nuove competenze nei prossimi tre anni a causa dell’IA, secondo uno studio di IBM

Come esercizio, definiamo un punteggio semplice e facile da capire che segnali l’allineamento di un modello di intelligenza artificiale con le esigenze umane e la coesistenza umano-IA. Per immaginare come un punteggio potrebbe indicare la fiducia di un modello nella coesistenza, immaginiamo un “punteggio di coesistenza umano e IA” (chiamato anche punteggio HAICO). Come potrebbe funzionare? Quali dati su ogni modello di IA sarebbero necessari, con quale frequenza e quale formula sarebbe utilizzata per calcolare il punteggio HAICO? Il framework dovrebbe sintetizzare informazioni complesse in un punteggio facilmente comprensibile che segnali all’opinione pubblica l’allineamento di un modello con la coesistenza.

Anche se complesso, portare un framework di punteggio di questo tipo alla vita non è impossibile. Immaginiamo il nostro esemplificativo punteggio HAICO composto da 50 attributi di un modello di IA raggruppati nelle cinque fasi della Gerarchia dei Bisogni di Maslow (Figura 1).

Figura 1: Panoramica del nostro esemplificativo punteggio HAICO

Ogni attributo dei 50 misurerebbe qualcosa che si allinea alla coesistenza tra umani e IA. I dati degli attributi verrebbero raccolti da tutto il processo del modello, dalla trasparenza delle routine integrate nei chip di silicio, al consenso e alla proprietà dei dati di addestramento, al design del modello, alle prestazioni di inferenza, al riaddestramento e alla ridistribuzione.

Esempi di attributi del modello includerebbero elementi come la robustezza, la disponibilità, l’equità, il rispetto dell’autonomia umana, l’orientamento al consenso, l’apprendimento continuo e il valore aggiunto alla vita umana. Ogni attributo avrebbe un punteggio da 0 a 5, quindi una formula li combinerebbe in un punteggio complessivo HAICO da 0 a 100 per ogni modello (Figura 2).

Inoltre: l’attuale boom dell’IA amplificherà i problemi sociali se non agiamo ora, dice un eticista dell’IA

Il sistema di punteggio HAICO finale a tre livelli:

  • Non coesistente (0-59 punti): Non si può fidare che serva le esigenze umane.
  • Coesistente (60-79 punti): Si può fidare che serva le esigenze umane.
  • Molto coesistente (80+ punti): Altamente fidato per servire le esigenze umane.

Figura 2: Un modello di IA esemplificativo con punteggi da 0 a 5 per ciascuno dei 50 attributi, sommati a ciascun livello.

Questo illustra come i dettagli tecnici multistrato possano essere mappati in un modello semplice a tre livelli di coesistenza e punteggio di fiducia. Il framework esemplificativo HAICO fornisce un punto di partenza. Trasformarlo in un framework efficace per il pubblico richiederà uno sviluppo inclusivo e un continuo perfezionamento. Ma dimostra la fattibilità di un meccanismo di punteggio sfumato per la coesistenza umano-IA.

Il nostro meccanismo di punteggio HAICO esemplificativo è lontano dal completamento; c’è ancora molto lavoro da fare. Ad esempio, il peso di ogni livello e l’intervallo che categorizzerebbe un modello di IA come non coesistente potrebbero cambiare per diversi pubblici. La formula per calcolare il punteggio HAICO potrebbe cambiare per i modelli di IA classificati per il pubblico PG-13 rispetto ai modelli classificati per il pubblico Rated R. Questa illustrazione dimostra che possiamo stabilire un sistema di punteggio per i modelli di IA che introduce un modo semplice e affidabile per determinare se i modelli possono essere fidati di allinearsi con la coesistenza umano-IA o meno (Figura 3).

Inoltre: prima dell’IA, quest’altra ondata di tecnologia sta avanzando velocemente

Dobbiamo superare il dibattito “chi vincerà” e passare a un percorso di coesistenza. L’IA è qui per restare, così come noi. Il lavoro futuro deve essere svolto come una comunità collaborativa. Se non viene fatto, l’assenza di un framework come il nostro punteggio HAICO esemplificativo metterà sempre più in dubbio l’affidabilità dei consumatori, delle aziende o dei paesi che utilizzano modelli di IA per costruire prodotti o offrire servizi. Come società, correremmo il rischio di aumentare esponenzialmente la diffidenza verso l’IA e coloro che la utilizzano, oltrepassando infine una soglia in cui potremmo privarci dell’opportunità di sfruttare il potere della tecnologia per migliorare le condizioni umane.

Figura 3: L’uso di una formula per calcolare il punteggio finale HAICO di un modello AI, classificandolo come COESISTENTE con un punteggio di 76

Ecco la buona notizia: oltre ai partecipanti nell’ecosistema AI in crescita – come fornitori di hardware (NVIDIA, Intel, Apple, AMD, SambaNova), Clouds (AWS, Google, Azure, Oracle, Alibaba, Salesforce), modelli, mercati (Cohere, Hugging Face), app (OpenAI, Antrophic, Stability.ai), e aziende di strategia e servizi (Deloitte, Accenture, IBM, Cognizant e altri) – sta emergendo una maturante cohorte di strumenti di “misurazione dei modelli”.

Ad esempio, TensorFlow Data Validation può aiutare a comprendere le caratteristiche del dataset, rilevare anomalie e confrontare le differenze tra i dataset utilizzati per addestrare un modello. CleverHans o Adversarial Robustness Toolbox (ART) possono essere utilizzati per simulare attacchi avversari al modello durante il calcolo della robustezza. Strumenti come Google’s Fairness Indicators, AI Fairness 360 di IBM o Fairlearn possono essere utilizzati per misurare, visualizzare e mitigare i bias nei modelli di machine learning. Strumenti come Google’s TFX, Seldon o Fiddler possono essere utilizzati per monitorare le prestazioni del modello nel tempo, avvisandoti quando si verifica un significativo cambiamento o degrado.

Inoltre: La diffusione di massa degli strumenti di generative AI sta deragliando un fattore molto importante, secondo il MIT

I pezzi stanno iniziando ad unirsi. La Stella Polare è la coesistenza. Siamo ora al momento in cui possiamo stabilire collaborativamente un punteggio di fiducia per ogni modello AI che segnali l’allineamento del modello alla coesistenza umano-AI, un punteggio facile da capire simile al punteggio FICO che usiamo per segnalare l’affidabilità finanziaria di una persona. Il punteggio HAICO illustrato in questo articolo è un antipasto per avviare la conversazione. Non c’è momento migliore di adesso.


Questo articolo è stato scritto in collaborazione da Richie Etwaru, co-fondatore di Mobeus. Etwaru è un dirigente multidisciplinare, imprenditore seriale e leader di pensiero globale. In collaborazione con i C-suite e i consigli di amministrazione, ha progettato e guidato trasformazioni globali nei servizi finanziari e sanitari. Etwaru ha inventato il computing spaziale abilitato dal software e ha introdotto il 31° diritto umano. Ha scritto tre libri, tenuto tre TED talk e ha parlato in oltre 100 conferenze.