Ho verificato i fatti con ChatGPT insieme a Bard, Claude e Copilot – e questa IA era la più sicuramente sbagliata.

Abbiamo verificato i fatti utilizzando ChatGPT insieme a Bard, Claude e Copilot - e questa IA si è rivelata la più inaffidabile.

Stanza AI astratta con luci colorate sui muri

L’intelligenza artificiale generativa (AI) è notoriamente incline a errori di fatto. Quindi, cosa fai quando hai chiesto a ChatGPT di generare 150 fatti presumibili e non vuoi passare un intero weekend a confermarli manualmente?

Inoltre: AI nel 2023: un anno di scoperte che non hanno lasciato nessuna cosa umana invariata

Bene, nel mio caso, mi sono rivolto ad altre intelligenze artificiali. In questo articolo, spiegherò il progetto, valuterò le prestazioni di ciascuna AI in una competizione di fact-checking e fornirò alcune considerazioni finali e avvertenze se anche tu vuoi avventurarti in questo labirinto di stradine contorte e tutte uguali.

Il progetto

La settimana scorsa, abbiamo pubblicato un progetto molto divertente in cui avevamo DALL-E 3, eseguito all’interno di ChatGPT, che generava 50 immagini pittoresche che rappresentavano ciascuno stato degli Stati Uniti. Ho anche chiesto a ChatGPT di elencare “i tre fatti più interessanti che conosci sullo stato”. I risultati sono stati, come diceva il mio editore nel titolo dell’articolo, “gloriosamente strani”.

ChatGPT ha collocato il Golden Gate Bridge da qualche parte in Canada. Lo strumento ha posizionato Lady Liberty sia nel Midwest degli Stati Uniti, sia da qualche parte sull’isola di Manhattan. E ha generato due Empire State Building. Insomma, ChatGPT si è sbizzarrita con l’espressionismo astratto, ma i risultati sono stati piuttosto interessanti.

Inoltre: Ho chiesto a DALL-E 3 di creare un ritratto di ogni stato degli Stati Uniti, e i risultati sono stati gloriosamente strani

Per quanto riguarda i fatti singoli, erano per lo più corretti. Conosco abbastanza bene la geografia e la storia degli Stati Uniti e ho pensato che pochi dei fatti generati da ChatGPT si distinguevano per essere completamente sbagliati. Ma non ho fatto alcuna verifica indipendente dei fatti. Ho semplicemente letto i risultati e li ho ritenuti abbastanza buoni.

Ma cosa succederebbe se volessimo davvero conoscere l’accuratezza di quei 150 fatti? Quel tipo di domanda sembra un progetto ideale per un’intelligenza artificiale.

Metodologia

Quindi, ecco la questione. Se GPT-4, il modello di linguaggio OpenAI (LLM) utilizzato da ChatGPT Plus, ha generato le affermazioni di fatto, non ero completamente convinto che dovesse verificarle. È come chiedere agli studenti delle scuole superiori di scrivere un saggio storico senza utilizzare alcun riferimento e poi correggersi da soli. Partono già con informazioni poco attendibili, e poi si permette loro di correggersi da soli? No, questo non mi sembra corretto.

Inoltre: Due scoperte hanno reso il 2023 l’anno più innovativo per la tecnologia in oltre un decennio

Ma cosa succederebbe se alimentassimo quei fatti ad altri LLM all’interno di altri AI? Sia Bard di Google che Claude di Anthropic hanno i loro LLM. Bing utilizza GPT-4, ma ho pensato di testare le sue risposte solo per completezza.

Come vedrai, ho ottenuto il miglior feedback da Bard, quindi ho alimentato le sue risposte in ChatGPT in un pervertito girovagare dell’ordine naturale dell’universo. È stato un progetto interessante.

Anthropic Claude

Claude utilizza il LLM Claude 2, che viene anche utilizzato nell’implementazione dell’IA di Notion. Claude mi ha permesso di alimentarlo con un PDF contenente l’intero set di fatti (senza le immagini). Ecco cosa ho ottenuto:

In generale, Claude ha trovato la lista dei fatti principalmente accurata, ma aveva alcune precisazioni per tre elementi. Ho limitato la lunghezza dei fatti di ChatGPT e questo limite ha limitato la sfumatura nelle descrizioni dei fatti. La verifica dei fatti di Claude ha sollevato problemi riguardo a questa mancanza di sfumatura.

In generale, è stata una risposta incoraggiante.

Copilot… o nopilot?

Passiamo poi a Copilot di Microsoft, l’IA rinominata Bing Chat. Copilot non consente di caricare PDF, quindi ho provato a incollare il testo di tutti i 50 fatti degli stati. Questo approccio è fallito immediatamente, perché Copilot accetta solo prompt fino a 2.000 caratteri:

Ho chiesto a Copilot quanto segue:

Il seguente testo contiene i nomi degli stati seguiti da tre fatti per ogni stato. Per favore, esamina i fatti e identifica eventuali errori per ciascuno stato.

Ecco cosa ho ottenuto:

Ha praticamente ripetuto i dati dei fatti che gli ho chiesto di controllare. Quindi ho provato a guidarlo con una richiesta più decisa:

Anche questa volta mi ha restituito i dati che gli ho chiesto di verificare. Ho trovato questa produzione molto strana perché Copilot utilizza lo stesso LLM di ChatGPT. Chiaramente, Microsoft lo ha tarato in modo diverso rispetto a ChatGPT.

Ho rinunciato e sono passato a Bard.

Bard

Google ha appena annunciato il loro nuovo LLM Gemini. Non ho ancora accesso a Gemini, quindi ho eseguito questi test sul modello PaLM 2 di Google.

Inoltre: Che cos’è Gemini? Tutto quello che dovresti sapere sul nuovo modello di IA di Google

In confronto a Claude e Copilot, Bard ha sorpassato tutti, o, in modo più shakespeariano, “si staglia sul mondo come un Colosso”.

Dai un’occhiata ai risultati qui sotto:

È importante notare che molti fatti degli stati non sono neppure concordati dagli stati o che ci sono sfumature. Come ti mostrerò nella prossima sezione, ho fornito questa lista a ChatGPT e ha trovato due discrepanze nelle risposte per l’Alaska e l’Ohio.

Ma ci sono altre imprecisioni qui. In qualche modo, Bard ha esagerato con l’assegnazione. Ad esempio, Bard ha affermato correttamente che anche altri stati oltre al Maine producono aragoste. Ma il Maine si concentra interamente sulla produzione di aragoste. Non sono mai stato in un altro stato in cui i gabbioni per le aragoste in miniatura sono uno dei souvenir turistici più popolari.

Inoltre: Ho trascorso un weekend con i corsi di IA gratuiti di Amazon e li consiglio vivamente anche a te

Ora prendiamo Nevada e Area 51. ChatGPT ha detto: “Base militare top-secret, avvistamenti di UFO rumorosi”. Bard ha cercato di correggere dicendo: “Area 51 non è solo un luogo in cui si dicono ci siano avvistamenti di UFO. È una vera base militare top-secret, e il suo scopo è sconosciuto”. In sostanza stanno dicendo la stessa cosa. Bard ha solo perso il dettaglio che si ottiene quando hai un limite di parole stretto.

Un altro luogo su cui Bard ha criticato ChatGPT senza capire il contesto è il Minnesota. Sì, anche il Wisconsin ha molti laghi. Ma Bard non ha sostenuto che il Minnesota abbia il maggior numero di laghi. Ha semplicemente descritto il Minnesota come la “Terra dei 10.000 laghi”, che è uno dei motto più comuni del Minnesota.

Bard si è impantanato anche con il Kansas. ChatGPT ha detto che il Kansas è “Casa del centro geografico degli Stati Uniti contigui”. Bard ha affermato che fosse il South Dakota. E sarebbe vero se si considerassero anche l’Alaska e le Hawaii. Ma ChatGPT ha detto “contigui”, e questo onore spetta a un punto vicino a Lebanon, Kansas.

Inoltre: Questi sono i lavori più a rischio dall’IA

Potrei continuare, e lo farò nella prossima sezione, ma capisci il punto. Il fact-checking di Bard sembra impressionante, ma spesso si perde il punto e sbaglia come qualsiasi altra IA.

Prima di passare al fact check limitato di Bard sul fact check di ChatGPT, permettimi di sottolineare che la maggior parte delle informazioni fornite da Bard erano sbagliate o errate. Eppure, Google mette le risposte dell’IA di Bard nella maggior parte dei risultati di ricerca. Questo ti preoccupa? Sicuramente mi preoccupa.

Tale meraviglia, miei signori e dame, non può essere nominata.

ChatGPT

Subito all’inizio, ho capito che Bard ha commesso un errore nei fatti: l’Alaska è molto più grande del Texas. Così ho pensato, vediamo se ChatGPT può fare il fact check sul fact check di Bard. Per un momento ho pensato che questa caccia all’IA potesse far uscire la Luna dall’orbita terrestre, ma poi ho deciso che avrei rischiato l’intera struttura del nostro universo perché sapevo che volevi sapere cosa è successo:

Ecco cosa ho fornito a ChatGPT:

Ecco cosa ha detto ChatGPT (e, per chiarezza, la Luna è rimasta in orbita):

Come puoi vedere, ChatGPT ha contestato l’affermazione erronea di Bard che il Texas è lo Stato più grande. Ha anche avuto qualche problema su Ohio vs Kansas come luogo di nascita dell’aviazione, che è più controverso di quanto la maggior parte delle scuole insegni.

Inoltre: 7 modi per assicurarti che i tuoi dati siano pronti per l’IA generativa

È comunemente accettato che Wilbur e Orville Wright siano stati i primi ad volare su un aeroplano (in realtà a Kitty Hawk, North Carolina), anche se costruirono il loro Wright Flyer a Dayton, Ohio. Detto questo, Sir George Cayley (1804), Henri Giffard (1852), Félix du Temple (1874), Clément Ader (1890), Otto Lilienthal (1891), Samuel Langley (1896), Gustave Whitehead (1901) e Richard Pearse (1902) — da Nuova Zelanda, Regno Unito, Francia, Germania e altre parti degli Stati Uniti — hanno tutti delle rivendicazioni legittime per essere i primi nel volo.

Ma daremo il punto a ChatGPT, perché deve fare un’affermazione con sole 10 parole, e l’Ohio è stato il luogo in cui i fratelli Wright avevano il loro negozio di biciclette.

Conclusioni e avvertenze

Lasciamo che una cosa sia chiara fin dall’inizio: se devi presentare un documento o un lavoro in cui i fatti devono essere corretti, verifica tu stesso. Altrimenti, le tue ambizioni grandi come il Texas potrebbero essere sepolte sotto un problema grande come l’Alaska.

Come abbiamo visto nei nostri test, i risultati (come con Bard) possono sembrare molto impressionanti, ma essere completamente o parzialmente sbagliati. Nel complesso, è stato interessante chiedere alle varie AI di verificarsi a vicenda, e questo è un processo che probabilmente esplorerò ancora, ma i risultati sono stati solo conclusivi nel loro carattere inconcludente.

Copilot ha abbandonato completamente e ha semplicemente chiesto di tornare a dormire. Claude ha avuto problemi con la sfumatura di alcune risposte. Bard si è concentrato su un intero numero di risposte – ma, apparentemente, sbagliare non è solo umano, ma anche AI.

Inoltre: Questi 5 importanti progressi tecnologici del 2023 sono stati i maggiori cambiamenti di gioco

In conclusione, devo citare il vero Bard e dire: “La confusione ha ora fatto il suo capolavoro!”

Cosa ne pensi? Quali sorta di errori eclatanti hai visto nel tuo AI preferito? Ti fidi degli AI per i fatti o ora farai i tuoi processi di fact-checking? Facci sapere nei commenti qui sotto.


Puoi seguire gli aggiornamenti del mio progetto giorno per giorno sui social media. Assicurati di iscriverti alla mia newsletter settimanale di aggiornamento on Substack, e seguimi su Twitter su @DavidGewirtz, su Facebook su Facebook.com/DavidGewirtz, su Instagram su Instagram.com/DavidGewirtz, e su YouTube su YouTube.com/DavidGewirtzTV.