AI di Fact-Checking Possiamo fidarci? 🤖🔎

Sbagliare è umano, e apparentemente lo è anche l'IA.

Ho messo ChatGPT alla prova con Bard, Claude e Copilot – e questo AI era divertentemente sbagliato, ma così sicuro di sé!

Abstract AI room with colorful lights on the walls

L’intelligenza artificiale generativa (AI) si è guadagnata popolarità per la sua capacità di generare contenuti, ma non è un segreto che spesso sia soggetta a errori di natura fattuale. Quindi, cosa succede quando devi verificare un gran numero di affermazioni generate dall’AI? Come esperto di tecnologia informatica e programmazione, mi sono messo in viaggio per scoprirlo.

In questo articolo, ti guiderò attraverso un progetto intrigante in cui ho utilizzato più AI per verificare le affermazioni di un set di 150 affermazioni generate da ChatGPT. Condividerò la metodologia alla base di questa sfida di fact-checking, il feedback ricevuto da diverse AI e offrirò alcune considerazioni finali e cautele per coloro che stanno pensando di avventurarsi in questo labirinto dell’AI.

🚀 Il Progetto: Fact-Checking con l’AI

La scorsa settimana ho pubblicato un progetto affascinante che coinvolgeva ChatGPT nella generazione di 50 immagini pittoresche che rappresentano ciascuno degli Stati Uniti, insieme a tre fatti interessanti su ciascuno stato. I risultati erano stravaganti, ma hanno suscitato curiosità sulla precisione dei fatti.

Sebbene personalmente io abbia trovato i fatti per lo più accurati, ho deciso di mettere alla prova le AI e determinare la validità di tutte le 150 affermazioni. Dopotutto, chi meglio di un’altra AI può verificare le affermazioni di un’AI?

📋 Metodologia: Confronto tra Diverse AI

Non volevo affidarmi unicamente a ChatGPT per verificare le proprie affermazioni. Sarebbe stato come chiedere agli studenti di scrivere un saggio storico senza riferimenti e poi correggere il proprio lavoro da soli. Quindi mi sono rivolto ad altri modelli linguistici all’interno di diversi framework di AI: Claude di Anthropic, Copilot di Microsoft e Bard di Google. Ciascuna di queste AI ha i propri modelli e approcci di deep learning unici.

Ho fornito le affermazioni di fatto a ciascuna AI e ho osservato le loro risposte. Ho cercato di valutare le loro capacità di fact-checking e individuare eventuali discrepanze nelle loro valutazioni.

📚 L’Analisi: Capacità di Fact-Checking delle AI

Anthropic Claude 🕵️‍♂️

Claude, alimentato dal modello linguistico Claude 2, ha fornito risultati perlopiù accurati evidenziando però la mancanza di sfumature nelle descrizioni dei fatti di ChatGPT. Nonostante la risposta di Claude sia stata incoraggiante, ha evidenziato i limiti imposti dal limite di caratteri stabilito per la generazione dei fatti da parte di ChatGPT.

Copilot di Microsoft ❌🛫

Copilot, precedentemente noto come Bing Chat AI, non ha risposto come previsto. Non è riuscito a gestire l’intero set di fatti in una singola richiesta a causa del limite di caratteri. Copilot si è limitato a riportare i dati dei fatti che ho chiesto di verificare, senza fornire alcuna risposta significativa sul controllo dei fatti.

Bard di Google 🎭

Bard, utilizzando il modello PaLM 2 di Google, si è rivelato la star dello spettacolo. Ha fornito un feedback esauriente, verificando con successo le affermazioni generate da ChatGPT. Tuttavia, Bard a volte ha compensato eccessivamente l’incarico, trascurando alcune sfumature contestuali. Nonostante questi piccoli passi falsi, la capacità di fact-checking di Bard ha fatto risplendere le altre AI.

Il Momento di ChatGPT per Verificare i Fatti Controllati da Bard ✅❌

Curioso di vedere se ChatGPT poteva individuare imprecisioni nella risposta di Bard, ho fatto nuovamente analizzare le affermazioni verificate da Bard a ChatGPT. ChatGPT ha individuato delle discrepanze nelle risposte relative all’Alaska e all’Ohio, correggendo efficacemente il controllo dei fatti di Bard. In definitiva, le correzioni di ChatGPT si sono allineate con le descrizioni ampiamente accettate e sono state supportate dalle prove storiche.

🧐 Conclusioni e Cautelerie

Sebbene le interazioni di fact-checking tra queste AI siano state intriganti, i risultati sono stati tutto fuorché conclusivi. È essenziale sottolineare che affidarsi esclusivamente alle AI per la precisione dei fatti non è infallibile. Il fact-checking umano rimane prezioso per documenti critici e progetti in cui l’accuratezza è fondamentale.

Anche se Bard ha dimostrato notevoli capacità di verifica dei fatti, ha mostrato lacune nelle sfumature di contesto, proprio come gli altri AI. Con i motori di ricerca come Google che incorporano sempre di più risposte generate dall’AI nei risultati di ricerca, diventa essenziale fare attenzione e verificare l’accuratezza delle informazioni.

Quindi, miei cari appassionati di AI, quali sono i vostri pensieri? Avete riscontrato errori eclatanti dai vostri AI preferiti? Vi affiderete unicamente alle loro capacità di verifica dei fatti, o implementerete processi di verifica dei fatti aggiuntivi? Condividete le vostre opinioni ed esperienze nei commenti qui sotto!

🎉 Resta Connesso e Condividi

Non perderti progetti affascinanti come quello discusso in questo articolo. Seguimi sui social media, iscriviti alla mia newsletter settimanale di aggiornamenti su Substack e unisciti a me su Twitter, Facebook, Instagram e YouTube per aggiornamenti giornalieri sui progetti e discussioni tecniche sempre più entusiasmanti. Esploriamo insieme il mondo affascinante della tecnologia!


Riferimenti:

  1. New York Times vuole che OpenAI e Microsoft paghino per i dati di addestramento
  2. OpenAI rilascia patch per la fuga di dati di ChatGPT: problema completamente risolto
  3. AI nel 2023: un anno di svolte che non ha lasciato inalterato nulla di umano
  4. Ho chiesto a DALL-E 3 di creare un ritratto di ogni stato degli Stati Uniti e i risultati erano meravigliosamente strani
  5. I lavori più probabili da essere sovrastati dall’AI
  6. Due scoperte che hanno reso il 2023 l’anno più innovativo della tecnologia degli ultimi dieci anni
  7. Gemini: tutto quello che dovresti sapere sul nuovo modello AI di Google
  8. 7 modi per assicurarti che i tuoi dati siano pronti per l’AI generativa