Perché le Metriche di Benchmark sull’Intelligenza Artificiale Possono Essere Ingannevoli e Cosa Significa per gli Utenti

Gli AI benchmarks più utilizzati non sono stati adeguati o rivisti per riflettere accuratamente l'utilizzo attuale dei modelli, secondo gli esperti.

“`html

AI benchmarks reveal little | ENBLE

🤖🎯

Le aziende di intelligenza artificiale sono in una costante corsa per sostenere che i loro modelli superano la concorrenza. Anthropic e Inflection AI sono gli ultimi contendenti, vantando prestazioni e qualità superiori rispetto ai giganti dell’industria come i modelli GPT di OpenAI. Ma cosa significano effettivamente queste affermazioni e si traducono in miglioramenti tangibili per gli utenti? Scopriamo il mondo delle metriche degli aiuti di intelligenza artificiale per svelare la verità.

Misure esoteriche: il problema dei benchmark

📊🧪

La maggior parte dei modelli di intelligenza artificiale, in particolare quelli alimentati da chatbot, si basa sui benchmark per valutare le proprie capacità. Tuttavia, spesso questi benchmark non riescono a catturare come la persona media interagisce con questi modelli in scenari di vita reale. Ad esempio, un benchmark come GPQA si concentra su domande di livello universitario in vari campi scientifici, mentre la maggior parte degli utenti si affida ai chatbot per compiti quotidiani come scrivere email o esprimere i propri sentimenti.

Jesse Dodge dell’Allen Institute for AI descrive questa situazione come una “crisi di valutazione”. Molti benchmark utilizzati oggi sono obsoleti e non sono allineati con i diversi modi in cui le persone utilizzano i modelli di intelligenza artificiale generativa. Di conseguenza, questi benchmark non riflettono veramente l’utilità dei modelli nel mondo reale o l’esperienza dell’utente.

Le metriche sbagliate: competenze e test non rilevanti

❌🧪

I benchmark comunemente usati valutano spesso competenze e conoscenze che sono irrilevanti per la maggior parte degli utenti. Valutare la capacità di un modello di risolvere problemi di matematica di livello scolastico o identificare anacronismi non misura accuratamente la sua utilità in scenari quotidiani.

David Widder, un ricercatore postdottorato presso Cornell, spiega che i vecchi sistemi di intelligenza artificiale si concentravano sulla risoluzione di problemi all’interno di contesti specifici, rendendo più facile valutarne le prestazioni. Tuttavia, man mano che i modelli diventano più “generici”, diventa difficile fare affidamento su una valutazione specifica del contesto. Di conseguenza, i benchmark attuali mirano a testare i modelli in una varietà di campi, ma perdono comunque il bersaglio in termini di usabilità e pertinenza reali.

Inoltre, ci sono preoccupazioni sulla precisione e la validità di alcuni benchmark. Il test HellaSwag, progettato per valutare il ragionamento di buon senso nei modelli, contiene domande con errori di battitura e scrittura illogica. Un altro benchmark, MMLU, testa i modelli su problemi logici che possono essere risolti tramite memorizzazione meccanica, piuttosto che vera comprensione e capacità di ragionamento.

Risolvere ciò che è rotto: coinvolgimento umano e valutazione contestuale

🔨🤝

Per superare i limiti dei benchmark esistenti, gli esperti propongono di incorporare maggior coinvolgimento umano e valutare i modelli in scenari reali di utenti.

Jesse Dodge suggerisce di combinare i benchmark di valutazione con la valutazione umana. I modelli dovrebbero essere sollecitati con domande di veri utenti e gli esseri umani possono quindi valutare la qualità delle risposte. Questo approccio fornirebbe una valutazione più accurata delle prestazioni di un modello dal punto di vista dell’utente.

Tuttavia, David Widder ritiene che i benchmark attuali, anche con correzioni per errori come errori di battitura, non possano informare in modo sufficiente la vasta maggioranza degli utenti di modelli di intelligenza artificiale generativi. Invece, suggerisce di valutare i modelli in base ai loro impatti a valle sugli utenti e alla desiderabilità di tali impatti. Questo approccio coinvolgerebbe esaminare gli obiettivi contestuali e valutare se i modelli di intelligenza artificiale soddisfano con successo tali obiettivi.

Guardando al futuro: l’impatto e il futuro del benchmarking dell’intelligenza artificiale

🔮🚀

Lo stato frammentato delle metriche dei benchmark dell’intelligenza artificiale suggerisce la necessità di un approccio più completo. Le aziende di intelligenza artificiale devono prioritizzare lo sviluppo di benchmark che si allineano con casi d’uso reali e misurano l’impatto pratico dei loro modelli. Poiché l’intelligenza artificiale si integra sempre più in vari aspetti delle nostre vite, è cruciale affrontare i limiti dei benchmark per garantire che la tecnologia soddisfi efficacemente le esigenze degli utenti.

In futuro, potremmo assistere a un passaggio verso strategie di valutazione più olistiche che tengano conto degli aspetti multindimensionali delle prestazioni dei modelli di intelligenza artificiale. Concentrandosi sugli obiettivi contestuali e valutando gli impatti a valle, possiamo comprendere meglio il valore che questi modelli apportano a diversi domini e requisiti degli utenti.

🤔 Domande dei lettori:

D: Ci sono dei benchmark alternativi in fase di sviluppo che affrontano i limiti menzionati?

R: Sì, sono in corso sforzi per affrontare i difetti dei benchmark esistenti. Alcuni ricercatori stanno lavorando allo sviluppo di benchmark che riflettono meglio scenari di utilizzo reali, concentrandosi su aree come le comunicazioni aziendali, la comprensione del linguaggio e le interazioni con il servizio clienti. Questi benchmark mirano a fornire una valutazione più accurata delle prestazioni dei modelli di intelligenza artificiale nelle applicazioni pratiche. Leggi questo articolo per ulteriori informazioni.

“““html

Q: Come possono gli utenti valutare le performance dei modelli AI senza fare affidamento esclusivamente sui benchmark?

A: Valutare i modelli AI va oltre le metriche basate sui benchmark. Gli utenti possono considerare fattori come la reattività del modello, l’accuratezza, la fluidità del linguaggio e la comprensione contestuale. Inoltre, raccogliere feedback da utenti reali e condurre indagini sugli utenti può fornire preziosi spunti sull’efficacia del modello e sulla soddisfazione degli utenti. In ultima analisi, gli utenti dovrebbero privilegiare modelli che si allineano alle loro esigenze e requisiti specifici.

Riferimenti:

  1. New Linux Kernel Released: One of the Largest Ever
  2. Understanding GPT: What Does GPT-4 Stand For?
  3. Google’s New Gemini Model Can Analyze Hour-long Videos
  4. Original App Store Innovator Clear Relaunches Swipeable List App
  5. GPT-2 and GPT-3: Best AI as per Digital Trends

“`