L’opera di traduzione multilingue massiccia di Meta continua a inciampare sul greco, l’armeno e l’oromo

Meta's massive multilingual translation work continues to stumble on Greek, Armenian, and Oromo.

“I sistemi di traduzione automatica ampiamente accessibili supportano circa 130 lingue; il nostro obiettivo è portare questo numero a 200”, scrivono gli autori come dichiarazione di missione.

Meta, proprietaria di Facebook, Instagram e WhatsApp, mercoledì ha presentato il suo ultimo sforzo nella traduzione automatica, un’opera di 190 pagine che descrive come ha utilizzato forme di deep learning di reti neurali per raddoppiare lo stato dell’arte della traduzione per 202 lingue, molte delle quali sono cosiddette lingue “a bassa risorsa”, come il West Central Oromo, una lingua dello stato di Oromia in Etiopia, il Tamasheq, parlato in Algeria e in diverse altre parti del Nord Africa, e il Waray, la lingua del popolo Waray delle Filippine. 

La relazione di un team di ricercatori di Meta, insieme a studiosi dell’UC Berkeley e della Johns Hopkins, “No Language Left Behind: Scaling Human-Centered Machine Translation”, è pubblicata sul sito di ricerca di intelligenza artificiale di Facebook, insieme a un post del blog correlato, e entrambi dovrebbero essere letture obbligatorie per i ricchi dettagli della questione.

“I sistemi di traduzione automatica ampiamente accessibili supportano circa 130 lingue; il nostro obiettivo è portare questo numero a 200”, scrivono come dichiarazione di missione.

Per una visione semplice, date un’occhiata al rapporto di sintesi di Stephanie Condon di ENBLE. Come riferisce Stephanie, Meta sta rendendo disponibili i suoi set di dati e il codice del modello di rete neurale su GitHub, oltre a offrire premi di $200.000 per l’utilizzo esterno della tecnologia. L’azienda si è associata ai proprietari di Wikipedia, la Wikimedia Foundation, per migliorare la traduzione degli articoli di Wikipedia. 

Inoltre: L’ultimo modello di intelligenza artificiale di Meta renderà i contenuti disponibili in centinaia di lingue

Una sorpresa sepolta nella relazione è che nonostante un miglioramento misurabile su un gruppo più ampio di lingue, come indicato dai sistemi di punteggio automatico, per quanto riguarda la valutazione umana sulla qualità delle traduzioni, la rete neurale degli autori, con affetto chiamata “No Language Left Behind Two Hundred”, o NLLB-200, mostra poca miglioria in diversi casi di lingua, inclusa non solo la lingua a bassa risorsa come l’Oromo, ma anche lingue con materiale di traduzione prevalente come il greco e l’islandese.

La lezione è che nonostante la capacità di migliorare i punteggi medi, le complessità di creare traduzioni che siano significative, almeno per quanto riguarda la visione umana della traduzione, non possono semplicemente essere automatizzate. Gli autori hanno scoperto che quando hanno reso più grande la loro rete neurale, il che dovrebbe significare più potenza, hanno in realtà ottenuto rendimenti decrescenti nella traduzione delle frasi dall’inglese a un’altra lingua e alcuni effetti negativi nella traduzione tra frasi non in inglese. 

Il team ha intrapreso molti passi per migliorare la traduzione, inclusi centinaia di interviste a madrelingua di lingue a bassa risorsa – le interviste durano in media un’ora e mezza – per valutare le necessità e le preoccupazioni degli utenti. (C’è una discussione approfondita sull’etica di tale lavoro sul campo e sull’etica dell’inclusione di lingue a bassa risorsa che potrebbero essere sopraffatte da un’ondata di attenzione; tale discussione nel documento merita particolare attenzione.) 

Inoltre: Il massiccio lavoro di traduzione linguistica di Google identifica dove commette errori

Ma il cuore del lavoro è il loro sforzo per compilare un nuovo set di dati per addestrare la loro rete neurale, inventando anche nuovi metodi – che offrono come codice sorgente – per eseguire l’identificazione linguistica sui materiali web, per identificare quali testi appartengono a una lingua.

Utilizzano metodi automatizzati per compilare un set di dati di coppie di frasi bilingue per tutte le lingue target. Il set di dati ha alcune statistiche molto interessanti:

In totale, ci sono 1220 coppie di lingue o 2440 direzioni (xx-yy e yy-xx) per l’addestramento. Queste 2440 direzioni sommano oltre 18 miliardi di coppie di frasi totali […] la maggior parte delle coppie ha meno di 1 milione di frasi ed è di bassa risorsa.

Gli autori utilizzano questi dati per addestrare la rete neurale NLLB, ma impiegano anche un set di dati di traduzioni creato da traduttori umani. L’elemento umano, il set di dati “NLLB-SEED”, si rivela piuttosto importante. “Nonostante le dimensioni considerevolmente più grandi dei dati di addestramento disponibili pubblicamente, l’addestramento su NLLB-Seed porta a prestazioni notevolmente superiori in media”, scrivono.

L’effort NLLB include diverse fasi, a cominciare dalla ricerca di testi bidirezionali disponibili pubblicamente per coppie di lingue, l’identificazione delle lingue tramite metodi automatizzati, la creazione di un enorme set di dati di addestramento, l’addestramento della rete neurale NLLB-200 e quindi la valutazione del programma su un nuovo set di dati di benchmark creato con traduttori umani, FLORES-200.

È importante notare che il team di Meta non è l’unico a impegnarsi in questo tipo di sforzo per creare enormi set di dati. A maggio, gli scienziati di Google hanno presentato un simile sforzo multilingue massivo, in cui sono riusciti a cercare sul web oltre un milione di frasi in più di 200 lingue e oltre 400.000 frasi in più di 400 lingue.

Questi set di dati di addestramento vengono utilizzati per costruire la rete neurale NLLB-200. Si parte dal diffuso modello di linguaggio Transformer di Google, che sta alla base della maggior parte delle traduzioni linguistiche di oggi.

Viene utilizzato un Transformer con 54 miliardi di parametri, che non è enorme (alcuni modelli si avvicinano a un trilione di parametri), ma viene apportata una modifica chiave.

Tra i singoli livelli della rete, noti come “attention heads”, gli autori inseriscono rami di esecuzione condizionale noti come “mixture of experts” sparsi. Fondamentalmente, gli esperti possono scegliere di attivare o disattivare alcuni di quei 54 miliardi di parametri durante la previsione, in modo che la rete neurale possa cambiare natura ad ogni compito.

“I modelli ‘Sparsely Gated Mixture of Experts (MoE)’ sono un tipo di modelli di calcolo condizionale che attivano un sottoinsieme di parametri del modello per ogni input, a differenza dei modelli densi che attivano tutti i parametri del modello per ogni input”, spiegano gli autori. Il valore del MoE, spiegano, è che “consente di sbloccare una significativa capacità di rappresentazione pur mantenendo le stesse efficienze di inferenza e addestramento in termini di operazioni in virgola mobile al secondo rispetto all’architettura densa principale.”

La rete NLLB-200 inserisce elementi “mixture of experts” tra i blocchi di attenzione standard del modello Transformer.

(Gli autori hanno persino trovato il punto ottimale per questa approccio: “Inserendo gli strati MoE [mixture of experts] ad intervalli di ogni 4 blocchi Transformer si ottiene la migliore prestazione, migliorando in particolare la prestazione in contesti con risorse molto basse.”)

Oltre al set di addestramento, gli autori sviluppano un nuovo set di dati di benchmark, FLORES-200, un set di dati di benchmark di alta qualità e molti-a-molti che raddoppia la copertura linguistica di un precedente sforzo noto come Flores-101. Il set di dati viene “creato con traduttori umani professionisti che traducono il set di dati sorgente Flores nelle lingue di destinazione e un gruppo separato di revisori indipendenti delle traduzioni che effettuano valutazioni di qualità delle traduzioni umane e forniscono feedback ai traduttori.”

Poi, viene testato come il NLLB si comporta su FLORES-200.

I risultati, come menzionato nel riassunto sopra, mostrano un miglioramento del 44% rispetto ai programmi di traduzione precedenti, come misurato da punteggi automatizzati comuni come BLUE e chrF. Vengono effettuate ampie comparazioni tra diverse versioni di tali punteggi.

Oltre ai punteggi automatizzati, gli autori fanno leggere le traduzioni agli esseri umani e le valutano, ed è qui che emergono alcune lacune. Utilizzando un protocollo suggerito per la prima volta nel 2012 da Eneko Agirre e colleghi chiamato “Semantic Textual Similarity”, il team di Meta utilizza una variante chiamata “XSTS”, introdotta in un articolo separato a maggio.

Con XSTS, si chiede agli esseri umani di valutare le traduzioni su una scala da 1 a 5, dove 1 rappresenta il peggior punteggio, cioè le due frasi non hanno nulla a che fare l’una con l’altra, e 5 rappresenta il miglior punteggio, cioè le due frasi dicono praticamente la stessa cosa secondo una persona.

“In breve, XSTS è un protocollo di valutazione umana che si concentra molto di più sulla preservazione del significato che sulla fluidità”, scrivono gli autori.

“Per le lingue con risorse limitate, le traduzioni solitamente presentano una qualità inferiore, quindi ci concentriamo molto di più sulle traduzioni utilizzabili (che preservano il significato), anche se non sono completamente fluide.”

Il punteggio complessivo non è male se si confronta come un modello Transformer di base si comporta per traduzioni da e verso l’inglese e altre lingue, ma in realtà si ottengono risultati peggiori in una coppia, dall’inglese al greco:

Nel complesso, NLLB-200 ottiene un punteggio XSTS medio di 4,15 nelle direzioni da inglese e 3,75 nelle direzioni verso l’inglese. Rispetto al modello denso di base, le prestazioni di NLLB-200 sono migliori. Certi direzioni mostrano una differenza significativa, come rus_Cyrl-tgk_Cyrl [russo a tagalog] e eng_Latn-gla_Latn [inglese a gaelico scozzese]. Notiamo anche che NLLB-200 ha prestazioni migliori del modello di base in tutte le direzioni testate, ad eccezione di eng_Latn-ell_Grek [inglese a greco], dove le prestazioni erano leggermente peggiori.

Ma scavando un po’ più a fondo emergono altre crepe. Un tale sforzo titanico è un’impresa statistica e, come ogni impresa statistica, più rivelatrice di una media o di una mediana è la distribuzione dei punteggi.

In numerose coppie di lingue, come ad esempio l’armeno in inglese e l’oromo centro-occidentale in inglese e l’amharico, la lingua più diffusa in Etiopia, tradotto in armeno, e il francese tradotto in wolof, la lingua madre del popolo wolof del Senegal, e l’hindi tradotto in chhattisgarhi, una lingua principale nello stato centrale indiano dello stesso nome, si riscontra che c’è poco o nessun miglioramento rispetto al modello di base.

Le crepe appaiono quando i revisori umani scoprono che alcune coppie di lingue traggono pochissimo o nessun beneficio dalle innovazioni NLLB-200, inclusi coppie di lingue come l’armeno tradotto in inglese e l’amharico, la lingua più diffusa in Etiopia, tradotto in armeno. La traduzione dall’inglese al greco si è rivelata persino peggiore rispetto al modello di base.

Questi esempi isolati, che emergono tra i successi – un grande miglioramento nella traduzione dal russo al tagalog, una lingua dominante nelle Filippine, ad esempio – indicano una verità più profonda, sulla quale riflettono gli scienziati.

Senza interpretare le valutazioni umane, gli autori analizzano i casi di fallimento nei punteggi automatizzati di BLUE e chrF e ipotizzano alcune limitazioni o difetti del loro approccio.

Scrivono che o le coppie di lingue con moltissime risorse, inclusa la lingua greca, non traggono vantaggio dall’aggiunta dell’approccio a mistura di esperti, oppure il loro programma diventa così potente da incorrere in un “sovradattamento”, in cui una rete neurale ha semplicemente memorizzato alcuni esempi senza formare una rappresentazione produttiva, il che significa che non ha “imparato” nulla, in realtà.

Come affermano gli autori,

Le coppie ad alta risorsa probabilmente avranno sufficiente capacità nel modello denso da 1,3 miliardi di [parametri] (dato le dimensioni e la natura del nostro dataset di ablativo) e non trarranno tanto beneficio dalla capacità aggiuntiva dei modelli MoE [e] Aumentando il costo computazionale per aggiornamento, la tendenza del sovradattamento aumenta per le coppie a bassa o molto bassa risorsa, causando così un deterioramento delle prestazioni.

Gli autori propongono alcuni passi che possono essere intrapresi per mitigare il sovradattamento, come una sorta di “mascheramento” di vari input e un “instradamento condizionale” nella mistura di esperti.

Inoltre: Attenzione, GPT-3, ecco il modello linguistico “Jurassic” di AI21

Ci sono così tanti altri dettagli nel rapporto su varie configurazioni sperimentali che è impossibile riassumere tutti i risultati. Sufficiente dire che gli autori sperano che la strada dell’open source – e i 200.000 dollari – convinceranno “la comunità a esaminare le pratiche attuali e migliorarle laddove falliamo, in una missione verso l’obiettivo della stella polare di non lasciare indietro nessuna lingua”.

In particolare, il set di dati di traduzione curato, FLORES-200, è costoso da assemblare utilizzando traduttori professionisti. “Le estensioni di Flores-200 a lingue ancora più a bassa risorsa in futuro potrebbero essere difficili”, osservano.

In generale, concludono, sarà importante un approccio multidisciplinare,

Condividendo NLLB con la comunità scientifica e di ricerca più ampia, permetteremo a coloro che hanno competenze diverse di contribuire all’avanzamento del progetto. In molti modi, la composizione dello sforzo NLLB parla della centralità dell’interdisciplinarietà nella definizione della nostra visione. La traduzione automatica si trova all’incrocio dello sviluppo tecnologico, culturale e sociale e richiede studiosi con formazioni e punti di vista diversi per comprendere appieno ogni aspetto. Speriamo che nelle future iterazioni NLLB continui ad espandersi includendo studiosi provenienti da campi sottorappresentati nel mondo della traduzione automatica e dell’IA, in particolare quelli provenienti da discipline umanistiche e scienze sociali. Ancora più importante, speriamo che i team che sviluppano tali iniziative siano composti da una vasta gamma di razze, generi e identità culturali, proprio come le comunità le cui vite cerchiamo di migliorare.