Dopo la sbornia da chatbot e il tanto (troppo) tempo perso, dovrà arrivare il momento in cui l’intelligenza artificiale ci servirà davvero a qualcosa di sensato. Meglio: interverrà nelle questioni basilari della nostra vita, forse più importanti che avanzare le più strampalate richieste a una serie di modelli linguistici per altro tendenti all’errore. È il caso della comunicazione e in particolare della traduzione linguistica: Google, per esempio, sta procedendo a ritmo serrato in un progetto battezzato USM, Universal Speech Model, un modello linguistico che punta a supportare mille diverse lingue di tutto il mondo.
Rientra in un programma annunciato lo scorso novembre, ma che ora trova aggiornamenti importanti. Si chiama 1000 Languages Initiative e punta proprio a costruire un’IA che supporti mille lingue, “portando una maggiore inclusione a miliardi di persone nelle comunità emarginate in tutto il mondo” aveva spiegato all’epoca dell’annuncio Jeff Dean, vicepresidente senior per la Ricerche di Google.
Il programma ha molti punti notevoli. Il primo è che renderebbe davvero accessibile a gran parte della popolazione mondiale le potenzialità dei sistemi di intelligenza artificiale di Mountain View e dunque tutti gli infiniti strumenti che questa andrà ad arricchire. Il secondo è che, fra le altre possibilità, renderebbe perfettamente traducibili fra loro oltre mille lingue: quel modello linguistico diventerebbe anche, in un certo modo, un traduttore universale senza più alcun ostacolo. E non è d’altronde un caso che fra gli oltre 20 prodotti potenziati dall’intelligenza artificiale che saranno presentati quest’anno all’I/O, la conferenza per gli sviluppatori in programma il 10 maggio, ci sia da aspettarsi proprio una prima, sostanziosa evoluzione di Translate. Anche a un recente incontro per la stampa a Parigi, Big G ha confermato che quello delle lingue è uno dei fronti più interessanti per sviluppare nuovi servizi basati sull’IA.
USM è insomma il livello massimo di sviluppo di un modello linguistico: è stato realizzato includendo due miliardi di parametri allenati sulla base di 12 milioni di ore di parlato, cioè di corpus orale, e 28 miliardi di frasi per ora su 300 lingue. Ed è già impiegato su diverse piattaforme: Alphabet lo sfrutta su YouTube per generare automaticamente i sottotitoli e supporta anche il riconoscimento vocale automatico con risultati significativi. Si capisce che se questi strumenti finiranno per essere utilizzabili in oltre mille lingue si creerà una piattaforma che sarà essa stessa una sorta di esperanto, uno snodo cruciale da integrare in app e piattaforme per parlarsi nel mondo senza conoscere le altre lingue, con sistemi di traduzione automatica ancora più efficienti dell’attuale Translate o di altri tool simili integrati in alcune app di largo uso, come (tanto per fare un esempio) nella chat di Vinted.
Alcune di queste lingue sono parlate però da meno di venti milioni di persone. Sembrano moltissime, ma sono poche affinché le intelligenze artificiali attuali abbiano a disposizione sufficienti materiali di partenza per allenarsi a dovere. Per questo lo sviluppo di meccanismi di machine learning sempre più evoluti e potenti è fondamentale per viaggiare verso una vera inclusività linguistica dell’IA. Tutto si tiene.
Anche ChatGPT, interrogata sul punto, conferma di poter “comunicare in qualsiasi lingua per la quale ci siano abbastanza dati disponibili nel mio database di apprendimento automatico. Tuttavia, la mia capacità di supportare una lingua specifica dipende dalla disponibilità di dati di lingua naturale e dalla mia capacità di apprendere e comprendere la struttura grammaticale e lessicale della lingua”.
USM, che, come detto, viene usato su YouTube, “può eseguire il riconoscimento vocale automatico non solo su lingue ampiamente parlate come inglese e mandarino ma anche su lingue con risorse limitate come amarico, cebuano, assamese e azero per citarne alcuni” si legge in un post sul blog ufficiale di Google dedicato all’intelligenza artificiale. Nello studio Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages, il colosso ha dimostrato una capacità fondamentale della sua IA: l’impiego di un ampio set di dati multilingue non etichettato per pre-addestrare il codificatore del modello e la messa a punto su un set più piccolo di dati etichettati consente di riconoscere i dati sottorappresentati le lingue. Inoltre, il processo di formazione del modello è efficace nell'adattarsi a nuovi linguaggi e dati. In altre parole, è un sistema che imparando da un set poliglotta riesce poi, sorprendentemente, a specializzarsi in lingue di cui si ha meno materiale. E a procedere così, in modo spedito, verso la capacità di imparare una lingua sfruttando la leva delle altre.
Lo Universal Speech Model si muove al momento intorno alle 100 lingue ma è il punto di partenza di una piattaforma molto ampia di traduzione automatica alimentata dall’intelligenza artificiale. Su un progetto simile, ma con tempi e successi finora di minore efficacia, sta lavorando anche Meta.