Quantcast
News

Meta rilascia un modello di AI in grado di trascrivere e tradurre quasi 100 lingue

Condividi l'articolo

Nel suo impegno per lo sviluppo di intelligenza artificiale in grado di comprendere una gamma di dialetti diversi, Meta ha creato un modello di intelligenza artificiale chiamato SeamlessM4T, che può tradurre e trascrivere quasi 100 lingue sia nel testo che nel parlato.

Disponibile in open source insieme a SeamlessAlign, un nuovo set di dati per la traduzione, Meta sostiene che SeamlessM4T rappresenta una “significativa svolta” nel campo della traduzione vocale e testuale basata sull’IA.

“Nostro singolo modello fornisce traduzioni su richiesta che consentono a persone che parlano lingue diverse di comunicare in modo più efficace”, scrive Meta in un post sul blog condiviso con TechCrunch. “SeamlessM4T riconosce implicitamente le lingue di origine senza la necessità di un modello separato di identificazione delle lingue”.

SeamlessM4T rappresenta in qualche modo l’erede spirituale di No Language Left Behind di Meta, un modello di traduzione di testo in testo, e di Universal Speech Translator, uno dei pochi sistemi di traduzione diretta del parlato che supporta la lingua Hokkien. E si basa su Massively Multilingual Speech, la struttura di Meta che fornisce tecnologie di riconoscimento vocale, identificazione delle lingue e sintesi del parlato in oltre 1.100 lingue.

Leggi anche:

Meta non è l’unico ad investire risorse nello sviluppo di strumenti sofisticati di traduzione e trascrizione basati sull’IA.

Oltre alla moltitudine di servizi commerciali e modelli open source già disponibili da Amazon, Microsoft, OpenAI e numerose startup, Google sta creando ciò che chiama Universal Speech Model, parte del più ampio sforzo del colosso tecnologico per sviluppare un modello in grado di comprendere le 1.000 lingue più parlate al mondo. Mozilla, d’altro canto, ha avviato Common Voice, una delle più grandi collezioni multilingue di voci per l’addestramento di algoritmi di riconoscimento automatico del parlato.

Tuttavia, SeamlessM4T è uno degli sforzi più ambiziosi finora per combinare le capacità di traduzione e trascrizione in un singolo modello.

Per svilupparlo, Meta afferma di aver estratto dati pubblicamente disponibili (nell’ordine di “decine di miliardi” di frasi) e registrazioni vocali (4 milioni di ore) dal web. In un’intervista con TechCrunch, Juan Pino, uno scienziato di ricerca della divisione di ricerca sull’IA di Meta e un collaboratore del progetto, non ha rivelato le fonti esatte dei dati, affermando solo che ce ne erano “diverse”.

Non tutti i creatori di contenuti sono d’accordo con la pratica di utilizzare dati pubblici per addestrare modelli che potrebbero essere utilizzati a fini commerciali. Alcuni hanno intentato cause legali contro le aziende che costruiscono strumenti di intelligenza artificiale basati su dati pubblicamente disponibili, sostenendo che i fornitori dovrebbero essere obbligati a fornire attribuzione, se non compensazione, e modi chiari per decidere di non partecipare.

Tuttavia, Meta afferma che i dati da essa estratti, che potrebbero contenere informazioni personalmente identificabili, non erano coperti da copyright e provenivano principalmente da fonti open source o con licenza.

Leggi anche:

Ad ogni modo, Meta ha utilizzato il testo e il parlato estratti per creare il set di dati di addestramento per SeamlessM4T, chiamato SeamlessAlign. I ricercatori hanno allineato 443.000 ore di parlato a testi e creato 29.000 ore di allineamenti “parlato-parlato”, che hanno “insegnato” a SeamlessM4T come trascrivere il parlato in testo, tradurre il testo, generare parlato dal testo e persino tradurre parole pronunciate in una lingua in parole in un’altra lingua.

Meta afferma che su un benchmark interno, SeamlessM4T ha ottenuto un punteggio di precisione e coerenza molto elevato nella traduzione e trascrizione di testi e parlato in diverse lingue. Tuttavia, non sono stati forniti dettagli specifici sulle prestazioni del modello.

L’obiettivo di Meta con SeamlessM4T è quello di migliorare la comunicazione tra persone che parlano lingue diverse e di superare le barriere linguistiche. La società spera che questa tecnologia possa essere utilizzata in una varietà di contesti, come l’apprendimento delle lingue, l’assistenza sanitaria, il commercio internazionale e molto altro ancora.

È importante notare che, essendo un modello di intelligenza artificiale, SeamlessM4T è soggetto a limitazioni e può commettere errori di traduzione o trascrizione. La comprensione delle sottigliezze culturali e linguistiche può essere un compito complesso per un modello di IA, quindi è consigliabile essere consapevoli di queste possibili limitazioni quando si utilizza la tecnologia.

Inoltre, è importante considerare le implicazioni etiche e legali legate all’uso di dati pubblici per addestrare modelli di intelligenza artificiale. Molti sono preoccupati per la privacy e la sicurezza dei dati personali che possono essere inclusi in tali set di dati. Le aziende come Meta sono tenute a seguire le normative sulla privacy e ad adottare misure appropriate per proteggere i dati sensibili durante la raccolta, l’elaborazione e l’uso.

In conclusione, Meta ha sviluppato il modello di intelligenza artificiale SeamlessM4T per la traduzione e la trascrizione di testi e parlato in quasi 100 lingue. Tuttavia, è importante considerare le limitazioni del modello e le considerazioni etiche e legali legate all’uso dei dati pubblici per addestrarlo.

Fonte

Ti potrebbe interessare:
Segui guruhitech su:

Esprimi il tuo parere!

Che ne pensi di questo nuovo modello AI di Meta? Lascia un commento nell’apposita sezione che trovi più in basso e se ti va, iscriviti alla newsletter.

Per qualsiasi domanda, informazione o assistenza nel mondo della tecnologia, puoi inviare una email all’indirizzo [email protected].

+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
0 0 votes
Article Rating

Rispondi

0 Commenti
Newest
Oldest Most Voted
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
kk miner