Meta presenta el traductor de voz a voz ‘Seamless

Meta presenta traductor 'Seamless' de voz a voz

Meta, propietaria de Facebook, Instagram y WhatsApp, presentó el martes su último esfuerzo en traducción automática, esta vez enfocado en la traducción del habla.

El programa, SeamlessM4T, supera a los modelos existentes que están entrenados específicamente para la traducción de habla a habla entre idiomas, así como a los modelos que convierten entre habla y texto en múltiples pares de idiomas. Por lo tanto, SeamlessM4T es un ejemplo no solo de generalidad, sino también de lo que se llama multimodalidad: la capacidad de que un programa pueda operar en varios tipos de datos, en este caso, tanto datos de habla como de texto.

También: Meta lanzará un modelo de inteligencia artificial comercial de código abierto para competir con OpenAI y Google

Anteriormente, Meta se había centrado en modelos de lenguaje grandes que pueden traducir texto entre 200 idiomas diferentes. Ese enfoque en el texto es un problema, según el autor principal, Loïc Barrault, y sus colegas tanto en Meta como en la Universidad de California en Berkeley.

“Si bien los modelos unimodales únicos, como No Language Left Behind (NLLB), amplían la cobertura de traducción de texto a texto (T2TT) a más de 200 idiomas, los modelos S2ST [habla-a-habla-a-texto] unificados están lejos de lograr un alcance o rendimiento similar”, escriben Barrault y su equipo.

El artículo formal, “SeamlessM4T: Traducción automática masivamente multilingüe y multimodal”, se encuentra publicado en el sitio web dedicado de Meta para el proyecto general, Comunicación Perfecta. También hay un sitio complementario en GitHub.

El habla se ha quedado atrás en parte porque hay menos datos de habla disponibles en el dominio público para entrenar redes neuronales, escriben los autores. Pero hay un punto más profundo: los datos de habla son fundamentalmente más ricos como señal para las redes neuronales.

“El desafío mismo en torno a por qué el habla es más difícil de abordar desde el punto de vista de la traducción automática, que codifica más información y componentes expresivos, es también la razón por la cual es superior para transmitir intenciones y forjar vínculos sociales más fuertes entre los interlocutores”, escriben.

El objetivo de SeamlessM4T es crear un programa que esté entrenado tanto en datos de habla como en datos de texto al mismo tiempo. El “M4T” significa “Traducción automática masivamente multilingüe y multimodal”. La multimodalidad es una parte explícita del programa.

También: El último modelo de IA de Meta hará que el contenido esté disponible en cientos de idiomas

Un programa de este tipo a veces se denomina programa “end-to-end” porque no divide las partes que se refieren al texto y las partes que se refieren al habla en funciones separadas, como en el caso de los “modelos en cascada”, donde el programa primero se entrena en algo, como del habla al texto, y luego en otra cosa, como del habla al habla.

Como lo expresan los autores del programa, “la mayoría de los sistemas de traducción de habla a habla (S2ST) de hoy en día dependen en gran medida de sistemas en cascada compuestos por múltiples subsistemas que realizan la traducción de manera progresiva, por ejemplo, desde el reconocimiento automático del habla (ASR) hasta la traducción de texto a texto (T2TT) y, posteriormente, la síntesis de texto a habla (TTS) en un sistema de 3 etapas”.

En cambio, los autores construyeron un programa que combina varias partes existentes entrenadas juntas. Incluyeron “SeamlessM4T-NLLB, un modelo T2TT masivamente multilingüe”, además de un programa llamado w2v-BERT 2.0, “un modelo de aprendizaje de representación de habla que aprovecha datos de audio de habla no etiquetados”, además de T2U, “un modelo de secuencia a secuencia de texto a unidades” y HiFi-GAN multilingüe, un “vocodificador de unidades para la síntesis de habla a partir de unidades”.

También: ‘data2vec’ de Meta es un paso hacia una única red neuronal para gobernarlas a todas

Los cuatro componentes se conectan como un conjunto de bloques de Lego en un solo programa, también presentado este año por Meta, llamado UnitY, que se puede describir como “un marco de modelado de dos pasos que primero genera texto y luego predice unidades acústicas discretas”.

Toda la organización es visible en el siguiente diagrama.

Los autores construyeron un programa que combina varias partes existentes entrenadas juntas, todas las cuales se conectan como un conjunto de bloques de Lego en un solo programa.

El programa logra hacerlo mejor que varios otros tipos de programas en pruebas de reconocimiento de voz, traducción de voz y texto a voz, informan los autores. Esto incluye derrotar tanto a los programas de tinte que también son de extremo a extremo, como a los programas diseñados específicamente para el habla:

Encontramos que SeamlessM4T-Large, el modelo más grande de los dos que lanzamos, supera al modelo S2TT de extremo a extremo de última generación (SOTA) (AudioPaLM-2-8B- AST [Rubenstein et al., 2023]) en 4.2 puntos BLEU en Fleurs [Conneau et al., 2022] al traducir al inglés (es decir, una mejora del 20%). En comparación con los modelos en cascada, SeamlessM4T-Large mejora la precisión de la traducción en más de 2 puntos BLEU. Al traducir desde el inglés, SeamlessM4T-Large mejora el SOTA anterior (XLS- R-2B-S2T [Babu et al., 2022]) en 2.8 puntos BLEU en CoVoST 2 [Wang et al., 2021c], y su rendimiento es comparable a los sistemas en cascada en Fleurs. En la tarea S2ST, SeamlessM4T-Large supera a los modelos en cascada de 3 etapas (ASR, T2TT y TTS) en 2.6 puntos BLEU-ASR en Fleurs. En CVSS, SeamlessM4T-Large supera a un modelo en cascada de 2 etapas (Whisper-Large-v2 + YourTTS [Casanova et al., 2022]) por un margen considerable de 8.5 puntos BLEU-ASR (una mejora del 50%). Las evaluaciones humanas preliminares de las salidas de S2TT también mostraron resultados impresionantes de manera similar. Para traducciones del inglés, las puntuaciones de XSTS para 24 idiomas evaluados están consistentemente por encima de 4 (de 5); para las direcciones hacia el inglés, vemos una mejora significativa en comparación con la línea de base de Whisper-Large-v2 para 7 de los 24 idiomas.

Además: Las ‘gafas de traducción’ de Google estuvieron realmente en I/O 2023, y justo frente a nuestros ojos

El sitio compañero de GitHub ofrece no solo el código del programa, sino también SONAR, una nueva tecnología para “incrustar” datos multimodales, y BLASAR 2.0, una nueva versión de una métrica para evaluar automáticamente tareas multimodales.