Meta presenta un traductor capaz de operar en tiempo real con 200 idiomas
La compa?¨ªa pretende que el sistema, apoyado en una tecnolog¨ªa puntera, impulse las conversaciones en sus redes sociales y en el futuro metaverso
Hablar distintos idiomas puede ser una barrera insalvable para la comunicaci¨®n. Los directivos de Meta est¨¢n decididos a facilitar todo lo posible las conexiones entre personas de distintos pa¨ªses y/o culturas. Tanto para que aumenten las interacciones en las redes sociales de la compa?¨ªa como para que en un futuro haga m¨¢s atractivo el metaverso. Los investigadores de Meta llevan a?os trabajando en sofisticados modelos de inteligencia artificial (IA) capaces de traducir varias l...
Hablar distintos idiomas puede ser una barrera insalvable para la comunicaci¨®n. Los directivos de Meta est¨¢n decididos a facilitar todo lo posible las conexiones entre personas de distintos pa¨ªses y/o culturas. Tanto para que aumenten las interacciones en las redes sociales de la compa?¨ªa como para que en un futuro haga m¨¢s atractivo el metaverso. Los investigadores de Meta llevan a?os trabajando en sofisticados modelos de inteligencia artificial (IA) capaces de traducir varias lenguas. Hoy han presentado NLLB-200, un sistema pionero capaz de traducir en tiempo real 200 idiomas, el doble de que las que computaban en el mejor sistema que ten¨ªa Meta hasta ahora.
¡°Las t¨¦cnicas de modelaje de IA que hemos usado est¨¢n ayudando a obtener traducciones de gran calidad¡±, subraya el fundador y CEO de Meta, Mark Zuckerberg, en un post colgado hoy en su cuenta de Facebook. ¡°Para dar una idea de la escala del programa, el modelo de 200 idiomas analiza m¨¢s de 50.000 millones de par¨¢metros. Lo hemos entrenado usando el Research SuperCluster, uno de los superordenadores m¨¢s r¨¢pidos del mundo¡±. El sistema NLLB-200, acr¨®nimo de No Language Left Behind (Ning¨²n idioma se queda atr¨¢s), est¨¢ preparado para realizar 25.000 traducciones diarias en todas las apps de Meta, seg¨²n destaca el joven magnate.
La herramienta es capaz de traducir tanto lenguaje oral como escrito. Desde la compa?¨ªa lo presentan como un modelo dirigido a los 4.000 millones de personas que hablan los idiomas que no son prevalentes en internet (en la Red manda el ingl¨¦s y se usan mucho el mandar¨ªn, espa?ol, portugu¨¦s o ¨¢rabe). Entre las 200 lenguas operativas se han incluido 55 africanas, muchas de las cu¨¢les no estaban disponibles hasta ahora en ning¨²n traductor autom¨¢tico.
La intenci¨®n de la compa?¨ªa es que en un futuro las gafas de realidad aumentada de Meta sean capaces de traducir en tiempo real y servir subt¨ªtulos visibles solo para quien lleva las lentes. Google tambi¨¦n trabaja en esa l¨ªnea, tal y como revel¨® en mayo cuando present¨® un prototipo similar de gafas.
C¨®digo abierto
El modelo en el que se basa NLLB-200 bebe de M2M-100, presentado en 2020 y que present¨® una mejora fundamental: las traducciones se hacen directamente del idioma de origen al de destino, sin pasar por el ingl¨¦s. Al ser este ¨²ltimo el m¨¢s com¨²n en internet, es tambi¨¦n el que alimenta la mayor¨ªa de bases de datos del mundo con las que se entrenan los sistemas de procesamiento del lenguaje natural. De ah¨ª que los traductores pasasen cualquier idioma antes al ingl¨¦s para luego traducirlo a otro, lo que origina una gran p¨¦rdida de matices y significado.
Para conseguir dar ese salto hacen falta millones de oraciones emparejadas meticulosamente entre distintas combinaciones de idiomas. El problema es que hay lenguajes infrarrepresentados en internet. Meta da el ejemplo del sueco y el lingala, una lengua hablada en la Rep¨²blica Democr¨¢tica del Congo, la Rep¨²blica del Congo, la Rep¨²blica Centroafricana y en Sud¨¢n del Sur. El idioma europeo, usado por 10 millones de suecos y finlandeses, tiene unos 2,5 millones de art¨ªculos en Wikipedia; el africano, practicado por 45 millones de personas, solo cuenta con 3.260.
Para solventar ese problema, los investigadores de Meta han perfeccionado un modelo capaz de extraer un gran rendimiento de cada oraci¨®n analizada, a la vez que han aumentado el tama?o de las bases de datos que nutren el algoritmo.
La compa?¨ªa ha decidido publicar en c¨®digo abierto el modelo de NLLB-200 y su c¨®digo de entrenamiento del modelo con el objetivo de ayudar a otros investigadores a mejorar sus herramientas de traducci¨®n y desarrollar nuevas tecnolog¨ªas.
Puedes seguir a EL PA?S TECNOLOG?A en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.