Marta Costa-Juss¨¤, investigadora: ¡°El lenguaje tiene muchas sutilezas que la IA no puede captar¡±
La ingeniera catalana forma parte de un equipo de cient¨ªficos de Meta que ha desarrollado una herramienta pionera capaz de traducir autom¨¢ticamente 200 idiomas en tiempo real
Meta present¨® en 2022 un revolucionario traductor autom¨¢tico capaz de desenvolverse en 200 idiomas. Las traducciones se realizan en tiempo real y con una efectividad muy por encima de la media. ¡°Para dar una idea de la escala del programa, el modelo de 200 idiomas analiza m¨¢s de 50.000 millones de par¨¢metros. Lo hemos entrenado usando el Research SuperCluster, uno de los superordenadores m¨¢s r¨¢pidos del mundo¡±, dijo el consejero delegado y fundador de la empresa, Mark Zuckerberg, cuando se present¨®.
Detr¨¢s de este pionero desarrollo est¨¢ Marta R. Costa-Juss¨¤ (Sabadell, 42 a?os), investigadora del equipo FAIR (Facebook Artificial Intelligence Research), uno de los laboratorios m¨¢s potentes del mundo en inteligencia artificial (IA). Costa-Juss¨¤ forma parte de la treintena de cient¨ªficos ¡ªentre los que hay ingenieros como ella, pero tambi¨¦n ling¨¹istas, cient¨ªficos de datos, soci¨®logos o expertos en ¨¦tica¡ª que ha desarrollado este modelo llamado NLLB-200 (acr¨®nimo de No Language Left Behind: en ingl¨¦s, ning¨²n idioma se queda atr¨¢s). La catalana es una de las coordinadoras de un art¨ªculo firmado recientemente junto a sus colegas en la revista Nature en el que desgranan los detalles de su herramienta.
Costa-Juss¨¤ trabaja en FAIR desde 2022. Ingeniera de Telecomunicaciones por la Universitat Polit¨¨cnica de Catalunya (UPC), se doctor¨® en ese mismo centro y luego hizo estancias postdoctorales en Par¨ªs, S?o Paulo, Ciudad de M¨¦xico, Singapur o Edimburgo. Siempre en torno a su tema: la traducci¨®n autom¨¢tica. Cuando se estableci¨® en Barcelona, donde hab¨ªa conseguido por fin plaza fija en la UPC, recibi¨® un email de Meta. La quer¨ªan para su proyecto NLLB-200. ¡°Me pill¨® justo cuando hab¨ªa conseguido estar donde siempre hab¨ªa querido estar, pero tras hacer las entrevistas, no lo dud¨¦: el equipo era buen¨ªsimo y el proyecto, muy interesante¡±, explica por videollamada desde Par¨ªs, donde vive desde entonces. Adem¨¢s de investigar, Costa-Juss¨¤ disfruta cont¨¢ndole cuentos a sus tres hijos, lo que la llev¨® a publicar el a?o pasado una novela juvenil en la que mezcla aventuras y divulgaci¨®n sobre IA.
Pregunta. ?Qu¨¦ tiene de especial su traductor comparado con otros?
Respuesta. Hemos desarrollado el primer sistema de traducci¨®n en tiempo real que funciona en 200 lenguas. La gracia es que se pueden hacer traducciones entre cualquier pareja de lenguas de esas 200, sin tener que pasar por el ingl¨¦s, como suele suceder. Y la calidad de la traducci¨®n es la mejor que se puede obtener actualmente. Todav¨ªa hoy, despu¨¦s de dos a?os, nuestro sistema se usa como referencia en muchos art¨ªculos cient¨ªficos.
P. ?C¨®mo lo han conseguido?
R. De forma resumida, el sistema funciona tras procesar traducciones paralelas. Me explico. Tienes documentos en muchas parejas de idiomas, alineados a nivel de frase. Por ejemplo, tengo una frase en catal¨¢n y su correspondiente traducci¨®n en ingl¨¦s o mandar¨ªn. Cuando tienes una gran cantidad de esos textos, los insertas en un modelo neuronal de aprendizaje profundo y el algoritmo extrae patrones. A partir de ah¨ª, el sistema aprende a generalizar. Entonces se produce un proceso extraordinario: emerge una especie de conocimiento tras haber visto tantos datos, y eso permite, por ejemplo, que se hagan traducciones directas de catal¨¢n a yoruba, aunque no tengamos textos paralelos en esos dos idiomas en particular, y, por tanto, el sistema no pueda haber aprendido esa traducci¨®n. Eso es posible porque la herramienta aprende a generalizar entre parejas de textos y a extrapolarlo a otras casu¨ªsticas de las que no tiene ejemplos.
P. ?Esto c¨®mo se hace?
R. Con muchos datos, un gran poder computacional y un algoritmo matem¨¢tico capaz de compaginar todo esto. B¨¢sicamente, tienes una frase de entrada, de la que haces una representaci¨®n matem¨¢tica. Transformas las frases en vectores matem¨¢ticos, y esos vectores matem¨¢ticos se transforman en frases de salida. Todo pasa por un espacio altamente multidimensional. Evidentemente, necesitas un gran poder computacional porque, para que el sistema pueda generalizar, necesita millones y millones de frases paralelas. Nuestra aportaci¨®n original ha sido desarrollar una herramienta capaz de digerir todos esos ejemplos.
P. Dice que necesitan millones de frases paralelas. ?Pero qu¨¦ pasa cuando no hay corpus tan extensos, como en swahili u otras lenguas poco digitalizadas?
R. Hemos rastreado internet y hemos desarrollado un algoritmo que es capaz de paralelizar textos, de encontrar entre los datos abiertos de internet qu¨¦ textos son la traducci¨®n de otros. Esa fase de extracci¨®n de datos es autom¨¢tica. Aparte de eso, como dices, hay parejas de idiomas para los que no tenemos corpus, y lo hemos tenido que desarrollar nosotros: hemos pagado a traductores para que traduzcan ciertas frases para ciertos idiomas.
P. ?De d¨®nde han extra¨ªdo el corpus ling¨¹¨ªstico? ?Han recurrido solo a fuentes abiertas?
R. Una de las cosas que me gustan de FAIR es que nuestra investigaci¨®n es abierta, y puedes ver nuestras fuentes. Est¨¢ especificado en el art¨ªculo y en nuestro repositorio: Parlamento Europeo, ONU¡ Son fuentes disponibles y que la comunidad de traductores lleva mucho tiempo utilizando. La Wikipedia tiene textos paralelos, pero nosotros usamos frases paralelas. Con todo, de ah¨ª hemos sacado mucho.
P. ?Cu¨¢l es el siguiente paso?
R. Ahora lo que queremos es dar el salto a traducir texto a texto. Tambi¨¦n estamos ya con los traductores de voz a voz, que presentamos el a?o pasado. No solo traducen, sino que adem¨¢s mantienen tu tono de voz y tu expresividad. De momento cubre 100 idiomas de entrada y una treintena de salida.
P. ?Hasta d¨®nde pueden llegar? ?Acabar¨¢n alg¨²n d¨ªa con las barreras de los idiomas?
R. Estos sistemas son muy ¨²tiles en muchas situaciones, por ejemplo si est¨¢s perdido en China y nadie habla ingl¨¦s. Pero nosotros ofrecemos traducci¨®n, no interpretaci¨®n. La magia de los int¨¦rpretes es que cogen tu mensaje, lo resumen y lo plasman en otro idioma con total fluidez. De la interpretaci¨®n estamos lejos todav¨ªa. El lenguaje tiene muchas sutilezas y emociones que de momento no podemos cubrir.
P. En los ¨²ltimos meses, se han presentado herramientas de IA generativa multimodal capaces de reconocer objetos de su entorno a trav¨¦s de visi¨®n computacional. ?Qu¨¦ panorama abre esto para la traducci¨®n autom¨¢tica?
R. S¨ª, vamos para all¨¢, hacia sistemas que sean totalmente multimodales [que procesan, texto, imagen, v¨ªdeo y audio]. Eso lo tenemos con Llama 3 [el ¨²ltimo modelo de IA generativa de Meta]. El conocimiento del mundo, de las culturas, del vocabulario espec¨ªfico, del contexto¡ eso lo tienen los int¨¦rpretes, pero no las m¨¢quinas. Nuestras traducciones se limitan al texto o la voz que insertamos.
P. ?Hay planes de a?adir m¨¢s idiomas?
R. Hemos sacado gu¨ªas para insertar nuevas lenguas en el modelo, que es abierto. No lo tenemos que hacer necesariamente nosotros, lo puede hacer la comunidad cient¨ªfica. Nosotros nos ocupamos de que, quienes quieran, puedan hacerlo.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.