Hablar con un japon¨¦s y escucharlo en espa?ol: las m¨¢quinas ya ganan terreno en la interpretaci¨®n de idiomas
La inteligencia artificial es capaz de traducir en tiempo real y con voz las conversaciones en videollamadas, tal y como hacen los int¨¦rpretes
Hasta hace poco, habr¨ªa sonado a ciencia ficci¨®n: conectarse en una videollamada donde en la pantalla est¨¢ un individuo que vive al otro lado del mundo. Esta persona habla en japon¨¦s, pero usted, a trav¨¦s de sus auriculares, escucha sus palabras en espa?ol. Esto es una situaci¨®n similar a lo que hacen los int¨¦rpretes, que traducen para diferentes idiomas de manera presencial o en l¨ªnea. Sin embargo, la gran diferencia es que aqu¨ª no hay un humano involucrado, sino una inteligencia artificial (IA) que traduce y pronuncia el discurso en otro idioma de manera simult¨¢nea.
Kudo, una empresa que ha crecido en el mercado al conectar int¨¦rpretes de idiomas con clientes corporativos, ha dado un paso adelante al incluir una tecnolog¨ªa que realiza traducciones simult¨¢neas en conferencias en l¨ªnea. Y no se trata de traducir frases escritas, sino que lleva a cabo traducciones en voz, permitiendo a los participantes de una videoconferencia escuchar la traducci¨®n como si tuvieran un int¨¦rprete presente.
En una demostraci¨®n realizada para EL PA?S, Tzachi Levy, jefe de producto de Kudo, habla en ingl¨¦s mientras su discurso se escucha casi en tiempo real en espa?ol. Aunque la voz suena un tanto rob¨®tica y hay un ligero retraso comparado con una traducci¨®n realizada por una persona, el resultado sigue siendo sorprendente. Mientras que una interpretaci¨®n humana suele tener un retraso de 5 a 7 segundos, la experiencia artificial ronda los 10.
La compa?¨ªa cuenta con 20 clientes corporativos que ya utilizan esa funcionalidad, que sigue en constante mejora. Esta herramienta funciona en la propia plataforma de videoconferencias de Kudo, pero tambi¨¦n est¨¢ integrada con Microsoft Teams, muy popular en el mundo corporativo.
En Kudo hacen hincapi¨¦ en que en situaciones donde se requiere una precisi¨®n del 100% en la traducci¨®n, el int¨¦rprete humano siempre ser¨¢ la mejor opci¨®n. El directivo pone como ejemplo las sesiones del Parlamento Europeo: ¡°Probablemente, no se recurrir¨¢ a sistemas artificiales, pero en reuniones m¨¢s peque?as, donde no hay int¨¦rpretes disponibles en el momento, esta soluci¨®n puede ser efectiva¡±.
Levy se?ala que el avance de la IA es inevitable y que los progresos que originalmente se pensaba que tardar¨ªan de 5 a 10 a?os, se han logrado en cuesti¨®n de meses. El campo evoluciona tan r¨¢pido que, seg¨²n calcula, en el pr¨®ximo a?o la IA podr¨ªa lograr con precisi¨®n traducciones simult¨¢neas en un 90% de las situaciones comunes.
La inteligencia artificial y la humana
En junio de este a?o, Wired hizo una comparativa entre la tecnolog¨ªa de Kudo y la interpretaci¨®n realizada por expertos. Los humanos obtuvieron resultados bastante superiores frente a la herramienta de IA, principalmente en lo que se refiere al contexto de los discursos. Claudio Fantinuoli, jefe de Tecnolog¨ªa de Kudo y creador de la herramienta autom¨¢tica de traducci¨®n, asegura a EL PA?S que el modelo evaluado por el medio estadounidense hace tres meses ya ha sido mejorado en un 25%. El pr¨®ximo paso en el desarrollo consiste en integrar la inteligencia artificial generativa para que la experiencia del usuario sea m¨¢s agradable: que la voz suene m¨¢s fluida, humana y que capture la entonaci¨®n.
Uno de los desaf¨ªos principales, seg¨²n Fantinuoli, es lograr que la IA pueda interpretar el contexto de la narrativa, lo que un humano entiende que est¨¢ entre l¨ªneas. Ese reto sigue siendo grande, pero se mejora ¡°con modelos de lenguaje grandes¡±, como el que est¨¢ por detr¨¢s de los chatbots conversacionales.
Fantinuoli, que tambi¨¦n es profesor universitario y ense?a a j¨®venes estudiantes que aspiran convertirse en int¨¦rpretes profesionales en un futuro, opina que ¡°no ve conflicto¡± entre la IA y la formaci¨®n humana. Adem¨¢s, asegura que el trabajo de un experto ser¨¢ siempre de mayor calidad. ¡°Intento hacer que comprendan que los robots son una realidad en el mercado y que ellos tienen que ser la parte superior. La IA los est¨¢ impulsando a ser muy buenos int¨¦rpretes¡±, matiza.
Una voz, muchos idiomas
Una posibilidad que se ve en un futuro cercano es la de a?adir la propia voz del hablante en la traducci¨®n. Fantinuoli afirma que t¨¦cnicamente eso ya es factible y se trata de una cuesti¨®n de pocos meses para a?adirle a la herramienta de su empresa. Otras compa?¨ªas ya han comprobado la posibilidad de usar una sola voz para reproducir contenido en diferentes idiomas, pero no de forma simult¨¢nea. Es el caso de la plataforma ElevenLabs, que da vida a contenidos en 30 idiomas distintos a partir de una misma voz.
El proceso es sencillo: basta con cargar un audio de m¨¢s de un minuto de duraci¨®n con el habla que se desea replicar. A partir de este archivo, la herramienta lee en voz alta el texto que desee, ya sea en el mismo idioma original u otros disponibles. La plataforma brinda la opci¨®n de realizar ajustes personalizados, afinando la claridad de la lectura o incluso exagerando el estilo de la voz seg¨²n las preferencias. La regeneraci¨®n no solo imita la voz, sino que captura y refleja matices distintivos, como el tono, el ritmo, el acento y la entonaci¨®n.
Recientemente, Meta ha lanzado un modelo de traducci¨®n multimodal, que puede realizar traducciones de voz a texto, de voz a voz, de texto a voz y de texto a texto para hasta 100 idiomas, dependiendo de la tarea. Una de las promesas es para hablantes pol¨ªglotas, aquellos que mezclan dos o tres idiomas en una sola frase. La empresa de Mark Zuckerberg afirma que este modelo es capaz de discernir los diferentes idiomas en juego y realizar las traducciones correspondientes. Si bien es cierto que a¨²n muestra algunos peque?os errores cuando se trata de esta caracter¨ªstica, funciona bastante bien cuando la frase se expresa en un ¨²nico idioma. La herramienta est¨¢ disponible gratuitamente en su versi¨®n Beta.
Claudio Fantinuoli considera que la nueva herramienta de Meta es sorprendente y la compara como ¡°el ChatGPT del discurso hablado¡±. ¡°Lo que hacen es juntar todos los modelos, que pueden hacer muchas tareas al mismo tiempo. Esto es futuro¡±, concluye.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y Twitter o apuntarte aqu¨ª para recibir nuestra newsletter semanal.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.