Estas m¨¢quinas pueden leer los labios mejor que las personas expertas
Im¨¢genes normales de v¨ªdeo son suficientes para que un ordenador bien entrenado pueda leer los labios de las personas que aparecen en ¨¦l como si fuera un experto
En una de las m¨¢s inquietantes escenas de 2001: una odisea del espacio (Stanley Kubrick, 1968), los dos astronautas que viajan hacia J¨²piter se encierran en una c¨¢psula y desconectan los micr¨®fonos para evitar ser o¨ªdos por H.A.L. 9000, la inteligente computadora que controla la nave. Sospechan de su mal funcionamiento y dudan sobre si desconectarlo; la decisi¨®n es cr¨ªtica para misi¨®n. H.A.L. ciertamente no puede o¨ªrlos, pero el director de la pel¨ªcula nos da a entender en un excelente plano lo que est¨¢ sucediendo: al fondo de la imagen, la c¨¢mara de H.A.L. est¨¢ leyendo el movimiento de los labios de ambos durante la conversaci¨®n y enter¨¢ndose perfectamente de lo que traman contra ¨¦l. El resto es historia del cine.
Mediante t¨¦cnicas de reconocimiento facial y aprendizaje autom¨¢tico una m¨¢quina puede superar en pruebas de lectura de labios a un humano entrenado para ello
Como a veces sucede, algo era propio de la ciencia-ficci¨®n hace unos pocos a?os empieza a estar a nuestro alcance hoy en d¨ªa. Aunque la lectura de labios es una t¨¦cnica realmente complicada incluso para los m¨¢s experimentados, la inteligencia artificial de los ordenadores puede realizarla de forma efectiva y, seg¨²n se ha publicado recientemente, supera en precisi¨®n a los humanos. El dato procede de un trabajo de investigadores de la Universidad de Oxford y se refiere a un sistema llamado LipNet [PDF] que emplea un modelo capaz de leer frases completas, es independiente de la persona que habla y emplea redes neuronales y aprendizaje autom¨¢tico (machine learning).
Una tarea lleno de dificultades tecnol¨®gicas
Parte del problema para realizar esta tarea es que muchos de los movimientos de los labios (o ¡°fonemas visuales¡±, llamados visemas, de los que hay unos 14) son pr¨¢cticamente indistinguibles, incluso para los expertos; esos visemas est¨¢n relacionados con unos 50 fonemas o sonidos individuales. Una de las formas de mejorar la precisi¨®n en esa interpretaci¨®n es utilizar el contexto para dar prioridad a palabras que encajan mejor con dichos visemas seg¨²n el tema que se est¨¦ tratando. Algo en lo que los ordenadores son muy capaces. El resultado es que LipNet puede interpretar correctamente un 93,4 por ciento de las palabras mientras que en la misma tarea un experto humano alcanza solo el 79,6 por ciento. Sus creadores dicen que LipNet llega a interpretar correctamente un 78% de ?palabras sueltas? m¨¢s que una persona sorda que est¨¦ acostumbrada a realizar esa misma lectura de labios.
Todo esto depende de muchas tecnolog¨ªas, en especial del reconocimiento facial y de la geometr¨ªa de la posici¨®n de los labios en las im¨¢genes. Algo que est¨¢n facilitando la llegada de mejores c¨¢maras y m¨¢s potentes procesadores y algoritmos, capaces de interpretar correctamente el ¨¢ngulo de la imagen, las luces y sombras y cualquier otros peque?os detalle. Eso sin entrar en la dificultad que supone interpretar los rasgos de alguien con barba o bigote, por ejemplo.
Sonidos residuales, una ayuda importante
Aunque las condiciones ambientales no sean las mejores, la lectura de labios puede combinarse con audio de baja calidad ¨Csi existe¨C para mejorar su precisi¨®n
Otra forma de mejorar la eficiencia de la lectura de labios es aprovechar el sonido original, si acaso existe. Aunque muchas veces no est¨¢ disponible o no con la calidad necesaria (por ejemplo el sonido ambiente de una sala llena de gente con varias conversaciones) a veces cualquier peque?a pista que se pueda extraer resulta ¨²til. Ah¨ª se puede aplicar un algoritmo de reconocimiento de voz convencional (como los de Apple, Google o Microsoft) e intentar aprovechar lo que se entienda, combin¨¢ndolo con las im¨¢genes.
De hecho entre las personas sordas que tienen alg¨²n tipo de capacidad auditiva, por peque?a que sea, esto es una importante pista de cara a mejorar la lectura de labios ¨C es un problema leer los labios sin ninguna otra pista si la persona se mueve demasiado, alguien se interpone o la luz es escasa. Curiosamente, un estudio de la Universidad Florida Atlantic explicaba que los beb¨¦s aprenden a hablar tanto escuchando como fij¨¢ndose en el movimiento de los labios, una especie de experiencia multisensorial.
Un problema cuando no se hace esto en tiempo real es que el v¨ªdeo y el audio de muchas grabaciones est¨¢ desincronizado ¨C y aunque para los seres humanos son aceptables incluso 5 d¨¦cimas de segundo sin que percibamos la diferencia no es as¨ª para las m¨¢quinas. Si esto sucede la red neuronal se despista y es incapaz de interpretar correctamente lo que est¨¢ viendo (porque oye otra cosa en ese instante) y ese entrenamiento no sirve. Es un efecto indeseable que se produce a veces con grabaciones de archivo.
Pruebas y aplicaciones pr¨¢cticas
Google puso a trabajar a su inteligencia artificial DeepMind a aprender a leer los labios entren¨¢ndola con los v¨ªdeos de 5.000 horas de programaci¨®n de la BBC, que inclu¨ªan en total 118.000 frases y hasta 17.500 palabras distintas pronunciadas por personas con distintos rasgos en todo tipo de condiciones (luz ambiente, ¨¢ngulos, movimientos, etc¨¦tera). En una prueba llevada a cabo tras el an¨¢lisis DeepMind acert¨® el 46,8 de las palabras de 200 clips de v¨ªdeo, mientras que un profesional de lectura de labios tan solo atin¨® con el 12,4 por ciento sin errores.
Las aplicaciones de todos estos sistemas son tambi¨¦n muy interesantes. Adem¨¢s de servir para obtener transcripciones de v¨ªdeos en los que no hay sonido o ¨¦ste es de baja calidad pueden utilizarse para mejorar la precisi¨®n de las traducciones autom¨¢ticas o interpretar a gran distancia una conversaci¨®n si la imagen tiene suficiente detalle.
Las aplicaciones van desde la obtenci¨®n de mejores transcripciones y traducciones autom¨¢ticas a nuevos sistemas de contrase?as o de interfaces persona-ordenador
Tambi¨¦n hay otras propuestas curiosas al respecto: una es utilizar la t¨¦cnica como sistema de contrase?as que dependa no solo del tono de voz sino tambi¨¦n de la forma de mover los labios al pronunciar la palabra clave. Otra es usar esta tecnolog¨ªa en el interior de un coche (ambiente ruidoso) combinando reconocimiento de voz y lectura de labios; Hyundai obtuvo una patente al respecto, con la premisa de que el coche entienda siempre a la persona y que no sea necesario mover la cabeza ni apartar la vista de la carretera para dirigirse al micr¨®fono intentando minimizar el ruido.
La forma de comercializar este tipo de sistemas tambi¨¦n ha cambiado: antiguamente hab¨ªa que comprar una costosa licencia de software o pagar una especie de royalties por todo lo que se obtuviera con invenciones derivadas, adem¨¢s de las casi obligatorias actualizaciones. Hoy se venden como servicios de pago-por-uso. Un buen ejemplo ser¨ªa Watson, la inteligencia artificial de IBM: el servicio de conversi¨®n de voz a texto cuesta 2 c¨¦ntimos por minuto, y los primeros mil minutos mensuales son gratis. ?Qui¨¦n le hubiera dicho a H.A.L. que terminar¨ªamos comprando inteligencia artificial ¡°al peso¡±!
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.