FluencyBank: la base de datos para estudiar la tartamudez que ayuda a Siri a entendernos mejor
M¨¢s de 20 a?os de grabaciones y transcripciones contribuyen al estudio de los problemas de fluidez y al desarrollo de tecnolog¨ªas de reconocimiento del lenguaje que mejoran la accesibilidad en el uso de asistentes virtuales
El resultado de una de las ¨²ltimas investigaciones publicadas por la divisi¨®n de aprendizaje autom¨¢tico de Apple se apoya en 32.000 grabaciones de gente que tartamudea. Cada registro lleva una etiqueta que describe lo ocurrido: bloqueos, prolongaciones, repeticiones de sonidos, repeticiones de palabras e interjecciones. La idea es entrenar con estos archivos de sonido los modelos algor¨ªtmicos que reconocen el lenguaje de los usuarios de Siri, el asistente de voz de Apple, para que ¨¦ste entienda y ...
Reg¨ªstrate gratis para seguir leyendo
Si tienes cuenta en EL PA?S, puedes utilizarla para identificarte
El resultado de una de las ¨²ltimas investigaciones publicadas por la divisi¨®n de aprendizaje autom¨¢tico de Apple se apoya en 32.000 grabaciones de gente que tartamudea. Cada registro lleva una etiqueta que describe lo ocurrido: bloqueos, prolongaciones, repeticiones de sonidos, repeticiones de palabras e interjecciones. La idea es entrenar con estos archivos de sonido los modelos algor¨ªtmicos que reconocen el lenguaje de los usuarios de Siri, el asistente de voz de Apple, para que ¨¦ste entienda y d¨¦ un mejor servicio a aquellas personas con trastornos en el habla. Seg¨²n los datos de la propia compa?¨ªa, el uso de estas grabaciones ha contribuido a mejorar la comprensi¨®n de dichos usuarios hasta un 28%.
Uno de los problemas para emprender un proyecto de este tipo es que no hay suficiente material sonoro en archivos p¨²blicos. ¡°Pese al creciente inter¨¦s en esta ¨¢rea, los datasets ¡ªconjuntos de datos¡ª p¨²blicos son demasiado peque?os para construir sistemas de detecci¨®n y carecen de suficientes anotaciones¡±, se?alan los autores del estudio, publicado el pasado febrero. Una parte de las grabaciones empleadas proced¨ªan de podcasts p¨²blicos. La otra la obtuvieron de FluencyBank, una entidad sin ¨¢nimo de lucro que hace cinco a?os lanz¨® una base de datos en la que investigadores y terapeutas de todo el mundo pueden compartir v¨ªdeos, grabaciones de voz y transcripciones de ni?os y adultos con problemas de tartamudez.
¡°Nos permite hacer cosas mucho m¨¢s robustas e intentar nuevas ideas sin gastar un mont¨®n de dinero¡±, explica Nan Berstein Ratner, profesora de Ciencias de la Escucha y el Discurso en la Universidad de Maryland y codirectora de FluencyBank. ¡°Hay muy buenas investigaciones sobre la tartamudez, pero no se pod¨ªa acceder a mucha de la informaci¨®n recopilada¡±.
Abrir a todo el mundo el acceso a estos datos permite interacciones con otras comunidades cient¨ªficas. La aportaci¨®n de Apple es solo un ejemplo entre muchos. ¡°La petici¨®n m¨¢s frecuente viene de gente que est¨¢ desarrollando tecnolog¨ªas de reconocimiento del lenguaje, que quieren que sus sistemas puedan ver a trav¨¦s del tartamudeo porque la gente con este problema encuentra muchas dificultades para utilizar asistentes de voz¡±, asegura Bernstein.
Primeros pasos
El germen de Fluency Bank est¨¢ en los a?os 80. Bernstein colabor¨® entonces con el otro padre de esta torre de Babel del habla no fluida, Brian MacWhinney, en la creaci¨®n de Childes, un banco para el intercambio de datos sobre adquisici¨®n del lenguaje en ni?os. De hecho, la investigadora fue una de las primeras en ceder grabaciones ¡ªen concreto las de su tesis doctoral¡ª en el reci¨¦n creado foro. ¡°Mi disertaci¨®n era sobre el modo en que las madres hablan a los beb¨¦s. Durante los a?os posteriores hemos rastreado el uso de mis datos. Se han empleado para ense?ar lenguaje a los ordenadores, para ense?arles a reconocer el habla, para identificar las diferencias entre el discurso claro y el que no lo es, para establecer hip¨®tesis sobre c¨®mo de generalizado es el discurso entre culturas¡ Jam¨¢s habr¨ªa imaginado nada de esto. Esa es la magia de compartir datos. Cada uno de nosotros tiene una imaginaci¨®n limitada, pero cuando los datos est¨¢n ah¨ª, la gente con nuevas ideas puede hacer algo con ellos¡±, enumera.
El ¨¦xito de Childes impuls¨® la puesta en marcha de proyectos parecidos pero centrados en otros fen¨®menos y afecciones: afasia, trastornos del hemisferio derecho, demencia¡ ¡°A partir de cierto punto, nos dimos cuenta de que muchos de estos bancos estaban centrados en el contenido. En lo que la gente dice y no en el modo en que lo dicen¡±, recuerda Bernstein. Entonces lleg¨® el turno de FluencyBank, fundada en 2016 y que en este momento est¨¢ en proceso de renovar su financiaci¨®n por cinco a?os m¨¢s. En este compendio de grabaciones y transcripciones los nuevos registros conviven con otros obtenidos desde mediados de los a?os 90 hasta la actualidad. Hay casi 3.000 registros de medio millar de sujetos entre los que figuran ni?os y adultos con y sin trastornos del lenguaje y aprendices de segundos idiomas.
Archivo hist¨®rico
La base de datos se convierte as¨ª en una suerte de proyecto de preservaci¨®n del fruto del esfuerzo de generaciones anteriores de investigadores, que de otra manera acabar¨ªa siendo destruido u olvidado en alg¨²n fichero. ¡°?Qu¨¦ pasa cuando te retiras? ?Tu jefe llama al personal de limpieza y todos tus datos se van a la basura? Necesitamos preservar esto. Son datos de muy alta calidad que la gente puede revisar para hacer m¨¢s cosas con ellos¡±. El coste de no tener en cuenta el futuro ya lo ha pagado Childes: entre sus registros m¨¢s antiguos est¨¢n las investigaciones del reputado psic¨®logo Roger W. Brown, que datan de los a?os 60, pero solo en forma de transcripci¨®n. ¡°Ten¨ªa financiaci¨®n, pero no suficiente, as¨ª que grababa sobre las cintas usadas¡±, resume Bernstein.
En paralelo al crecimiento de la base de datos, se han desarrollado programas inform¨¢ticos gratuitos que permiten integrar grabaciones de diferentes idiomas ¡ªincluido espa?ol, portugu¨¦s, chino mandar¨ªn y canton¨¦s o franc¨¦s, entre otros¡ª y combinar los datos. En este sentido, uno de los retos de FluencyBank para los pr¨®ximos cinco a?os es ampliar la diversidad ling¨¹¨ªstica de la base de datos, en la que a¨²n predominan los registros en ingl¨¦s. ¡°De hecho, despu¨¦s de hablar contigo tengo una reuni¨®n con un grupo de Brasil que quiere donar registros en portugu¨¦s¡±, comenta Bernstein, que tiene programadas diferentes intervenciones en foros internacionales para promover nuevas donaciones.
La base de datos puede usarse adem¨¢s como herramienta de diagn¨®stico. Para comparar por ejemplo los registros de un paciente con otros integrados en la base de datos. Esto permite determinar, por ejemplo, si las frases de un ni?o son m¨¢s cortas que la media para su edad. La alternativa a utilizar estas herramientas automatizadas es dedicar mucho m¨¢s tiempo a las revisiones de las grabaciones de cada paciente. ¡°Es est¨²pido que el terapeuta tenga que dedicar tanto tiempo y esfuerzo a la evaluaci¨®n. Si lo hace un ordenador, ¨¦l puede dedicarse a trabajar en el tratamiento¡±.