?Dejaremos alg¨²n d¨ªa de teclear? Los avances en el reconocimiento del habla ya lo hacen posible
Las tecnolog¨ªas de voz a texto han dado pasos gigantescos en los ¨²ltimos a?os, pero cambiar el teclado por el dictado para elaborar textos tiene otras implicaciones
La tecnolog¨ªa ya existe: en caso de necesidad, este reportaje podr¨ªa haber sido escrito sin teclear, simplemente dict¨¢ndole el texto al procesador. Sin embargo, todav¨ªa dista de ser algo c¨®modo: habr¨ªa que volver sobre el texto para corregir (posiblemente a?adir) la puntuaci¨®n y para cambiar palabras que se han entendido mal. Y tras la relectura, adem¨¢s, es probable que hubiese que darle una vuelta general al resultado, ya que no hablamos igual que escribimos. Incluso si, al dictar, estamos pensando en que el resultado ser¨¢ un texto escrito. Estos son algunos de los problemas que se encontr¨® la dise?adora gr¨¢fica Miriam Inza, al elaborar para la revista Inmaterial Design el art¨ªculo Escribir con la boca: el dictado por voz como pr¨¢ctica de escritura. En el texto se detectan algunas de las consecuencias de escribir dictando: la m¨¢quina a veces entiende mal o no detecta algunas palabras: ¡°Para que este art¨ªculo tuviera sentido, para que supusiera realmente la puesta en pr¨¢ctica de un tipo de escritura hacha con la boca, me autoimpuesto la norma de no corregir lo que se va escribiendo¡±.
¡°Quiz¨¢ uno de los aspectos en los que [las tecnolog¨ªas de voz a texto] a¨²n pueden dar un salto cualitativo enorme es en la puntuaci¨®n autom¨¢tica¡±, confirma Inza en un correo electr¨®nico que escribi¨® tecleando. ¡°En este momento, para escribir por voz es necesario dictar los signos de puntuaci¨®n o, en caso de la transcripci¨®n de una entrevista, por ejemplo, introducirlos manualmente. Algunas herramientas disponen de puntuaci¨®n autom¨¢tica; solo en algunos idiomas, pero se est¨¢ trabajando en ello¡±, se?ala. Aun as¨ª, lo que falta son ¨²nicamente ¡°minucias: poder escribir a la velocidad en que se habla sin usar las manos es ya el futuro en el presente¡±, asegura.
Una de las claves para el gran avance que han tenido las tecnolog¨ªas de voz a texto en los ¨²ltimos a?os ha sido la llegada de Whisper, el modelo de Reconocimiento Autom¨¢tico del Habla (ASR, por sus siglas en ingl¨¦s) que liber¨® OpenAI a finales de 2022. La herramienta tiene su pol¨¦mica: seg¨²n una investigaci¨®n del New York Times, OpenAI cre¨® Whisper cuando se qued¨® sin texto en internet con el que alimentar a su IA. Con Whisper, la puerta de todo YouTube se les abri¨®, d¨¢ndoles un material m¨¢s natural y conversacional con el que entrenaron GPT-4, su modelo de lenguaje m¨¢s avanzado. Este uso, sin embargo, podr¨ªa haber infringido las normas de YouTube, sin hablar de la privacidad de los usuarios que aparecen en esos v¨ªdeos (Google, propietaria del servicio de v¨ªdeo online, tambi¨¦n utiliza ese material para entrenar su propia IA).
Guerras tecnol¨®gicas aparte, ¡°Whisper lo ha cambiado todo¡±, sostiene Jos¨¦ Mar¨ªa Fern¨¢ndez Gil, responsable de la Unidad de Accesibilidad Digital de la Universidad de Alicante. ¡°La IA intenta transcribir frases enteras, con sus puntos, sus comas, exclamaciones, interrogaciones¡ Y no va a cometer, o residualmente lo har¨ªa, errores de contexto tipo ¡®la cana es muy c¨®moda¡¯, porque no ha distinguido entre la ene y la eme¡±, ejemplifica. En la propia Universidad de Alicante han utilizado el modelo para subtitular cerca de 1.800 horas de v¨ªdeo con una precisi¨®n ¡°impresionante¡±.
En cuanto a lo que todav¨ªa hay que mejorar, Fern¨¢ndez Gil indica que todav¨ªa falta vocabulario y que en algunas siglas se equivoca, aunque ¡°much¨ªsimo menos que los sistemas tradicionales¡±. Eso s¨ª, el coste computacional de Whisper es muy grande, algo que est¨¢ ¡°fuera del alcance de la mayor¨ªa¡±.
Otro tema a¨²n no resuelto es el del procesamiento de diferentes acentos y dialectos, ¡°sobre todo si son de uso local o regional¡± a?ade Dayana Ribas, directora cient¨ªfica de Business Telecommunication Services (BTS), empresa de telecomunicaciones que tambi¨¦n est¨¢ utilizando estas tecnolog¨ªas en diversos proyectos. Ribas menciona que la transcripci¨®n tambi¨¦n falla cuando se usan palabras en diferentes idiomas, una situaci¨®n ¡°frecuente en la cotidianidad de pa¨ªses pr¨¢cticamente biling¨¹es, como es el caso de Puerto Rico¡±. Que falten todav¨ªa este tipo de detalles es un ejemplo claro del problema de los sesgos, se?ala.
Tambi¨¦n quedan pendientes temas como el de la transcripci¨®n de audios en escenarios realistas y cotidianos ¡°que presenten una mezcla de distorsiones de diversa naturaleza, por ejemplo, las llamadas telef¨®nicas con sus ruidos ambientales¡±, la correcci¨®n autom¨¢tica de errores y la necesidad ¡°constante y creciente¡± de atender el tema de la seguridad y privacidad, a?ade la experta.
?Nos pasaremos a escribir dictando?
Con la tecnolog¨ªa ya a punto de caramelo, llega la siguiente pregunta: ?llegar¨¢ un momento en el que la primera opci¨®n cuando queramos elaborar un texto escrito sea dict¨¢rselo a una m¨¢quina? Todos los expertos entrevistados coinciden en que hablamos y escribimos de forma distinta, por lo que es algo que habr¨¢ que tener siempre en cuenta. Dayana Ribas cree que el dictado puede resultar pr¨¢ctico para tareas m¨¢s creativas o la escritura de borradores, ya que ¡°facilita la rapidez y la naturalidad en la producci¨®n y el guardado de ideas¡± y podemos hacerlo mientras hacemos ¡°otras cosas semiautom¨¢ticas para el humano, como caminar o cocinar, y requiere menos esfuerzo¡±. Sin embargo, ¡°para generar ideas m¨¢s precisas y demandantes de concentraci¨®n, como por ejemplo escribir un reporte t¨¦cnico o una novela, es probable que sentarse a teclear ofrezca el tiempo adecuado para pensar y producir las ideas con m¨¢s control¡±, a?ade.
Sobre esto, Miriam Inza recuerda a Roland Barthes, que dijo ¡°que la distancia entre la cabeza y la mano es mayor a la que hay entre la cabeza y la boca, y ese tiempo se puede aprovechar para pensar¡±. Una de las cosas que not¨® en sus investigaciones sobre ¡°escribir con la boca¡± es que cambia tambi¨¦n el modo en el que se habla. ¡°Para escribir un texto con el dictado por voz debe adoptarse una manera espec¨ªfica de dictar¡±, explica.
Tambi¨¦n es muy posible que en todo esto se acabe viendo una brecha generacional. Frente a las personas que est¨¢n acostumbradas a escribir r¨¢pido en un teclado de ordenador, ¡°las nuevas generaciones han visto el icono del micr¨®fono para dictar desde peque?os y lo utilizan mucho¡±, apunta Jos¨¦ Mar¨ªa Fern¨¢ndez Gil. Pone como ejemplo a su sobrina, que es adolescente y, cuando usa el m¨®vil, ¡°suele preferir dictar en las aplicaciones a escribir¡±. Por lo que le comenta a su t¨ªo, es algo generalizado en su generaci¨®n.
Por otra parte, un cambio en el instrumento de escritura dar¨¢ textos con caracter¨ªsticas diferentes. Virginia Woolf, por ejemplo, se quejaba cuando escrib¨ªa alguna carta con m¨¢quina de escribir (intentaba no hacerlo) de c¨®mo el instrumento cortaba y romp¨ªa las frases que estaban clar¨ªsimas y preciosas en su cabeza. Relacionado con todo esto, usar para escribir herramientas con IA tambi¨¦n tiene su impacto: una investigaci¨®n reciente de la Universidad de Harvard concluy¨® que los textos escritos ayud¨¢ndose del predictivo son ¡°m¨¢s sucintos, m¨¢s predecibles y menos coloridos¡± que los que no lo utilizan. Sobre c¨®mo ser¨¢n los textos escritos ¡°a boca¡± todav¨ªa no hay estudios.
Una revoluci¨®n para la accesibilidad
Desarrollar la tecnolog¨ªa de voz a texto no supone un avance solo en cuestiones de comodidad o rapidez a la hora de realizar determinadas tareas, sino que ser¨¢ una opci¨®n que adem¨¢s ayude a muchas personas. El responsable de la Unidad de Accesibilidad Digital de la Universidad de Alicante pone algunos ejemplos: ayudar¨¢ a las personas con d¨¦ficit auditivo que, gracias a la generalizaci¨®n de los subt¨ªtulos autom¨¢ticos, podr¨¢n ¡°o¨ªr (leer)¡± lo que no escuchan; mejorar¨¢ la integraci¨®n de personas de otros pa¨ªses y culturas al combinar el reconocimiento de lenguaje hablado con la traducci¨®n; permitir¨¢ ¡°escribir bien a personas que no saben escribir tan bien (nivel educativo, cultural, socioecon¨®mico¡)¡±, adem¨¢s de facilitarles mucho la vida a personas que, por problemas motores, no puedan o tengan dificultades para escribir usando las manos.
Por su parte, Dayana Ribas destaca tambi¨¦n las posibilidades que se abren desde el punto de vista del aprendizaje, ya que ¡°potencia el sistema educativo con herramientas que facilitan tomar notas y estudiar¡±. Tambi¨¦n pueden cambiar muchas cosas en el campo de la atenci¨®n al cliente. En un centro de salud, por ejemplo, los m¨¦dicos podr¨ªan atender mejor a los pacientes mientras el ordenador transcribe lo que estos van contando.
A la hora simplemente de producir un texto como este, el dictado ser¨¢ una opci¨®n m¨¢s. ¡°Tener opciones es siempre una ventaja. La elecci¨®n de una forma u otra de producir texto ser¨¢ muy personal y estar¨¢ en todo caso filtrada por la caracter¨ªstica auditiva, visual o reproductiva de cada cual para inspirarse o fijar mejor las ideas¡±, indica la directora cient¨ªfica de BTS.
Quiz¨¢ las im¨¢genes de escritores y escritoras, que pasaron de representarlos pluma en mano a mostrarlos tras una pantalla, se conviertan en unos a?os en fotograf¨ªas de personas caminando y hablando a la vez. O quiz¨¢ no. ¡°La tecnolog¨ªa de dictado por voz est¨¢ teniendo y va a tener un fuerte impacto positivo en las diversas labores de escritura. Pero igual que algunas preferimos escribir a mano determinadas cosas antes que teclearlas en el m¨®vil o en un ordenador, tambi¨¦n habr¨¢ quien encuentre las teclas m¨¢s placenteras que el dictado. Aunque sea solo por el gusto de poder escribir en silencio¡±, concluye Inza.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.