Cathy Pearl (Google): ¡°El reconocimiento de voz saltar¨¢ a espacios p¨²blicos¡±
A¨²n nos da verg¨¹enza hablarle a las m¨¢quinas, pero eso cambiar¨¢ gracias al ¡®silent speech¡¯, una tecnolog¨ªa capaz de leer el habla antes de que emitamos sonidos. Cathy Pearl, directora de dise?o de conversaciones en Google, nos habla de ello.


Lograr que un dispositivo nos entienda cuando le hablamos es extremadamente complejo. Cathy Pearl lleva m¨¢s de 20 a?os trabajando en ello. ¡°Cuando empec¨¦, el reconocimiento de voz se circunscrib¨ªa a los sistemas de telefon¨ªa autom¨¢tica. B¨¢sicamente, empresas tratando de ahorrar dinero automatizando tareas, haciendo que los clientes le hablaran a ordenadores en vez de a humanos, que es m¨¢s caro¡±, explica la directora de dise?o de conversaciones en Google. Qui¨¦n le iba a decir entonces que acabar¨ªamos habl¨¢ndole al m¨®vil... y que este nos entender¨ªa (relativamente bien).
Un mes despu¨¦s de la entrevista, realizada en Madrid durante el encuentro de innovaci¨®n Experience Fighters, salt¨® la pol¨¦mica: Google confirm¨® que ¡°expertos del lenguaje¡± repartidos por el mundo escuchaban el 0,2% de las conversaciones entre usuarios y asistentes virtuales. La respuesta de Pearl cuando se le pregunt¨® al respecto fue ce?irse al comunicado oficial de la compa?¨ªa, en el que Google asegura que las escuchas se hac¨ªan para ayudar al sistema ¡°a entender mejor los idiomas¡± y en el que se confirma que estas ¡°revisiones humanas¡± han sido canceladas.
- P. ?Cu¨¢l es la estrategia de Google con el reconocimiento de voz?
- R. Estamos invirtiendo mucho en dise?o de conversaciones. El a?o pasado publicamos un manual de buenas pr¨¢cticas para que se pueda aplicar al desarrollo de esta tecnolog¨ªa. Creemos que estamos ante otra potencial interfaz. No decimos que la voz vaya a ser lo ¨²nico, pero ser¨¢ un canal importante.
- P. A mucha gente le inquieta que los smart speakers y otros aparatos nos est¨¦n espiando¡
- R. Cuando usas Google Assistant puedes ver en la app de tu tel¨¦fono si Ok Google est¨¢ operativo. El tel¨¦fono te avisa cada vez que algo se ha grabado, y las grabaciones se pueden borrar permanentemente. Tambi¨¦n estamos trabajando en tecnolog¨ªas que har¨¢n que el reconocimiento de voz suceda localmente en tu tel¨¦fono, sin enviar nada a la nube.
- P. ?Qu¨¦ est¨¢n investigando?
- R. En enero se anunci¨® el modo int¨¦rprete, que permitir¨¢ poner el tel¨¦fono como traductor en tiempo real para varios idiomas. Otra cosa de la que me siento particularmente orgullosa es del uso de la voz en la accesibilidad y el dise?o inclusivo. Los que quiz¨¢s se beneficien m¨¢s de esta tecnolog¨ªa son quienes tienen problemas de movilidad, de visi¨®n o de expresi¨®n.
- P. ?Qu¨¦ feedback tienen de los usuarios? ?A la gente le gusta hablar con los aparatos?
- R. S¨ª, creo que hay entusiasmo. Un estudio que sac¨® la National Public Radio dice que la mitad del tiempo en el que la gente usa smart speakers est¨¢ con otras personas. Me gusta ese aspecto de comunidad. Dicen que el 41% de nuestras vidas va a pasar delante de una pantalla, as¨ª que poder hablar con los aparatos significa tambi¨¦n separarnos algo de ellos. Puedes lanzar una pregunta r¨¢pida mientras est¨¢s en la mesa comiendo, lo que es mucho menos farragoso que ponerte a buscar algo en el m¨®vil. Y as¨ª todo el mundo oye la pregunta y la respuesta, de modo que la conversaci¨®n no se interrumpe. El reconocimiento de voz puede aliviar algo nuestra adicci¨®n a las pantallas.
- P. ?C¨®mo se imagina el reconocimiento de voz en 10 a?os?
- R. Se convertir¨¢ en algo muy com¨²n. Ahora, por ejemplo, los smart speakers se ven sobre todo en los hogares, pero pronto estar¨¢n tambi¨¦n en tiendas, restaurantes o en el trabajo. Una de las razones ah¨ª es porque cuando estamos en p¨²blico no nos gusta hablar en voz alta a los dispositivos. Ah¨ª entra la tecnolog¨ªa llamada silent speech, que se ha prototipado en el MIT Media Lab bajo el nombre de Alter Ego. El aparato cuenta con sensores en la mand¨ªbula que recogen las se?ales del prehabla: antes de hablar mandamos microse?ales. La idea es captarlas y codificarlas, de forma que podamos comunicarnos sin que nadie nos oiga. Esta tecnolog¨ªa disparar¨¢ el uso del reconocimiento de voz.
- P. ?Ha detectado distintas formas de relacionarse con los lectores de voz dependiendo del pa¨ªs?
- R. No, m¨¢s all¨¢ de las particularidades de cada idioma. Es importante cuando dise?as para distintos pa¨ªses no limitarse a traducir. Nosotros tenemos equipos de localizaci¨®n para ayudarnos a entender las cosas que en una cultura puedan sonar diferente que en otra.
- P. ?Cu¨¢les han sido los avances clave de los ¨²ltimos a?os en esta tecnolog¨ªa?
- R. En primer lugar, los micr¨®fonos, que ya no necesitas tener delante para que te capten bien. La precisi¨®n del speech recognition es enorme. Y el entendimiento del lenguaje natural ha mejorado mucho, aunque todav¨ªa queda mucho camino por delante.
- P. ?Con qu¨¦ l¨ªmites se encuentran actualmente los desarrollos relacionados con el reconocimiento de voz?
- R. Una de las mayores limitaciones es lo que llamamos descubrebilidad (discoverability). Digamos que tienes un smart speaker: ?c¨®mo sabes qu¨¦ puede hacer? Seguramente sea capaz de hacer miles de cosas, ?pero c¨®mo sabes t¨² qu¨¦ decir exactamente para que funcione? A veces se convierte en una especie de juego a las adivinanzas, y eso puede resultar frustrante para el usuario. Otra cosa que est¨¢ muy limitada tiene que ver con el entendimiento del lenguaje natural, es decir, con la comprensi¨®n del contexto. Los ordenadores no tienen mucho sentido com¨²n. Cosas que pueden ser tremendamente obvias para una persona no las capta el sistema. Puede ser dif¨ªcil tener conversaciones multiturno en las que el ordenador realmente se d¨¦ cuenta del contexto de lo que se ha dicho y de c¨®mo eso influye en lo que haya que hacer a continuaci¨®n. Hay proyectos que tratan de adivinar el estado de ¨¢nimo del usuario por su tono de voz.
- P. ?Ve eso factible?
- R. Queda mucho para reconocer emociones. Por ejemplo, si estoy hablando contigo y te digo: ¡°?Por qu¨¦ est¨¢s tan enfadado?¡± y t¨² me respondes: ¡°?No estoy enfadado!¡±, a la m¨¢quina no le resultar¨¢ evidente que s¨ª lo est¨¢s. Captar esos matices no es sencillo, aunque sean determinantes en una conversaci¨®n.
- P. ?Cree que se superar¨¢n esas trabas?
- R. Alg¨²n d¨ªa, aunque no est¨¢ nada claro cu¨¢ndo.
- P. ?Ayudar¨¢ el 5G en algo al reconocimiento de voz?
- R. Quiz¨¢s. Ahora hay algo de latencia cuando hablas con un sistema. A veces hay una pausa antes de recibir la respuesta que puede resultar desconcertante. Nuestras r¨¦plicas en las conversaciones suelen ser muy r¨¢pidas, en torno a 200 milisegundos, el equivalente a un pesta?eo. Si te pregunto por ejemplo si me llevas ma?ana a un sitio y tardas m¨¢s que eso en responder, un segundo, ya s¨¦ que la respuesta es no. Esa pausa contiene informaci¨®n importante que me est¨¢s diciendo de forma impl¨ªcita. En la comunicaci¨®n con las m¨¢quinas podemos llegar a pensar que van a decir que no, cuando en realidad lo ¨²nico que pasa es que todav¨ªa son demasiado lentas.
- P. ?No cree que a veces nos sentimos algo est¨²pidos hablando a aparatos que no nos entienden completamente?
- R. Hay veces que la gente se siente culpable de que la m¨¢quina no le entienda, cuando la responsabilidad no es suya, sino de la tecnolog¨ªa. Una de las m¨¢ximas que tenemos en el dise?o de conversaciones es que el buen dise?o significa que el usuario pueda interactuar naturalmente, que no tenga que detenerse a pensar c¨®mo contestar o preguntar.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.
Sobre la firma

Archivado En
- Siri
- Alexa
- iOS
- Reconocimiento voz
- Amazon
- Inteligencia artificial
- Tiendas online
- Computaci¨®n
- Apple
- M¨®viles
- Comercio electr¨®nico
- Sistemas operativos
- Telefon¨ªa m¨®vil multimedia
- Software
- Telefon¨ªa m¨®vil
- Comercio
- Internet
- Empresas
- Inform¨¢tica
- Econom¨ªa
- Telecomunicaciones
- Tecnolog¨ªa
- Industria
- Comunicaciones
- Ciencia
- Revista