Cathy Pearl (Google): ¡°El reconocimiento de voz saltar¨¢ a espacios p¨²blicos¡±
A¨²n nos da verg¨¹enza hablarle a las m¨¢quinas, pero eso cambiar¨¢ gracias al ¡®silent speech¡¯, una tecnolog¨ªa capaz de leer el habla antes de que emitamos sonidos. Cathy Pearl, directora de dise?o de conversaciones en Google, nos habla de ello.

data:image/s3,"s3://crabby-images/bd0d9/bd0d97188ff183dc51cf039ee110132f8d6a0821" alt="Cathy Pearl, licenciada en Ciencias Cognitivas y con m¨¢ster en Ciencias de la Computaci¨®n, es la m¨¢xima responsable de dise?o de conversaciones en
Google."
Lograr que un dispositivo nos entienda cuando le hablamos es extremadamente complejo. Cathy Pearl lleva m¨¢s de 20 a?os trabajando en ello. ¡°Cuando empec¨¦, el reconocimiento de voz se circunscrib¨ªa a los sistemas de telefon¨ªa autom¨¢tica. B¨¢sicamente, empresas tratando de ahorrar dinero automatizando tareas, haciendo que los clientes le hablaran a ordenadores en vez de a humanos, que es m¨¢s caro¡±, explica la directora de dise?o de conversaciones en Google. Qui¨¦n le iba a decir entonces que acabar¨ªamos habl¨¢ndole al m¨®vil... y que este nos entender¨ªa (relativamente bien).
Un mes despu¨¦s de la entrevista, realizada en Madrid durante el encuentro de innovaci¨®n Experience Fighters, salt¨® la pol¨¦mica: Google confirm¨® que ¡°expertos del lenguaje¡± repartidos por el mundo escuchaban el 0,2% de las conversaciones entre usuarios y asistentes virtuales. La respuesta de Pearl cuando se le pregunt¨® al respecto fue ce?irse al comunicado oficial de la compa?¨ªa, en el que Google asegura que las escuchas se hac¨ªan para ayudar al sistema ¡°a entender mejor los idiomas¡± y en el que se confirma que estas ¡°revisiones humanas¡± han sido canceladas.
- P. ?Cu¨¢l es la estrategia de Google con el reconocimiento de voz?
- R. Estamos invirtiendo mucho en dise?o de conversaciones. El a?o pasado publicamos un manual de buenas pr¨¢cticas para que se pueda aplicar al desarrollo de esta tecnolog¨ªa. Creemos que estamos ante otra potencial interfaz. No decimos que la voz vaya a ser lo ¨²nico, pero ser¨¢ un canal importante.
- P. A mucha gente le inquieta que los smart speakers y otros aparatos nos est¨¦n espiando¡
- R. Cuando usas Google Assistant puedes ver en la app de tu tel¨¦fono si Ok Google est¨¢ operativo. El tel¨¦fono te avisa cada vez que algo se ha grabado, y las grabaciones se pueden borrar permanentemente. Tambi¨¦n estamos trabajando en tecnolog¨ªas que har¨¢n que el reconocimiento de voz suceda localmente en tu tel¨¦fono, sin enviar nada a la nube.
- P. ?Qu¨¦ est¨¢n investigando?
- R. En enero se anunci¨® el modo int¨¦rprete, que permitir¨¢ poner el tel¨¦fono como traductor en tiempo real para varios idiomas. Otra cosa de la que me siento particularmente orgullosa es del uso de la voz en la accesibilidad y el dise?o inclusivo. Los que quiz¨¢s se beneficien m¨¢s de esta tecnolog¨ªa son quienes tienen problemas de movilidad, de visi¨®n o de expresi¨®n.
- P. ?Qu¨¦ feedback tienen de los usuarios? ?A la gente le gusta hablar con los aparatos?
- R. S¨ª, creo que hay entusiasmo. Un estudio que sac¨® la National Public Radio dice que la mitad del tiempo en el que la gente usa smart speakers est¨¢ con otras personas. Me gusta ese aspecto de comunidad. Dicen que el 41% de nuestras vidas va a pasar delante de una pantalla, as¨ª que poder hablar con los aparatos significa tambi¨¦n separarnos algo de ellos. Puedes lanzar una pregunta r¨¢pida mientras est¨¢s en la mesa comiendo, lo que es mucho menos farragoso que ponerte a buscar algo en el m¨®vil. Y as¨ª todo el mundo oye la pregunta y la respuesta, de modo que la conversaci¨®n no se interrumpe. El reconocimiento de voz puede aliviar algo nuestra adicci¨®n a las pantallas.
- P. ?C¨®mo se imagina el reconocimiento de voz en 10 a?os?
- R. Se convertir¨¢ en algo muy com¨²n. Ahora, por ejemplo, los smart speakers se ven sobre todo en los hogares, pero pronto estar¨¢n tambi¨¦n en tiendas, restaurantes o en el trabajo. Una de las razones ah¨ª es porque cuando estamos en p¨²blico no nos gusta hablar en voz alta a los dispositivos. Ah¨ª entra la tecnolog¨ªa llamada silent speech, que se ha prototipado en el MIT Media Lab bajo el nombre de Alter Ego. El aparato cuenta con sensores en la mand¨ªbula que recogen las se?ales del prehabla: antes de hablar mandamos microse?ales. La idea es captarlas y codificarlas, de forma que podamos comunicarnos sin que nadie nos oiga. Esta tecnolog¨ªa disparar¨¢ el uso del reconocimiento de voz.
- P. ?Ha detectado distintas formas de relacionarse con los lectores de voz dependiendo del pa¨ªs?
- R. No, m¨¢s all¨¢ de las particularidades de cada idioma. Es importante cuando dise?as para distintos pa¨ªses no limitarse a traducir. Nosotros tenemos equipos de localizaci¨®n para ayudarnos a entender las cosas que en una cultura puedan sonar diferente que en otra.
- P. ?Cu¨¢les han sido los avances clave de los ¨²ltimos a?os en esta tecnolog¨ªa?
- R. En primer lugar, los micr¨®fonos, que ya no necesitas tener delante para que te capten bien. La precisi¨®n del speech recognition es enorme. Y el entendimiento del lenguaje natural ha mejorado mucho, aunque todav¨ªa queda mucho camino por delante.
- P. ?Con qu¨¦ l¨ªmites se encuentran actualmente los desarrollos relacionados con el reconocimiento de voz?
- R. Una de las mayores limitaciones es lo que llamamos descubrebilidad (discoverability). Digamos que tienes un smart speaker: ?c¨®mo sabes qu¨¦ puede hacer? Seguramente sea capaz de hacer miles de cosas, ?pero c¨®mo sabes t¨² qu¨¦ decir exactamente para que funcione? A veces se convierte en una especie de juego a las adivinanzas, y eso puede resultar frustrante para el usuario. Otra cosa que est¨¢ muy limitada tiene que ver con el entendimiento del lenguaje natural, es decir, con la comprensi¨®n del contexto. Los ordenadores no tienen mucho sentido com¨²n. Cosas que pueden ser tremendamente obvias para una persona no las capta el sistema. Puede ser dif¨ªcil tener conversaciones multiturno en las que el ordenador realmente se d¨¦ cuenta del contexto de lo que se ha dicho y de c¨®mo eso influye en lo que haya que hacer a continuaci¨®n. Hay proyectos que tratan de adivinar el estado de ¨¢nimo del usuario por su tono de voz.
- P. ?Ve eso factible?
- R. Queda mucho para reconocer emociones. Por ejemplo, si estoy hablando contigo y te digo: ¡°?Por qu¨¦ est¨¢s tan enfadado?¡± y t¨² me respondes: ¡°?No estoy enfadado!¡±, a la m¨¢quina no le resultar¨¢ evidente que s¨ª lo est¨¢s. Captar esos matices no es sencillo, aunque sean determinantes en una conversaci¨®n.
- P. ?Cree que se superar¨¢n esas trabas?
- R. Alg¨²n d¨ªa, aunque no est¨¢ nada claro cu¨¢ndo.
- P. ?Ayudar¨¢ el 5G en algo al reconocimiento de voz?
- R. Quiz¨¢s. Ahora hay algo de latencia cuando hablas con un sistema. A veces hay una pausa antes de recibir la respuesta que puede resultar desconcertante. Nuestras r¨¦plicas en las conversaciones suelen ser muy r¨¢pidas, en torno a 200 milisegundos, el equivalente a un pesta?eo. Si te pregunto por ejemplo si me llevas ma?ana a un sitio y tardas m¨¢s que eso en responder, un segundo, ya s¨¦ que la respuesta es no. Esa pausa contiene informaci¨®n importante que me est¨¢s diciendo de forma impl¨ªcita. En la comunicaci¨®n con las m¨¢quinas podemos llegar a pensar que van a decir que no, cuando en realidad lo ¨²nico que pasa es que todav¨ªa son demasiado lentas.
- P. ?No cree que a veces nos sentimos algo est¨²pidos hablando a aparatos que no nos entienden completamente?
- R. Hay veces que la gente se siente culpable de que la m¨¢quina no le entienda, cuando la responsabilidad no es suya, sino de la tecnolog¨ªa. Una de las m¨¢ximas que tenemos en el dise?o de conversaciones es que el buen dise?o significa que el usuario pueda interactuar naturalmente, que no tenga que detenerse a pensar c¨®mo contestar o preguntar.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.
Sobre la firma

Archivado En
- Siri
- Alexa
- iOS
- Reconocimiento voz
- Amazon
- Inteligencia artificial
- Tiendas online
- Computaci¨®n
- Apple
- M¨®viles
- Comercio electr¨®nico
- Sistemas operativos
- Telefon¨ªa m¨®vil multimedia
- Software
- Telefon¨ªa m¨®vil
- Comercio
- Internet
- Empresas
- Inform¨¢tica
- Econom¨ªa
- Telecomunicaciones
- Tecnolog¨ªa
- Industria
- Comunicaciones
- Ciencia
- Revista