Visi��n y tecnolog��a

Cathy Pearl (Google): ��El reconocimiento de voz saltar�� a espacios p��blicos��

A��n nos da verg��enza hablarle a las m��quinas, pero eso cambiar�� gracias al ��silent speech��, una tecnolog��a capaz de leer el habla antes de que emitamos sonidos. Cathy Pearl, directora de dise?o de conversaciones en Google, nos habla de ello.

Madrid - 03 nov 2019 - 09:56CET

Cathy Pearl, licenciada en Ciencias Cognitivas y con m��ster en Ciencias de la Computaci��n, es la m��xima responsable de dise?o de conversaciones en
Google. — Cathy Pearl, licenciada en Ciencias Cognitivas y con m��ster en Ciencias de la Computaci��n, es la m��xima responsable de dise?o de conversaciones en Google.Fernando S��nchez

Lograr que un dispositivo nos entienda cuando le hablamos es extremadamente complejo. Cathy Pearl lleva m��s de 20 a?os trabajando en ello. ��Cuando empec��, el reconocimiento de voz se circunscrib��a a los sistemas de telefon��a autom��tica. B��sicamente, empresas tratando de ahorrar dinero automatizando tareas, haciendo que los clientes le hablaran a ordenadores en vez de a humanos, que es m��s caro��, explica la directora de dise?o de conversaciones en Google. Qui��n le iba a decir entonces que acabar��amos habl��ndole al m��vil... y que este nos entender��a (relativamente bien).

Un mes despu��s de la entrevista, realizada en Madrid durante el encuentro de innovaci��n Experience Fighters, salt�� la pol��mica: Google confirm�� que ��expertos del lenguaje�� repartidos por el mundo escuchaban el 0,2% de las conversaciones entre usuarios y asistentes virtuales. La respuesta de Pearl cuando se le pregunt�� al respecto fue ce?irse al comunicado oficial de la compa?��a, en el que Google asegura que las escuchas se hac��an para ayudar al sistema ��a entender mejor los idiomas�� y en el que se confirma que estas ��revisiones humanas�� han sido canceladas.

M��s informaci��n

��Oye, Siri, tenemos que hablar��: los asistentes de voz cobran importancia

El espa?ol sigue siendo una lengua extranjera para la inteligencia artificial

P. ?Cu��l es la estrategia de Google con el reconocimiento de voz?: R. Estamos invirtiendo mucho en dise?o de conversaciones. El a?o pasado publicamos un manual de buenas pr��cticas para que se pueda aplicar al desarrollo de esta tecnolog��a. Creemos que estamos ante otra potencial interfaz. No decimos que la voz vaya a ser lo ��nico, pero ser�� un canal importante.
P. A mucha gente le inquieta que los smart speakers y otros aparatos nos est��n espiando��: R. Cuando usas Google Assistant puedes ver en la app de tu tel��fono si Ok Google est�� operativo. El tel��fono te avisa cada vez que algo se ha grabado, y las grabaciones se pueden borrar permanentemente. Tambi��n estamos trabajando en tecnolog��as que har��n que el reconocimiento de voz suceda localmente en tu tel��fono, sin enviar nada a la nube.
P. ?Qu�� est��n investigando?: R. En enero se anunci�� el modo int��rprete, que permitir�� poner el tel��fono como traductor en tiempo real para varios idiomas. Otra cosa de la que me siento particularmente orgullosa es del uso de la voz en la accesibilidad y el dise?o inclusivo. Los que quiz��s se beneficien m��s de esta tecnolog��a son quienes tienen problemas de movilidad, de visi��n o de expresi��n.
P. ?Qu�� feedback tienen de los usuarios? ?A la gente le gusta hablar con los aparatos?: R. S��, creo que hay entusiasmo. Un estudio que sac�� la National Public Radio dice que la mitad del tiempo en el que la gente usa smart speakers est�� con otras personas. Me gusta ese aspecto de comunidad. Dicen que el 41% de nuestras vidas va a pasar delante de una pantalla, as�� que poder hablar con los aparatos significa tambi��n separarnos algo de ellos. Puedes lanzar una pregunta r��pida mientras est��s en la mesa comiendo, lo que es mucho menos farragoso que ponerte a buscar algo en el m��vil. Y as�� todo el mundo oye la pregunta y la respuesta, de modo que la conversaci��n no se interrumpe. El reconocimiento de voz puede aliviar algo nuestra adicci��n a las pantallas.
P. ?C��mo se imagina el reconocimiento de voz en 10 a?os?: R. Se convertir�� en algo muy com��n. Ahora, por ejemplo, los smart speakers se ven sobre todo en los hogares, pero pronto estar��n tambi��n en tiendas, restaurantes o en el trabajo. Una de las razones ah�� es porque cuando estamos en p��blico no nos gusta hablar en voz alta a los dispositivos. Ah�� entra la tecnolog��a llamada silent speech, que se ha prototipado en el MIT Media Lab bajo el nombre de Alter Ego. El aparato cuenta con sensores en la mand��bula que recogen las se?ales del prehabla: antes de hablar mandamos microse?ales. La idea es captarlas y codificarlas, de forma que podamos comunicarnos sin que nadie nos oiga. Esta tecnolog��a disparar�� el uso del reconocimiento de voz.
P. ?Ha detectado distintas formas de relacionarse con los lectores de voz dependiendo del pa��s?: R. No, m��s all�� de las particularidades de cada idioma. Es importante cuando dise?as para distintos pa��ses no limitarse a traducir. Nosotros tenemos equipos de localizaci��n para ayudarnos a entender las cosas que en una cultura puedan sonar diferente que en otra.
P. ?Cu��les han sido los avances clave de los ��ltimos a?os en esta tecnolog��a?: R. En primer lugar, los micr��fonos, que ya no necesitas tener delante para que te capten bien. La precisi��n del speech recognition es enorme. Y el entendimiento del lenguaje natural ha mejorado mucho, aunque todav��a queda mucho camino por delante.
P. ?Con qu�� l��mites se encuentran actualmente los desarrollos relacionados con el reconocimiento de voz?: R. Una de las mayores limitaciones es lo que llamamos descubrebilidad (discoverability). Digamos que tienes un smart speaker: ?c��mo sabes qu�� puede hacer? Seguramente sea capaz de hacer miles de cosas, ?pero c��mo sabes t�� qu�� decir exactamente para que funcione? A veces se convierte en una especie de juego a las adivinanzas, y eso puede resultar frustrante para el usuario. Otra cosa que est�� muy limitada tiene que ver con el entendimiento del lenguaje natural, es decir, con la comprensi��n del contexto. Los ordenadores no tienen mucho sentido com��n. Cosas que pueden ser tremendamente obvias para una persona no las capta el sistema. Puede ser dif��cil tener conversaciones multiturno en las que el ordenador realmente se d�� cuenta del contexto de lo que se ha dicho y de c��mo eso influye en lo que haya que hacer a continuaci��n. Hay proyectos que tratan de adivinar el estado de ��nimo del usuario por su tono de voz.
P. ?Ve eso factible?: R. Queda mucho para reconocer emociones. Por ejemplo, si estoy hablando contigo y te digo: ��?Por qu�� est��s tan enfadado?�� y t�� me respondes: ��?No estoy enfadado!��, a la m��quina no le resultar�� evidente que s�� lo est��s. Captar esos matices no es sencillo, aunque sean determinantes en una conversaci��n.
P. ?Cree que se superar��n esas trabas?: R. Alg��n d��a, aunque no est�� nada claro cu��ndo.
P. ?Ayudar�� el 5G en algo al reconocimiento de voz?: R. Quiz��s. Ahora hay algo de latencia cuando hablas con un sistema. A veces hay una pausa antes de recibir la respuesta que puede resultar desconcertante. Nuestras r��plicas en las conversaciones suelen ser muy r��pidas, en torno a 200 milisegundos, el equivalente a un pesta?eo. Si te pregunto por ejemplo si me llevas ma?ana a un sitio y tardas m��s que eso en responder, un segundo, ya s�� que la respuesta es no. Esa pausa contiene informaci��n importante que me est��s diciendo de forma impl��cita. En la comunicaci��n con las m��quinas podemos llegar a pensar que van a decir que no, cuando en realidad lo ��nico que pasa es que todav��a son demasiado lentas.
P. ?No cree que a veces nos sentimos algo est��pidos hablando a aparatos que no nos entienden completamente?: R. Hay veces que la gente se siente culpable de que la m��quina no le entienda, cuando la responsabilidad no es suya, sino de la tecnolog��a. Una de las m��ximas que tenemos en el dise?o de conversaciones es que el buen dise?o significa que el usuario pueda interactuar naturalmente, que no tenga que detenerse a pensar c��mo contestar o preguntar.

Tu suscripci��n se est�� usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci��n?

A?adir usuario Continuar leyendo aqu��

Si contin��as leyendo en este dispositivo, no se podr�� leer en el otro.

?Por qu�� est��s viendo esto?

Flecha

Tu suscripci��n se est�� usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci��n a la modalidad Premium, as�� podr��s a?adir otro usuario. Cada uno acceder�� con su propia cuenta de email, lo que os permitir�� personalizar vuestra experiencia en EL PA?S.

?Tienes una suscripci��n de empresa? Accede aqu�� para contratar m��s cuentas.

En el caso de no saber qui��n est�� usando tu cuenta, te recomendamos cambiar tu contrase?a aqu��.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar�� en tu dispositivo y en el de la otra persona que est�� usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu�� los t��rminos y condiciones de la suscripci��n digital.

Sobre la firma

Manuel G. Pascual

Es redactor de la secci��n de Tecnolog��a. Sigue la actualidad de las grandes tecnol��gicas y las repercusiones de la era digital en la privacidad de los ciudadanos. Antes de incorporarse a EL PA?S trabaj�� en Cinco D��as y Retina.