Google refuerza su buscador y lo humaniza con habilidades de di¨¢logo natural y visi¨®n
La multinacional iguala la apuesta de Open AI y presenta una plataforma de b¨²squeda similar a la interacci¨®n con una persona
Tan solo 24 horas despu¨¦s de la presentaci¨®n de ChatGPT-4o, la versi¨®n m¨¢s avanzada del robot conversacional de Open AI, Google ha igualado y subido la apuesta este martes, cuando ha presentado mejoras similares para su buscador, que comienzan ya en Estados Unidos para ir extendi¨¦ndose al resto del mundo. La nueva plataforma de b¨²squeda reproduce las habilidades de lo que la compa?¨ªa denomina ¡°agentes¡±, con capacidad de planificar y ejecutar acciones en nombre del usuario, pero la humaniza hasta emular una interacci¨®n con una persona. A Gemini, como se denomina la inteligencia artificial de la multinacional y el buscador, se le puede interrumpir para reorientar la conversaci¨®n y la c¨¢mara del m¨®vil se convierte en sus ojos para describir lo que ve, resolver los problemas que observa o precisar d¨®nde se encuentra un objeto que ha registrado durante su conversaci¨®n. ?D¨®nde he puesto las llaves? ?Cu¨¢l es la soluci¨®n de este problema? ?Qu¨¦ es esto? Pregunte a Gemini.
Google ha sacado todas sus fuerzas para contrarrestar a Open AI y luchar por su hegemon¨ªa en el ¨¢mbito de las b¨²squedas. El m¨¢ximo responsable de la compa?¨ªa, Sundar Pichai, ha asumido la presentaci¨®n de los ¨²ltimos avances en inteligencia artificial este martes en la edici¨®n anual de Google I/O en Mountain View (California). Se aplicar¨¢ a todos los productos (Gmail, Fotos, Drive, Meet y cualquier herramienta del Workspace), pero especialmente, seg¨²n ha afirmado Pichai, a la plataforma que es su baluarte: ¡°La transformaci¨®n m¨¢s emocionante con Gemini, por supuesto, est¨¢ en la b¨²squeda de Google. Modificamos radicalmente c¨®mo funciona¡±.
¡°Gemini puede mantener una conversaci¨®n personalizada e interactiva, mezclando y combinando entradas y salidas¡±, explica Pichai sobre la humanizaci¨®n de la interacci¨®n con el buscador, que deja de ser lineal (consultas y respuestas sucesivas) para pasar a emular una relaci¨®n similar a la personal. Son habilidades que ya presentaron con los agentes en Las Vegas el pasado abril, durante el Google Next, donde se lanzaron los robots que planifican y ejecutan acciones en nombre del usuario. ¡°Son sistemas inteligentes que muestran razonamiento, planificaci¨®n y memoria. Son capaces de pensar varios pasos por delante y trabajar en todos los programas y sistemas o de hacer algo en nombre del usuario y, lo que es m¨¢s importante, con su supervisi¨®n. Estamos pensando mucho en c¨®mo hacerlo de una manera que sea privada, segura y que funcione para todos¡±, ha precisado el directivo en respuesta a los riesgos ¨¦ticos identificados por el grupo de investigaci¨®n de la propia compa?¨ªa (DeepMind).
El buscador convencional, que arroja p¨¢ginas web m¨¢s o menos relacionadas con la solicitud del usuario, pasa a la historia con Gemini. Liz Reid, directora de Google Search, asegura que, aunque esta herramienta ha sido ¡°incre¨ªblemente poderosa¡±, requiere ¡°mucho trabajo¡±, en relaci¨®n con la labor de afinar los descriptores y expurgar la informaci¨®n relevante de los miles de resultados obtenidos. ¡°Buscar ha sido a trav¨¦s de una pregunta tras otra¡±, admite.
Las nuevas habilidades entienden, seg¨²n explica, ¡°qu¨¦ es realmente lo que tienes en mente¡±, contextualiza, conoce desde d¨®nde se interact¨²a y ¡°razona¡± para ofrecer un resultado que a¨²na lo encontrado en varios dominios y expone un plan y consejos. Seg¨²n explica con un ejemplo pr¨¢ctico, mientras al buscador tradicional se le preguntaba por restaurantes en la zona, gracias al AI Overview de Gemini, ahora se puede requerir ¡°un lugar para celebrar un aniversario¡± y el buscador ofrece diferentes categor¨ªas de planes, precios, localizaciones y sugerencias. O tambi¨¦n puede aportar un complejo programa de viaje para una familia de varios miembros con intereses diferentes. ¡°Google puede hacer una tormenta de ideas por ti¡±, resalta Reid.
Pero Gemini va m¨¢s all¨¢ de la conversaci¨®n, razonamiento y planificaci¨®n, que ya supone un avance radical. El nuevo paso es la mayor humanizaci¨®n posible y que, adem¨¢s de o¨ªdo, adquiera otro sentido fundamental: la vista. Demis Hassabis, director de DeepMid, lo explica: ¡°Siempre quisimos construir un agente universal que fuera ¨²til en la vida cotidiana. Por eso hicimos que Gemini fuera multimodal desde el principio. Ahora estamos procesando un flujo de informaci¨®n sensorial diferente. Estos agentes pueden ver y escuchar mejor lo que hacemos, entienden el contexto en el que nos encontramos y responden r¨¢pidamente en la conversaci¨®n, haciendo que el ritmo y la calidad de la interacci¨®n sean mucho m¨¢s naturales¡±.
Hassabis muestra estas habilidades, que estar¨¢n disponibles en la aplicaci¨®n Live para suscriptores del plan Advanced, en un plano secuencia grabado en tiempo real. El buscador utiliza la c¨¢mara del m¨®vil para registrar el contexto real de una usuaria que le pregunta qu¨¦ es lo que ve, c¨®mo se llama la parte espec¨ªfica de un objeto que se?ala, c¨®mo se resuelve un problema matem¨¢tico escrito sobre un papel y c¨®mo mejorar un proceso de distribuci¨®n de datos en un esquema que se muestra una pizarra. Finalmente, le pregunta: ¡°?D¨®nde he dejado mis gafas?¡±. Gemini, que ha registrado todo lo que ha visto durante la interacci¨®n, aunque no sea relevante en la conversaci¨®n mantenida hasta ahora, revisa en las im¨¢genes percibidas y responde exactamente d¨®nde las ha visto. A partir de ah¨ª, las gafas act¨²an con Gemini.
¡°Gemini es mucho m¨¢s que un robot de chat [conversaci¨®n]. Est¨¢ dise?ado para ser su asistente personal¡±, explica Sissie Hsiao, vicepresidenta de Google y directora general de Gemini, en referencia al proyecto Astra que lidera su compa?ero Hassabis. Es lo que Sam Altman, m¨¢ximo responsable de Open AI, competidora de Google y desarrollador del similar ChapGPT-4o, califica de ¡°colega supercompetente¡±.
¡°Las respuestas son personalizadas [se puede elegir entre 10 voces y el sistema se ajusta al patr¨®n de habla del usuario] e intuitivas para mantener una conversaci¨®n real de ida y vuelta con el modelo. Gemini es capaz de proporcionar informaci¨®n de forma m¨¢s sucinta y responder de manera m¨¢s conversacional que, por ejemplo, si est¨¢ interactuando solo con texto¡±, precisa Hsiao.
Tambi¨¦n se ha avanzado en potencia, no solo con nuevos dispositivos, como procesadores propios (el chip Axion y la TPU Trillium), sino tambi¨¦n en capacidad de carga. Los suscriptores de Gemini 1.5 Pro podr¨¢n gestionar hasta un mill¨®n de tokens, lo que, seg¨²n Hsiao, es ¡°la mayor ventana de contexto¡±. Un token es la unidad b¨¢sica de informaci¨®n. Se puede entender como una palabra, n¨²mero, s¨ªmbolo o cualquier otro elemento individual que constituye una parte de los datos de entrada o salida del programa. Con esta capacidad, Gemini puede cargar y analizar un PDF de hasta 1.500 p¨¢ginas o 30.000 l¨ªneas de c¨®digo o un video de una hora de duraci¨®n o revisar y resumir varios archivos. Google espera ofrecer los dos millones de tokens.
Para facilitar la implementaci¨®n de estas habilidades en dispositivos con menos capacidad, como los m¨®viles, Google ha actualizado los sistemas espec¨ªficos para estos terminales, que tambi¨¦n se beneficiar¨¢n del desarrollo de Flash, un sistema de alto rendimiento que aporta velocidad, eficiencia y menor consumo.
Y aunque no ha sido en esta edici¨®n del Google I/O el principal avance, Google tambi¨¦n ha presentado mejoras en los programas de inteligencia artificial para fotograf¨ªas, con la versi¨®n 3 de Imagen, creaci¨®n de v¨ªdeos (Veo) y de m¨²sica, con Lyria y Synth ID. El buscador Ask Fotos, que comenzar¨¢ a estar operativo en verano, ser¨¢ capaz de localizar y agrupar im¨¢genes por temas a petici¨®n del usuario y crear un ¨¢lbum con todas las im¨¢genes relacionadas.
Puedes seguir a EL PA?S Tecnolog¨ªa en Facebook y X o apuntarte aqu¨ª para recibir nuestra newsletter semanal.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.