gemini

Google extiende Gemini a Chrome: primeros pasos hacia una IA más autónoma

Google extiende Gemini a Chrome: primeros pasos hacia una IA más autónoma. El asistente ya interpreta pestañas y responde en voz.

Google ha dado un nuevo paso en su estrategia de inteligencia artificial al integrar Gemini, su asistente basado en IA, directamente en el navegador Chrome. Esta nueva función permite a los usuarios interactuar con Gemini sin necesidad de abrir su aplicación web, accediendo a él desde un botón en la esquina superior derecha del navegador. A diferencia de versiones anteriores, ahora Gemini puede “ver” el contenido de la pestaña activa, lo que marca el inicio de una experiencia más contextual y personalizada.

Disponible por ahora solo para suscriptores de los planes AI Pro o AI Ultra, y en versiones Beta, Dev o Canary de Chrome, esta integración se perfila como un primer paso hacia la visión de Google de una IA “agente”, capaz de realizar tareas por cuenta propia.

Gemini en Chrome: contexto y respuestas en tiempo real

Al probar la herramienta, se destaca su capacidad para resumir artículos, identificar objetos en videos y responder a preguntas relacionadas con lo que se muestra en la pantalla. Por ejemplo, al visualizar la portada de un sitio como The Verge, Gemini puede extraer titulares clave, como el lanzamiento de nuevos juegos de Nintendo o novedades sobre Elden Ring.

Sin embargo, sus funciones aún son limitadas: solo puede analizar lo visible en una única pestaña a la vez. Si el contenido está colapsado, como una sección de comentarios, el usuario deberá expandirlo para que Gemini lo lea. Aun así, el asistente sigue al usuario cuando cambia de pestaña, aunque no retiene información entre ellas.

Interacción por voz y análisis de video

Una de las funciones más llamativas es el modo “Live”, que permite interactuar con Gemini por voz. Al hacer clic en un botón en la esquina inferior del cuadro de diálogo, el usuario puede hablar directamente con la IA, que responde de forma oral. Esto resulta especialmente útil al ver videos en YouTube: Gemini puede identificar herramientas, componentes electrónicos o incluso resumir recetas de cocina sin necesidad de transcribir manualmente el contenido.

No obstante, su precisión depende de la organización del video. Si no cuenta con capítulos bien definidos, los resúmenes pueden ser inexactos. Pese a estas limitaciones, la capacidad de Gemini para comprender videos en tiempo real representa una ventaja considerable frente a asistentes menos contextuales.

Aplicaciones prácticas… y sus límites actuales

Gemini puede detectar objetos en páginas de compras, como mochilas impermeables en Amazon, o identificar ubicaciones mencionadas en videos, aunque su acceso a datos en tiempo real sigue siendo restringido. Al preguntarle, por ejemplo, la ubicación actual de un youtuber como MrBeast, responde que no puede ofrecer información en tiempo real, aunque sí es capaz de identificar detalles incluidos en la descripción del video.

También presenta limitaciones cuando se le pide acceder a productos específicos o realizar acciones como hacer pedidos o reservas. Al intentar pedirle que ordene comida de un restaurante tras analizar su menú, la IA no pudo ejecutar la tarea, mostrando que, aunque contextual, aún no es un asistente completamente autónomo.

Hacia una IA “agente”: lo que viene con Project Mariner

Google ya trabaja para superar estas barreras a través de Project Mariner, que incorporará un “modo agente” a Gemini. Esta futura función permitirá a la IA gestionar múltiples tareas simultáneamente, como buscar información, realizar acciones online o incluso guardar videos y páginas de interés del usuario.

Aunque la versión actual de Gemini en Chrome no puede aún ejecutar estas acciones, la dirección está clara: Google quiere que su IA no solo reaccione, sino que actúe por iniciativa propia según el contexto. Y esta integración en el navegador es, sin duda, un primer paso concreto hacia ese objetivo.

La integración de Gemini en Chrome ofrece una experiencia de asistente más fluida y adaptada al contenido en pantalla. Aunque aún limitada en funciones, representa el inicio de una nueva etapa para Google, orientada a desarrollar IAs más autónomas y útiles en la vida digital cotidiana.