Google Lanza Project Astra: Un Agente de IA Diseñado para Comprender la Dinámica Global y Competir con GPT-4o

Hoy, en su conferencia anual de desarrolladores I/O en Mountain View, Google presentó una serie de anuncios centrados en la inteligencia artificial, incluyendo el Proyecto Astra—una ambiciosa iniciativa destinada a desarrollar un agente de IA universal para el futuro. Durante la conferencia, se mostró una versión inicial del agente, cuyo objetivo es crear un asistente de IA multimodal que perciba y comprenda su entorno, respondiendo en tiempo real para ayudar con tareas cotidianas y preguntas. Este concepto se alinea estrechamente con la reciente presentación del ChatGPT potenciado por GPT-4o de OpenAI.

Mientras OpenAI se prepara para lanzar GPT-4o para los suscriptores de ChatGPT Plus en las próximas semanas, Google adopta un enfoque más medido con Astra. Aunque la compañía continúa refinando este proyecto, no ha anunciado un cronograma para el lanzamiento del agente de IA completamente operativo. Sin embargo, se espera que algunas características del Proyecto Astra se integren en su asistente Gemini a finales de este año.

¿Qué Esperar del Proyecto Astra?

El Proyecto Astra—abreviatura de Agente Responsivo Avanzado de Ver y Hablar—se basa en los avances logrados con Gemini Pro 1.5 y otros modelos específicos de tareas. Permite a los usuarios interactuar mientras comparten las dinámicas sutiles de su entorno. El asistente está diseñado para comprender lo que ve y escucha, ofreciendo respuestas precisas en tiempo real.

“Para ser verdaderamente útil, un agente debe entender y responder al mundo complejo y dinámico como lo hacemos las personas,” comentó Demis Hassabis, CEO de Google DeepMind. “Debería captar y recordar lo que ve y escucha para entender el contexto y tomar acción. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales sin demoras.”

En un video de demostración, un prototipo del agente de Proyecto Astra en un smartphone Pixel identificó objetos, describió sus componentes e interpretó un código escrito en una pizarra. El agente incluso reconoció el vecindario a través de la cámara y recordó dónde había dejado el usuario sus gafas.

Google Project Astra en Acción

Una segunda demostración destacó funcionalidades similares, como un agente que proponía mejoras a una arquitectura de sistema, complementadas por superposiciones en tiempo real visibles a través de gafas. Hassabis reconoció los importantes desafíos de ingeniería para lograr tiempos de respuesta similares a los humanos. Los agentes codifican continuamente fotogramas de video, fusionando la entrada de video y audio en una línea de tiempo para un recuerdo eficiente.

“Al aprovechar nuestros avanzados modelos de voz, mejoramos las habilidades vocales de los agentes, permitiendo un rango más rico de entonaciones. Esta mejora permite a los agentes entender mejor su contexto y responder con rapidez,” agregó. En contraste, el GPT-4o de OpenAI procesa todas las entradas y salidas en un modelo unificado, alcanzando un tiempo de respuesta promedio de 320 milisegundos. Google aún no ha revelado tiempos de respuesta específicos para Astra, pero se espera que la latencia mejore a medida que continúe el desarrollo. El rango emocional de los agentes de Proyecto Astra permanece incierto en comparación con las capacidades de OpenAI.

Disponibilidad

Actualmente, Astra representa los esfuerzos iniciales de Google hacia un agente de IA integral diseñado para asistir con tareas diarias, tanto personales como profesionales, mientras mantiene conciencia contextual y memoria. La compañía no ha especificado cuándo esta visión se convertirá en un producto tangible, pero ha confirmado que la capacidad de entender e interactuar con el mundo real se integrará en la aplicación Gemini en plataformas Android, iOS y web.

Inicialmente, la función Gemini Live permitirá conversaciones bidireccionales con el chatbot. Más adelante este año, se esperan actualizaciones que incorporen las capacidades visuales demostradas, permitiendo a los usuarios interactuar con su entorno a través de sus cámaras. Notablemente, los usuarios también podrán interrumpir a Gemini durante las conversaciones, reflejando una funcionalidad similar a la de ChatGPT de OpenAI.

“Con una tecnología como esta, es fácil imaginar un futuro donde las personas tengan un asistente de IA experto a su lado, ya sea a través de un smartphone o gafas,” concluyó Hassabis.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles