Google Lanza Project Astra: Un Agente de IA Diseñado para Comprender la Dinámica Global y Competir con GPT-4o

Home Noticias de IA Google Lanza Project Astra: Un Agente de IA Diseñado para Comprender la Dinámica Global y Competir con GPT-4o

Hoy, en su conferencia anual de desarrolladores I/O en Mountain View, Google presentó una serie de anuncios centrados en la inteligencia artificial, incluyendo el Proyecto Astra—una ambiciosa iniciativa destinada a desarrollar un agente de IA universal para el futuro. Durante la conferencia, se mostró una versión inicial del agente, cuyo objetivo es crear un asistente de IA multimodal que perciba y comprenda su entorno, respondiendo en tiempo real para ayudar con tareas cotidianas y preguntas. Este concepto se alinea estrechamente con la reciente presentación del ChatGPT potenciado por GPT-4o de OpenAI.

Mientras OpenAI se prepara para lanzar GPT-4o para los suscriptores de ChatGPT Plus en las próximas semanas, Google adopta un enfoque más medido con Astra. Aunque la compañía continúa refinando este proyecto, no ha anunciado un cronograma para el lanzamiento del agente de IA completamente operativo. Sin embargo, se espera que algunas características del Proyecto Astra se integren en su asistente Gemini a finales de este año.

¿Qué Esperar del Proyecto Astra?

El Proyecto Astra—abreviatura de Agente Responsivo Avanzado de Ver y Hablar—se basa en los avances logrados con Gemini Pro 1.5 y otros modelos específicos de tareas. Permite a los usuarios interactuar mientras comparten las dinámicas sutiles de su entorno. El asistente está diseñado para comprender lo que ve y escucha, ofreciendo respuestas precisas en tiempo real.

“Para ser verdaderamente útil, un agente debe entender y responder al mundo complejo y dinámico como lo hacemos las personas,” comentó Demis Hassabis, CEO de Google DeepMind. “Debería captar y recordar lo que ve y escucha para entender el contexto y tomar acción. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales sin demoras.”

En un video de demostración, un prototipo del agente de Proyecto Astra en un smartphone Pixel identificó objetos, describió sus componentes e interpretó un código escrito en una pizarra. El agente incluso reconoció el vecindario a través de la cámara y recordó dónde había dejado el usuario sus gafas.

Google Project Astra en Acción

Una segunda demostración destacó funcionalidades similares, como un agente que proponía mejoras a una arquitectura de sistema, complementadas por superposiciones en tiempo real visibles a través de gafas. Hassabis reconoció los importantes desafíos de ingeniería para lograr tiempos de respuesta similares a los humanos. Los agentes codifican continuamente fotogramas de video, fusionando la entrada de video y audio en una línea de tiempo para un recuerdo eficiente.

“Al aprovechar nuestros avanzados modelos de voz, mejoramos las habilidades vocales de los agentes, permitiendo un rango más rico de entonaciones. Esta mejora permite a los agentes entender mejor su contexto y responder con rapidez,” agregó. En contraste, el GPT-4o de OpenAI procesa todas las entradas y salidas en un modelo unificado, alcanzando un tiempo de respuesta promedio de 320 milisegundos. Google aún no ha revelado tiempos de respuesta específicos para Astra, pero se espera que la latencia mejore a medida que continúe el desarrollo. El rango emocional de los agentes de Proyecto Astra permanece incierto en comparación con las capacidades de OpenAI.

Disponibilidad

Actualmente, Astra representa los esfuerzos iniciales de Google hacia un agente de IA integral diseñado para asistir con tareas diarias, tanto personales como profesionales, mientras mantiene conciencia contextual y memoria. La compañía no ha especificado cuándo esta visión se convertirá en un producto tangible, pero ha confirmado que la capacidad de entender e interactuar con el mundo real se integrará en la aplicación Gemini en plataformas Android, iOS y web.

Inicialmente, la función Gemini Live permitirá conversaciones bidireccionales con el chatbot. Más adelante este año, se esperan actualizaciones que incorporen las capacidades visuales demostradas, permitiendo a los usuarios interactuar con su entorno a través de sus cámaras. Notablemente, los usuarios también podrán interrumpir a Gemini durante las conversaciones, reflejando una funcionalidad similar a la de ChatGPT de OpenAI.

“Con una tecnología como esta, es fácil imaginar un futuro donde las personas tengan un asistente de IA experto a su lado, ya sea a través de un smartphone o gafas,” concluyó Hassabis.

Ilya Sutskever, cofundador y científico jefe de OpenAI, anuncia su salida de la empresa.

Cómo la descarga de atención reduce los costos de inferencia de LLM a gran escala

Most people like

SuperTechFans

17.3K

Mantente informado con resúmenes concisos de las principales historias de HackerNews y comentarios perspicaces.

tecnología Other

AVCLabs AI

199.7K

En la era digital actual, la demanda de imágenes de alta calidad ha aumentado considerablemente, convirtiendo a las herramientas de IA en esenciales tanto para aficionados como para profesionales. Estas tecnologías innovadoras pueden mejorar drásticamente la calidad de fotos y videos, elevando tu contenido a nuevas alturas. Desde mejoras automáticas hasta características de edición sofisticadas, las soluciones impulsadas por IA están revolucionando la forma en que creamos y compartimos medios visuales. Descubre cómo aprovechar estas herramientas avanzadas puede realzar tus imágenes y grabaciones, asegurando que se destaquen en un panorama digital saturado.

Mejorador de video con IA AI Image Enhancer

Chainlit

60.9K

En el vertiginoso panorama digital actual, la inteligencia artificial conversacional está a la vanguardia de la innovación tecnológica. Esta rama de la inteligencia artificial se centra en crear sistemas capaces de mantener diálogos similares a los humanos, mejorando la experiencia del usuario en diversas plataformas. Desde chatbots hasta asistentes virtuales, el desarrollo y análisis de la IA conversacional desempeñan un papel crucial en la transformación de nuestra interacción con la tecnología. Acompáñanos mientras exploramos los últimos avances y conocimientos en este emocionante campo, descubriendo el potencial que la IA conversacional tiene para negocios y usuarios por igual.

IA conversacional AI Analytics Assistant

Rizzle Text to Video AI

50.7K

Transforma rápidamente texto, blogs y tweets en cautivadores videos utilizando la innovadora tecnología de IA de Rizzle. ¡Crea contenido atractivo sin esfuerzo!

creación de video AI Video Generator

Find AI tools in YBX