Hoje, na sua conferência anual de desenvolvedores I/O em Mountain View, o Google apresentou uma série de anúncios focados em inteligência artificial, incluindo o Projeto Astra—uma iniciativa ambiciosa voltada para o desenvolvimento de um agente de IA universal para o futuro. Durante a conferência, uma versão inicial do agente foi demonstrada. O objetivo é criar um assistente de IA multimodal que perceba e compreenda seu ambiente, respondendo em tempo real para ajudar nas tarefas e perguntas cotidianas. Esse conceito está alinhado com o recente lançamento do ChatGPT, impulsionado pelo GPT-4o da OpenAI.
Enquanto a OpenAI se prepara para lançar o GPT-4o para assinantes do ChatGPT Plus nas próximas semanas, o Google está adotando uma abordagem mais cautelosa com o Astra. Embora a empresa continue a aprimorar este projeto, não foi anunciado um cronograma para a disponibilidade do agente de IA totalmente funcional. No entanto, algumas funcionalidades do Projeto Astra devem ser integradas no assistente Gemini ainda neste ano.
O que esperar do Projeto Astra?
O Projeto Astra—abreviação de Agente Responsivo de Visão e Fala Avançada—baseia-se em avanços realizados com o Gemini Pro 1.5 e outros modelos específicos de tarefas. Ele permite que os usuários interajam enquanto compartilham as dinâmicas sutis de seus arredores. O assistente é projetado para compreender o que vê e ouve, proporcionando respostas precisas em tempo real. “Para ser realmente útil, um agente precisa entender e responder ao complexo e dinâmico mundo como as pessoas fazem,” afirmou Demis Hassabis, CEO do Google DeepMind. “Ele deve captar e lembrar o que vê e ouve para entender o contexto e agir. Além disso, deve ser proativo, ensinável e pessoal, permitindo conversas naturais sem atrasos.”
Em um vídeo de demonstração, um protótipo do agente Projeto Astra, rodando em um smartphone Pixel, identificou objetos, descreveu seus componentes e interpretou códigos escritos em um quadro branco. O agente até reconheceu o bairro através da câmera e lembrou onde o usuário havia colocado seus óculos.
Google Project Astra em ação
Uma segunda demonstração destacou funcionalidades semelhantes, como um agente propondo melhorias para uma arquitetura de sistema, com sobreposições em tempo real visíveis através de óculos. Hassabis reconheceu os significativos desafios de engenharia envolvidos em alcançar tempos de resposta semelhantes aos humanos para os agentes. Eles codificam continuamente quadros de vídeo, integrando entradas de vídeo e fala em uma linha do tempo para um recall eficiente. “Ao aproveitar nossos modelos avançados de fala, melhoramos as habilidades vocais dos agentes, permitindo uma gama mais rica de entonações. Essa melhoria permite que os agentes compreendam melhor seu contexto e respondam rapidamente,” acrescentou.
Em contraste, o GPT-4o da OpenAI processa todas as entradas e saídas em um modelo unificado, alcançando um tempo médio de resposta de 320 milissegundos. O Google ainda não divulgou tempos de resposta específicos para o Astra, mas a latência deve melhorar à medida que o desenvolvimento avança. O alcance emocional dos agentes do Projeto Astra ainda é incerto em comparação com as capacidades da OpenAI.
Disponibilidade
Atualmente, o Astra representa os esforços iniciais do Google em direção a um agente de IA abrangente, projetado para auxiliar em tarefas diárias, tanto pessoais quanto profissionais, mantendo consciência e memória contextual. A empresa não especificou quando essa visão se tornará um produto tangível, mas confirmou que a capacidade de entender e interagir com o mundo real será integrada ao aplicativo Gemini nas plataformas Android, iOS e web.
Inicialmente, o recurso Gemini Live permitirá conversas bidirecionais com o chatbot. Mais tarde, atualizações devem incorporar as capacidades visuais demonstradas, permitindo que os usuários interajam com seu entorno através de suas câmeras. Notavelmente, os usuários também poderão interromper o Gemini durante as conversas, refletindo uma funcionalidade semelhante ao ChatGPT da OpenAI. “Com uma tecnologia como essa, é fácil imaginar um futuro onde indivíduos tenham um assistente de IA especializado ao seu lado, seja através de um smartphone ou de óculos,” concluiu Hassabis.