Aujourd'hui, lors de sa conférence annuelle des développeurs I/O à Mountain View, Google a dévoilé une série d'annonces axées sur l'intelligence artificielle, dont le Projet Astra—une initiative ambitieuse visant à développer un agent IA universel pour l'avenir.
Au cours de la conférence, une version préliminaire de cet agent a été présentée. L'objectif est de créer un assistant IA multimodal capable de percevoir et de comprendre son environnement, réagissant en temps réel pour aider dans les tâches quotidiennes et répondre aux questions. Ce concept s'aligne étroitement avec le lancement récent de ChatGPT, propulsé par GPT-4o d'OpenAI.
Alors qu'OpenAI se prépare à déployer GPT-4o pour les abonnés de ChatGPT Plus au cours des prochaines semaines, Google adopte une approche plus mesurée avec Astra. Bien que Google continue de peaufiner ce projet, aucun calendrier n'a été fourni pour la disponibilité de l'agent IA pleinement opérationnel. Cependant, certaines fonctionnalités du Projet Astra devraient être intégrées dans son assistant Gemini d'ici la fin de l'année.
Qu'attendre du Projet Astra ?
Le Projet Astra—abrégé en Agent Réactif Avancé Vision et Parole—s'appuie sur les avancées réalisées avec Gemini Pro 1.5 et d'autres modèles spécifiques aux tâches. Il permet aux utilisateurs d'interagir en tenant compte des dynamiques nuancées de leur environnement. L'assistant est conçu pour comprendre ce qu'il voit et entend, fournissant des réponses précises en temps réel.
« Pour être véritablement utile, un agent doit comprendre et réagir au monde complexe et dynamique comme le font les humains », a déclaré Demis Hassabis, PDG de Google DeepMind. « Il doit intégrer et mémoriser ce qu’il voit et entend pour saisir le contexte et agir. De plus, il doit être proactif, enseignable et personnel, permettant des conversations naturelles sans retard. »
Dans une vidéo de démonstration, un prototype de l'agent Projet Astra fonctionnant sur un smartphone Pixel a identifié des objets, décrit leurs composants et interprété un code écrit sur un tableau blanc. L'agent a même reconnu le quartier grâce à la caméra et rappelé où l'utilisateur avait placé ses lunettes.
Google Projet Astra en Action
Une seconde démonstration a mis en avant des fonctionnalités similaires, comme un agent proposant des améliorations à une architecture système, enrichies par des superpositions en temps réel visibles à travers des lunettes.
Hassabis a reconnu les défis d'ingénierie significatifs pour atteindre des temps de réponse semblables à ceux des humains. Les agents encodent en continu des images vidéo, fusionnant les entrées vidéo et audio dans une chronologie pour un rappel efficace.
« En utilisant nos modèles de vocalisation avancés, nous avons amélioré les capacités vocales des agents, permettant une gamme d'intonations plus riche. Cette amélioration aide les agents à mieux comprendre leur contexte et à répondre rapidement », a-t-il ajouté.
En revanche, le GPT-4o d'OpenAI traite toutes les entrées et sorties dans un modèle unifié, atteignant un temps de réponse moyen de 320 millisecondes. Google n'a pas encore divulgué de temps de réponse spécifique pour Astra, mais la latence devrait s'améliorer à mesure que le développement progresse. La gamme émotionnelle des agents du Projet Astra reste floue par rapport aux capacités d'OpenAI.
Disponibilité
Actuellement, Astra représente les efforts initiaux de Google vers un agent IA complet conçu pour aider dans les tâches quotidiennes, tant personnelles que professionnelles, tout en maintenant une conscience contextuelle et une mémoire. La société n'a pas précisé quand cette vision deviendra un produit tangible, mais a confirmé que la capacité de comprendre et d'interagir avec le monde réel sera intégrée dans l'application Gemini sur les plateformes Android, iOS et web.
Dans un premier temps, la fonctionnalité Gemini Live permettra des conversations bidirectionnelles avec le chatbot. Plus tard cette année, des mises à jour sont attendues pour intégrer les capacités visuelles démontrées, permettant aux utilisateurs d'interagir avec leur environnement via leurs caméras. Notamment, les utilisateurs pourront également interrompre Gemini pendant les conversations, reflétant une fonctionnalité similaire à celle de ChatGPT d'OpenAI.
« Avec une technologie comme celle-ci, il est facile d'imaginer un avenir où chaque individu a un assistant IA expert à ses côtés, que ce soit via un smartphone ou des lunettes », a conclu Hassabis.