Google lance le projet Astra : un agent d'IA conçu pour comprendre les dynamiques mondiales et rivaliser avec GPT-4o.

Home Actualités IA Google lance le projet Astra : un agent d'IA conçu pour comprendre les dynamiques mondiales et rivaliser avec GPT-4o.

Aujourd'hui, lors de sa conférence annuelle des développeurs I/O à Mountain View, Google a dévoilé une série d'annonces axées sur l'intelligence artificielle, dont le Projet Astra—une initiative ambitieuse visant à développer un agent IA universel pour l'avenir.

Au cours de la conférence, une version préliminaire de cet agent a été présentée. L'objectif est de créer un assistant IA multimodal capable de percevoir et de comprendre son environnement, réagissant en temps réel pour aider dans les tâches quotidiennes et répondre aux questions. Ce concept s'aligne étroitement avec le lancement récent de ChatGPT, propulsé par GPT-4o d'OpenAI.

Alors qu'OpenAI se prépare à déployer GPT-4o pour les abonnés de ChatGPT Plus au cours des prochaines semaines, Google adopte une approche plus mesurée avec Astra. Bien que Google continue de peaufiner ce projet, aucun calendrier n'a été fourni pour la disponibilité de l'agent IA pleinement opérationnel. Cependant, certaines fonctionnalités du Projet Astra devraient être intégrées dans son assistant Gemini d'ici la fin de l'année.

Qu'attendre du Projet Astra ?

Le Projet Astra—abrégé en Agent Réactif Avancé Vision et Parole—s'appuie sur les avancées réalisées avec Gemini Pro 1.5 et d'autres modèles spécifiques aux tâches. Il permet aux utilisateurs d'interagir en tenant compte des dynamiques nuancées de leur environnement. L'assistant est conçu pour comprendre ce qu'il voit et entend, fournissant des réponses précises en temps réel.

« Pour être véritablement utile, un agent doit comprendre et réagir au monde complexe et dynamique comme le font les humains », a déclaré Demis Hassabis, PDG de Google DeepMind. « Il doit intégrer et mémoriser ce qu’il voit et entend pour saisir le contexte et agir. De plus, il doit être proactif, enseignable et personnel, permettant des conversations naturelles sans retard. »

Dans une vidéo de démonstration, un prototype de l'agent Projet Astra fonctionnant sur un smartphone Pixel a identifié des objets, décrit leurs composants et interprété un code écrit sur un tableau blanc. L'agent a même reconnu le quartier grâce à la caméra et rappelé où l'utilisateur avait placé ses lunettes.

Google Projet Astra en Action

Une seconde démonstration a mis en avant des fonctionnalités similaires, comme un agent proposant des améliorations à une architecture système, enrichies par des superpositions en temps réel visibles à travers des lunettes.

Hassabis a reconnu les défis d'ingénierie significatifs pour atteindre des temps de réponse semblables à ceux des humains. Les agents encodent en continu des images vidéo, fusionnant les entrées vidéo et audio dans une chronologie pour un rappel efficace.

« En utilisant nos modèles de vocalisation avancés, nous avons amélioré les capacités vocales des agents, permettant une gamme d'intonations plus riche. Cette amélioration aide les agents à mieux comprendre leur contexte et à répondre rapidement », a-t-il ajouté.

En revanche, le GPT-4o d'OpenAI traite toutes les entrées et sorties dans un modèle unifié, atteignant un temps de réponse moyen de 320 millisecondes. Google n'a pas encore divulgué de temps de réponse spécifique pour Astra, mais la latence devrait s'améliorer à mesure que le développement progresse. La gamme émotionnelle des agents du Projet Astra reste floue par rapport aux capacités d'OpenAI.

Disponibilité

Actuellement, Astra représente les efforts initiaux de Google vers un agent IA complet conçu pour aider dans les tâches quotidiennes, tant personnelles que professionnelles, tout en maintenant une conscience contextuelle et une mémoire. La société n'a pas précisé quand cette vision deviendra un produit tangible, mais a confirmé que la capacité de comprendre et d'interagir avec le monde réel sera intégrée dans l'application Gemini sur les plateformes Android, iOS et web.

Dans un premier temps, la fonctionnalité Gemini Live permettra des conversations bidirectionnelles avec le chatbot. Plus tard cette année, des mises à jour sont attendues pour intégrer les capacités visuelles démontrées, permettant aux utilisateurs d'interagir avec leur environnement via leurs caméras. Notamment, les utilisateurs pourront également interrompre Gemini pendant les conversations, reflétant une fonctionnalité similaire à celle de ChatGPT d'OpenAI.

« Avec une technologie comme celle-ci, il est facile d'imaginer un avenir où chaque individu a un assistant IA expert à ses côtés, que ce soit via un smartphone ou des lunettes », a conclu Hassabis.

Le cofondateur et scientifique en chef d’OpenAI, Ilya Sutskever, annonce son départ de l'entreprise.

Comment le déchargement d'attention réduit les coûts d'inférence des LLM à grande échelle

Most people like

Korus

16.8K

Découvrez une plateforme innovante de création musicale alimentée par l'IA, conçue pour révolutionner votre manière de composer et de produire de la musique. Cet outil à la pointe de la technologie exploite la puissance de l'intelligence artificielle pour simplifier le processus créatif, offrant aux musiciens de tous niveaux une inspiration instantanée et des compositions uniques. Libérez votre potentiel musical et explorez des possibilités infinies avec notre plateforme conviviale qui combine technologie et art de manière harmonieuse. Que vous soyez un professionnel expérimenté ou un débutant, notre créateur musical IA élèvera votre son et améliorera votre flux de travail. Rejoignez le futur de la création musicale dès aujourd'hui !

Création musicale NFTs

ZeroGPT

14.5M

ZeroGPT est un outil d'IA de pointe conçu pour la détection précise de contenu généré par ChatGPT, de textes produits par OpenAI et de cas de plagiat. Cette solution puissante offre aux utilisateurs des analyses et des informations fiables, garantissant l'authenticité des documents écrits.

ZeroGPT AI Content Detector

FilePower AI

16.9K

Découvrez la puissance d'un outil alimenté par l'IA, conçu spécifiquement pour une gestion et un traitement efficaces des documents. Cette solution innovante simplifie votre flux de travail, améliore l'organisation et renforce l'accessibilité, devenant essentielle pour les entreprises souhaitant optimiser leurs processus de gestion documentaire. Explorez comment cet outil d'IA peut transformer votre manière de gérer et traiter les documents, augmentant ainsi votre productivité et votre efficacité.

Gestion documentaire IA AI PDF

Vidu AI

424.5K

Créez sans effort des vidéos de haute qualité avec notre générateur vidéo IA. Transformez vos idées en contenu visuel impressionnant en un rien de temps !

Générateur vidéo IA Text to Video

Find AI tools in YBX