Google startet Projekt Astra: Ein KI-Agent, der globale Dynamiken versteht und mit GPT-4 konkurriert.

Home KI-Nachrichten Google startet Projekt Astra: Ein KI-Agent, der globale Dynamiken versteht und mit GPT-4 konkurriert.

Heute hat Google auf seiner jährlichen I/O-Entwicklerkonferenz in Mountain View eine Reihe von Ankündigungen zu künstlicher Intelligenz vorgestellt, darunter Project Astra – eine ehrgeizige Initiative zur Entwicklung eines universellen KI-Agenten für die Zukunft.

Während der Konferenz wurde eine erste Version des Agenten präsentiert. Ziel ist die Schaffung eines multimodalen KI-Assistenten, der seine Umgebung wahrnimmt und versteht und in Echtzeit auf alltägliche Aufgaben und Fragen reagiert. Dieses Konzept steht im engen Zusammenhang mit der kürzlichen Vorstellung von OpenAIs auf GPT-4o basierenden ChatGPT.

Während OpenAI in den kommenden Wochen GPT-4o für ChatGPT Plus-Abonnenten bereitstellt, geht Google mit Astra einen überlegten Ansatz. Obwohl Google das Projekt weiterhin verfeinert, wurde kein Zeitrahmen für die Verfügbarkeit des voll funktionsfähigen KI-Agenten bekannt gegeben. Einige Funktionen von Project Astra werden jedoch voraussichtlich noch in diesem Jahr in den Gemini-Assistenten integriert.

Was ist von Project Astra zu erwarten?

Project Astra – die Abkürzung steht für Advanced Seeing and Talking Responsive Agent – baut auf Fortschritten mit Gemini Pro 1.5 und anderen spezifischen Modellen auf. Der Assistent ermöglicht es Nutzern, sich auszutauschen und die subtilen Dynamiken ihrer Umgebung zu teilen. Er ist darauf ausgelegt, zu verstehen, was er sieht und hört, und bietet in Echtzeit präzise Antworten.

„Um wirklich nützlich zu sein, muss ein Agent die komplexe und dynamische Welt so verstehen und reagieren wie Menschen“, sagte Demis Hassabis, CEO von Google DeepMind. „Er muss aufnehmen und sich merken, was er sieht und hört, um den Kontext zu erfassen und Maßnahmen zu ergreifen. Zudem sollte er proaktiv, lehrbar und persönlich sein, damit natürliche Gespräche ohne Verzögerung möglich sind.“

In einem Demovideo identifizierte ein Prototyp des Project Astra-Agenten, der auf einem Pixel-Smartphone läuft, Objekte, beschrieb deren Komponenten und interpretierte auf einem Whiteboard geschriebenen Code. Der Agent erkannte sogar die Nachbarschaft durch die Kamera und erinnerte sich daran, wo der Nutzer seine Brille abgelegt hatte.

Google Project Astra in Aktion

Ein zweites Demo stellte ähnliche Funktionen vor, zum Beispiel einen Agenten, der Verbesserungsvorschläge für eine Systemarchitektur unterbreitete, ergänzt durch Echtzeit-Überlagerungen, die durch Brillen sichtbar sind.

Hassabis räumte die erheblichen ingenieurtechnischen Herausforderungen ein, die mit der Erreichung menschlicher Reaktionszeiten für die Agenten verbunden sind. Sie codieren kontinuierlich Videoframes und kombinieren Video- und Sprachinput in einer Zeitleiste für effektives Abrufen. „Durch die Nutzung unserer fortschrittlichen Sprachmodelle haben wir die sprachlichen Fähigkeiten der Agenten verbessert, was eine größere Bandbreite an Intonationen ermöglicht. Diese Verbesserung erlaubt es den Agenten, ihren Kontext besser zu verstehen und schnell zu reagieren“, fügte er hinzu.

Im Gegensatz dazu verarbeitet OpenAIs GPT-4o alle Eingaben und Ausgaben in einem einheitlichen Modell und erreicht eine durchschnittliche Reaktionszeit von 320 Millisekunden. Google hat bisher keine konkreten Reaktionszeiten für Astra veröffentlicht, aber man erwartet, dass die Latenz mit dem Fortschritt der Entwicklung verbessert wird. Der emotionale Umfang der Project Astra-Agenten bleibt im Vergleich zu OpenAIs Fähigkeiten unklar.

Verfügbarkeit

Aktuell stellt Astra Googles erste Bemühungen um einen umfassenden KI-Agenten dar, der bei täglichen Aufgaben unterstützt, sowohl im persönlichen als auch im beruflichen Bereich, während er Kontextbewusstsein und Gedächtnis bewahrt. Das Unternehmen hat nicht angegeben, wann diese Vision ein greifbares Produkt wird, bestätigte jedoch, dass die Fähigkeit, mit der realen Welt zu interagieren, in die Gemini-App auf Android-, iOS- und Web-Plattformen integriert wird.

Zu Beginn wird die Gemini Live-Funktion zwei Wege Gespräche mit dem Chatbot ermöglichen. Später in diesem Jahr werden Updates erwartet, die die gezeigten visuellen Fähigkeiten integrieren, sodass Nutzer mit ihrer Umgebung über die Kamera interagieren können. Bemerkenswert ist, dass Nutzer Gemini während der Gespräche unterbrechen können, ähnlich wie bei OpenAIs ChatGPT.

„Mit einer solchen Technologie ist es leicht, sich eine Zukunft vorzustellen, in der Individuen einen Experten-KI-Assistenten an ihrer Seite haben, sei es über ein Smartphone oder eine Brille“, schloss Hassabis.

OpenAI Mitbegründer und Chief Scientist Ilya Sutskever gibt seinen Abschied vom Unternehmen bekannt.

Wie die Auslagerung von Aufmerksamkeit die Kosten für LLM-Inferenz in großem Maßstab senkt

Most people like

Medical Realities

6.2K

Erforschen Sie die transformative Wirkung von immersiven XR- (Extended Reality) und VR- (Virtual Reality) Technologien in der medizinischen Ausbildung. Diese innovativen Werkzeuge verändern die Art und Weise, wie Gesundheitsberufe lernen und arbeiten, und bieten realistische Simulationen, die das Verständnis und die Fähigkeiten verbessern. Entdecken Sie, wie XR und VR den Weg für eine ansprechendere und effektivere Lernerfahrung im Gesundheitswesen ebnen.

Medizinische Ausbildung Healthcare

Clerk Chat

84.4K

Verbessern Sie Ihre Geschäftskommunikation, indem Sie Ihre Festnetznummer in eine textfähige Telefonnummer umwandeln. Diese bahnbrechende Lösung steigert die Kundenbindung und optimiert Ihre Messaging-Funktionen.

Unternehmensnachrichten Other

Kraftful

32.4K

Kraftful nutzt fortschrittliche KI-Technologie zur Analyse von Nutzerfeedback, um Produkte zu verbessern und ein außergewöhnliches Benutzererlebnis zu schaffen. Durch den Fokus auf Nutzerinsights gewährleistet Kraftful eine kontinuierliche Verbesserung und Ausrichtung an den Bedürfnissen der Kunden.

KI-gestütztes Werkzeug AI Product Description Generator

Copyleaks

4.1M

Copyleaks: Eine KI-gestützte Plattform, die schnell Plagiate aufspürt und die Authentizität von sowohl menschlich als auch KI-generierten Inhalten überprüft.

KI-gestützte Plagiaterkennung AI Content Detector

Find AI tools in YBX