Heute hat Google auf seiner jährlichen I/O-Entwicklerkonferenz in Mountain View eine Reihe von Ankündigungen zu künstlicher Intelligenz vorgestellt, darunter Project Astra – eine ehrgeizige Initiative zur Entwicklung eines universellen KI-Agenten für die Zukunft.
Während der Konferenz wurde eine erste Version des Agenten präsentiert. Ziel ist die Schaffung eines multimodalen KI-Assistenten, der seine Umgebung wahrnimmt und versteht und in Echtzeit auf alltägliche Aufgaben und Fragen reagiert. Dieses Konzept steht im engen Zusammenhang mit der kürzlichen Vorstellung von OpenAIs auf GPT-4o basierenden ChatGPT.
Während OpenAI in den kommenden Wochen GPT-4o für ChatGPT Plus-Abonnenten bereitstellt, geht Google mit Astra einen überlegten Ansatz. Obwohl Google das Projekt weiterhin verfeinert, wurde kein Zeitrahmen für die Verfügbarkeit des voll funktionsfähigen KI-Agenten bekannt gegeben. Einige Funktionen von Project Astra werden jedoch voraussichtlich noch in diesem Jahr in den Gemini-Assistenten integriert.
Was ist von Project Astra zu erwarten?
Project Astra – die Abkürzung steht für Advanced Seeing and Talking Responsive Agent – baut auf Fortschritten mit Gemini Pro 1.5 und anderen spezifischen Modellen auf. Der Assistent ermöglicht es Nutzern, sich auszutauschen und die subtilen Dynamiken ihrer Umgebung zu teilen. Er ist darauf ausgelegt, zu verstehen, was er sieht und hört, und bietet in Echtzeit präzise Antworten.
„Um wirklich nützlich zu sein, muss ein Agent die komplexe und dynamische Welt so verstehen und reagieren wie Menschen“, sagte Demis Hassabis, CEO von Google DeepMind. „Er muss aufnehmen und sich merken, was er sieht und hört, um den Kontext zu erfassen und Maßnahmen zu ergreifen. Zudem sollte er proaktiv, lehrbar und persönlich sein, damit natürliche Gespräche ohne Verzögerung möglich sind.“
In einem Demovideo identifizierte ein Prototyp des Project Astra-Agenten, der auf einem Pixel-Smartphone läuft, Objekte, beschrieb deren Komponenten und interpretierte auf einem Whiteboard geschriebenen Code. Der Agent erkannte sogar die Nachbarschaft durch die Kamera und erinnerte sich daran, wo der Nutzer seine Brille abgelegt hatte.
Google Project Astra in Aktion
Ein zweites Demo stellte ähnliche Funktionen vor, zum Beispiel einen Agenten, der Verbesserungsvorschläge für eine Systemarchitektur unterbreitete, ergänzt durch Echtzeit-Überlagerungen, die durch Brillen sichtbar sind.
Hassabis räumte die erheblichen ingenieurtechnischen Herausforderungen ein, die mit der Erreichung menschlicher Reaktionszeiten für die Agenten verbunden sind. Sie codieren kontinuierlich Videoframes und kombinieren Video- und Sprachinput in einer Zeitleiste für effektives Abrufen. „Durch die Nutzung unserer fortschrittlichen Sprachmodelle haben wir die sprachlichen Fähigkeiten der Agenten verbessert, was eine größere Bandbreite an Intonationen ermöglicht. Diese Verbesserung erlaubt es den Agenten, ihren Kontext besser zu verstehen und schnell zu reagieren“, fügte er hinzu.
Im Gegensatz dazu verarbeitet OpenAIs GPT-4o alle Eingaben und Ausgaben in einem einheitlichen Modell und erreicht eine durchschnittliche Reaktionszeit von 320 Millisekunden. Google hat bisher keine konkreten Reaktionszeiten für Astra veröffentlicht, aber man erwartet, dass die Latenz mit dem Fortschritt der Entwicklung verbessert wird. Der emotionale Umfang der Project Astra-Agenten bleibt im Vergleich zu OpenAIs Fähigkeiten unklar.
Verfügbarkeit
Aktuell stellt Astra Googles erste Bemühungen um einen umfassenden KI-Agenten dar, der bei täglichen Aufgaben unterstützt, sowohl im persönlichen als auch im beruflichen Bereich, während er Kontextbewusstsein und Gedächtnis bewahrt. Das Unternehmen hat nicht angegeben, wann diese Vision ein greifbares Produkt wird, bestätigte jedoch, dass die Fähigkeit, mit der realen Welt zu interagieren, in die Gemini-App auf Android-, iOS- und Web-Plattformen integriert wird.
Zu Beginn wird die Gemini Live-Funktion zwei Wege Gespräche mit dem Chatbot ermöglichen. Später in diesem Jahr werden Updates erwartet, die die gezeigten visuellen Fähigkeiten integrieren, sodass Nutzer mit ihrer Umgebung über die Kamera interagieren können. Bemerkenswert ist, dass Nutzer Gemini während der Gespräche unterbrechen können, ähnlich wie bei OpenAIs ChatGPT.
„Mit einer solchen Technologie ist es leicht, sich eine Zukunft vorzustellen, in der Individuen einen Experten-KI-Assistenten an ihrer Seite haben, sei es über ein Smartphone oder eine Brille“, schloss Hassabis.