Lernen Sie Alter3 kennen: Der innovative humanoide Roboter, der von GPT-4 betrieben wird.

Forscher der Universität Tokio und Alternative Machine haben ein humanoides Robotersystem namens Alter3 entwickelt, das in der Lage ist, natürliche Sprachbefehle direkt in robotische Aktionen umzusetzen. Durch die Nutzung des umfangreichen Wissens, das in großen Sprachmodellen (LLMs) wie GPT-4 verankert ist, kann Alter3 komplexe Aufgaben wie das Selbstauslösen von Fotos oder das Simulieren eines Geistes durchführen.

Diese Innovation stellt einen bedeutenden Fortschritt in der Integration von grundlegenden Modellen mit Robotersystemen dar. Obwohl eine skalierbare kommerzielle Lösung noch in der Zukunft liegt, haben die jüngsten Fortschritte die Robotikforschung belebt und vielversprechende Perspektiven eröffnet.

Von Sprache zu Robotern

Alter3 nutzt GPT-4 als Hauptmodell und verarbeitet natürliche Sprachbefehle, die Aktionen oder Szenarien beschreiben, auf die der Roboter reagieren soll. Das Modell verwendet einen "agentischen Rahmen", um eine Reihe von Handlungsschritten zu entwerfen, die erforderlich sind, um das angegebene Ziel zu erreichen. Zunächst fungiert es als Planer und bestimmt die erforderliche Reihenfolge für die gewünschte Aufgabe.

Alter3 nutzt verschiedene GPT-4-Prompt-Formate, um Anweisungen zu analysieren und in Roboterbefehle umzuwandeln. Da GPT-4 nicht spezifisch auf die Programmierbefehle von Alter3 trainiert ist, nutzen die Forscher dessen In-Context-Learning, um die Ausgabe an die API des Roboters anzupassen. Dies erfolgt durch die Bereitstellung einer Liste von Befehlen und erläuternden Beispielen, wodurch das Modell jeden Handlungsschritt in ausführbare API-Befehle für den Roboter übersetzen kann.

„Früher haben wir alle 43 Achsen in einer bestimmten Reihenfolge manuell gesteuert, um menschliche Posen oder Aktionen wie Teeservieren oder Schachspielen nachzuahmen“, erklären die Forscher. „Mit LLMs sind wir von diesem arbeitsintensiven Prozess befreit.“

Integration von menschlichem Feedback

Da Sprache ungenau sein kann, wenn es darum geht, körperliche Bewegungen zu beschreiben, führen die vom Modell erzeugten Aktionssequenzen nicht immer zu dem gewünschten robotischen Verhalten. Um dies zu beheben, haben die Forscher einen Feedback-Mechanismus integriert, der es den Nutzern ermöglicht, Befehle zu verfeinern, wie „Heb deinen Arm ein wenig mehr“. Diese Korrekturen werden von einem anderen GPT-4-Agenten verarbeitet, der den Code anpasst und die überarbeitete Aktionssequenz für die Roboter-Ausführung zurückgibt. Die verbesserten Pläne und Codes werden dann für zukünftige Anwendungen gespeichert.

Die Einbeziehung menschlichen Feedbacks und Gedächtnisses steigert die Leistung von Alter3 erheblich. Die Forscher haben den Roboter bei verschiedenen Aufgaben evaluiert, von einfachen Aktionen wie dem Selbstauslösen von Fotos und Teetrinken bis hin zu komplexeren Nachahmungen, wie dem Verhalten eines Geistes oder einer Schlange. Das Modell hat auch seine Fähigkeit unter Beweis gestellt, Szenarien zu verwalten, die komplizierte Planungen erforderten.

„Das Training des LLM umfasst verschiedene sprachliche Darstellungen von Bewegungen. GPT-4 übersetzt diese präzise in Befehle für Alter3“, erklärt das Team.

Mit dem umfangreichen Verständnis menschlichen Verhaltens kann GPT-4 realistische Verhaltenspläne für humanoide Roboter effektiv generieren. In Experimenten gelang es dem Team zudem, Alter3 mit emotionalen Ausdrücken wie Verlegenheit und Freude auszustatten.

„Selbst aus Texten, die emotionale Hinweise nicht explizit erwähnen, kann das LLM angemessene Emotionen ableiten und in Alter3s physischen Reaktionen widerspiegeln“, betonen die Forscher.

Fortschritte in der Robotik

Die Verwendung von Grundlagenmodellen in der Robotikforschung gewinnt rasch an Bedeutung. So nutzt zum Beispiel Figure, ein Unternehmen im Wert von 2,6 Milliarden Dollar, OpenAI-Modelle, um menschliche Befehle zu interpretieren und entsprechende reale Handlungen auszuführen. Mit dem Aufstieg multimodaler Fähigkeiten in grundlegenden Modellen stehen Robotersysteme bereit, ihre Umweltwahrnehmung und Entscheidungsfindung zu verbessern.

Alter3 ist ein Beispiel für einen Trend, bei dem fertige Fundamentmodelle als Planungs- und Denkmodule in Robotersteuerungssystemen dienen. Wichtig ist, dass es nicht auf eine feinabgestimmte Version von GPT-4 angewiesen ist, wodurch dessen Code auch für andere humanoide Roboter anwendbar ist.

Projekte wie RT-2-X und OpenVLA nutzen spezialisierte Fundamentmodelle, die darauf ausgelegt sind, Robotikbefehle direkt zu erzeugen. Während diese Modelle oft stabilere Ergebnisse liefern und in verschiedenen Aufgaben und Umgebungen generalisieren, erfordern sie jedoch höheres technisches Know-how und Entwicklungskosten.

Dennoch wird ein entscheidender Aspekt in diesen Initiativen oft übersehen: die grundlegende Herausforderung, Roboter in die Lage zu versetzen, einfache Aufgaben wie das Greifen von Gegenständen, das Halten des Gleichgewichts und das Navigieren in Umgebungen auszuführen. „Ein erheblicher Teil der Arbeit findet auf einer Ebene statt, die unter dem liegt, was diese Modelle adressieren“, bemerkte der KI- und Robotikwissenschaftler Chris Paxton in einem kürzlichen Interview. „Das ist die eigentliche Herausforderung, hauptsächlich aufgrund des Mangels an vorhandenen Daten.“

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles