In den letzten Monaten erlebten Projekte mit großen Sprachmodellen (LLMs) einen Anstieg, die innovative Robotikanwendungen entwickeln, die zuvor als unmöglich galten. Die Leistung von LLMs und multimodalen Modellen ermöglicht es Forschern, Roboter zu schaffen, die natürliche Sprache verstehen und komplexe Aufgaben mit fortgeschrittenem Denken ausführen können.
Dieses wachsende Interesse an der Schnittstelle von LLMs und Robotik hat die Landschaft der Robotik-Startups revitalisiert, wobei zahlreiche Unternehmen erhebliche Finanzierungen gesichert und beeindruckende Demonstrationen präsentiert haben. Angesichts bemerkenswerter Fortschritte bei der Anwendung von LLMs in der Praxis stehen wir möglicherweise am Beginn einer neuen Ära in der Robotik.
Sprachmodelle für Wahrnehmung und Denken
Traditionell erforderte der Aufbau robotischer Systeme komplexe Ingenieurtätigkeiten zur Entwicklung von Planungs- und Denkmodulen, was es schwierig machte, benutzerfreundliche Schnittstellen zu schaffen, die den unterschiedlichen Arten gerecht werden, wie Menschen Befehle erteilen. Die Entwicklung von LLMs und vision-language Modellen (VLMs) hat Robotikingenieuren die Möglichkeit gegeben, bestehende Systeme bahnbrechend zu verbessern. Ein wegweisendes Projekt in diesem Bereich ist SayCan, entwickelt von Google Research. SayCan nutzte das semantische Wissen eines LLMs, um Robotern beim Denken über Aufgaben und bei der Festlegung geeigneter Handlungsschritte zu helfen.
„SayCan war eines der einflussreichsten Papers in der Robotik“, sagte der KI- und Robotikforscher Chris Paxton. „Sein modulares Design ermöglicht die Integration verschiedener Komponenten, um Systeme für eindrucksvolle Demonstrationen zu schaffen.“ Nach SayCan haben Forscher begonnen, die Anwendung von Sprach- und Sichtmodellen innerhalb der Robotik auf vielfältige Weise zu erkunden, was zu erheblichen Fortschritten geführt hat. Einige Projekte nutzen allgemeine LLMs und VLMs, während andere sich darauf konzentrieren, bestehende Modelle für spezifische Roboteraufgaben anzupassen.
„Die Verwendung großer Sprach- und Sichtmodelle hat Aspekte wie Wahrnehmung und Denken erheblich zugänglicher gemacht“, bemerkte Paxton. „Dies hat viele robotische Aufgaben erfüllbarer denn je gemacht.“
Kombination vorhandener Fähigkeiten
Eine große Einschränkung traditioneller Robotersysteme liegt in ihren Steuerungsmechanismen. Teams können Roboter auf Einzelkompetenzen trainieren, wie das Öffnen von Türen oder das Manipulieren von Objekten, aber die Kombination dieser Fähigkeiten für komplexe Aufgaben kann eine Herausforderung darstellen, was zu starren Systemen führt, die explizite Anweisungen benötigen. LLMs und VLMs ermöglichen es Robotern, vage definierte Anweisungen zu interpretieren und diese in spezifische Aufgabenfolgen zu übersetzen, die ihren Fähigkeiten entsprechen. Interessanterweise können viele fortschrittliche Modelle dies ohne umfangreiche Nachschulungen erreichen.
„Mit großen Sprachmodellen kann ich verschiedene Fähigkeiten nahtlos verbinden und deren Anwendung nachvollziehen“, erklärte Paxton. „Neuere visuelle Sprachmodelle wie GPT-4V zeigen, wie diese Systeme effektiv in einer Vielzahl von Anwendungen zusammenarbeiten können.“ Zum Beispiel nutzt GenEM, eine Technik, die von der University of Toronto, Google DeepMind und Hoku Labs entwickelt wurde, den umfassenden sozialen Kontext, der in LLMs erfasst ist, um ausdrucksvolle Roboterverhalten zu generieren. Durch die Nutzung von GPT-4 ermöglicht GenEM Robotern das Verständnis von Kontexten – etwa um jemandes Anwesenheit zu erkennen – und die Ausführung relevanter Aktionen, wie sie durch die umfangreichen Trainingsdaten und Fähigkeiten des In-Context-Lernens informiert werden.
Ein weiteres Beispiel ist der OK-Roboter, entwickelt von Meta und der New York University, der VLMs mit Bewegungsplanungs- und Objektmanipulationsmodulen kombiniert, um Pick-and-Drop-Aufgaben in unbekannten Umgebungen auszuführen.
Einige Robotik-Startups florieren inmitten dieser Fortschritte. Figure, ein in Kalifornien ansässiges Robotikunternehmen, hat kürzlich 675 Millionen Dollar gesammelt, um humanoide Roboter zu entwickeln, die auf Vision- und Sprachmodellen basieren. Ihre Roboter nutzen OpenAI-Modelle zur Verarbeitung von Anweisungen und zur strategischen Planung von Aktionen.
Während LLMs und VLMs bedeutende Herausforderungen angehen, müssen Robotikteams dennoch Systeme für grundlegende Fähigkeiten entwickeln, wie das Greifen von Objekten, das Navigieren von Hindernissen und das Manövrieren in vielfältigen Umgebungen. „Es gibt grundlegende Arbeiten, die diese Modelle noch nicht handhaben können“, sagte Paxton. „Diese Komplexität unterstreicht die Notwendigkeit von Daten, an deren Generierung viele Unternehmen derzeit arbeiten.“
Spezialisierte Grundmodelle
Ein weiterer vielversprechender Ansatz besteht darin, spezialisierte Grundmodelle für Robotik zu schaffen, die auf dem umfassenden Wissen basieren, das in vortrainierten Modellen eingebettet ist, während ihre Architekturen für robotische Aufgaben angepasst werden. Ein großes Vorhaben in diesem Bereich ist Googles RT-2, ein visuelles Sprachaktionsmodell (VLA), das Wahrnehmungsdaten und Sprachbefehle verarbeitet, um umsetzbare Anweisungen für Roboter zu generieren.
Kürzlich stellte Google DeepMind RT-X-2 vor, eine verbesserte Version von RT-2, die sich an verschiedene Robotermorphologien anpasst und Aufgaben ausführt, die nicht in ihrem Trainingsdatensatz enthalten sind. Darüber hinaus übersetzt RT-Sketch, eine Zusammenarbeit zwischen DeepMind und der Stanford University, grobe Skizzen in ausführbare Roboteraktionspläne. „Diese Modelle repräsentieren einen neuen Ansatz, der als erweiterte Richtlinie fungiert, um mehrere Aufgaben zu bewältigen“, merkte Paxton an. „Dies ist eine spannende Richtung, die durch End-to-End-Lernen vorangetrieben wird, bei dem ein Roboter seine Aktionen aus einem Kamerabild ableiten kann.“
Die Grundmodelle für die Robotik dringen zunehmend auch in den kommerziellen Bereich vor. Covariant hat kürzlich RFM-1 vorgestellt, ein Transformer-Modell mit 8 Milliarden Parametern, das auf vielfältigen Eingaben trainiert wurde, darunter Text, Bilder, Videos und Roboteraktionen, um ein vielseitiges Grundmodell für verschiedene robotische Anwendungen zu schaffen.
In der Zwischenzeit zielt das Projekt GR00T, das auf der Nvidia GTC vorgestellt wurde, darauf ab, humanoide Roboter in die Lage zu versetzen, Eingaben wie Text, Sprache und Videos zu verarbeiten und sie in spezifische Aktionen zu übersetzen.
Das volle Potenzial von Sprachmodellen bleibt weitgehend ungenutzt und wird weiterhin die Robotikforschung vorantreiben. Mit der weiteren Entwicklung von LLMs können wir bahnbrechende Innovationen im Bereich der Robotik erwarten.