DeepMinds GenEM nutzt LLMs zur Schaffung ausdrucksstarker Roboterverhalten.

Menschen nutzen häufig expressive Verhaltensweisen, um Ziele und Absichten zu vermitteln. Zum Beispiel nicken wir, um einen Kollegen zu begrüßen, schütteln den Kopf, um Missbilligung auszudrücken, oder sagen „Entschuldigung“, um uns durch eine Menschenmenge zu bewegen. Um reibungslosere Interaktionen zu ermöglichen, müssen mobile Roboter ähnliche expressive Verhaltensweisen zeigen. Dieses Unterfangen stellt jedoch eine bedeutende Herausforderung in der Robotik dar, da bestehende Lösungen oft an Flexibilität und Anpassungsfähigkeit mangeln.

In einer wegweisenden Studie präsentieren Forscher der University of Toronto, Google DeepMind und Hoku Labs GenEM, einen neuartigen Ansatz, der den umfangreichen sozialen Kontext großer Sprachmodelle (LLMs) nutzt, um Robotern zu ermöglichen, expressive Verhaltensweisen auszuführen. Durch verschiedene Aufforderungsmethoden ermöglicht GenEM Robotern, ihre Umgebung zu interpretieren und menschliche Ausdrücke effektiv nachzuahmen.

Expressive Verhaltensweisen in der Robotik

Traditionell basierte die Entwicklung expressiver Roboterausdrücke auf regel- oder templatebasierten Systemen, die einen erheblichen manuellen Aufwand für jeden Roboter und jede Umgebung erforderten. Diese Rigide erfordert umfangreiche Neuprogrammierungen für Änderungen oder Anpassungen. Neuere Techniken tendieren zu datengesteuerten Ansätzen, die mehr Flexibilität bieten, benötigen jedoch oft spezialisierte Datensätze, die auf die Interaktionen jedes Roboters zugeschnitten sind.

GenEM verändert diesen Ansatz, indem es das umfangreiche Wissen innerhalb von LLMs nutzt, um dynamisch expressive Verhaltensweisen zu generieren, was die Notwendigkeit traditioneller Modellausbildung oder komplizierter Regelwerke überflüssig macht. Beispielsweise können LLMs die Bedeutung von Augenkontakt oder Nicken in verschiedenen sozialen Kontexten erkennen.

„Unsere wichtigste Erkenntnis ist, den reichen sozialen Kontext von LLMs zu nutzen, um anpassbare und zusammensetzbare expressive Verhaltensweisen zu schaffen“, erklären die Forscher.

Generative Expressive Motion (GenEM)

GenEM verwendet eine Sequenz von LLM-Agenten, die autonom expressive Roboterverhalten basierend auf natürlichen Sprachbefehlen generieren. Jeder Agent trägt dazu bei, indem er über soziale Kontexte nachdenkt und diese Verhaltensweisen in umsetzbare API-Aufrufe für den Roboter übersetzt.

„GenEM kann multimodale Verhaltensweisen erzeugen, die die Fähigkeiten des Roboters – wie Sprache und Körperbewegungen – nutzen, um Absichten klar auszudrücken“, betonen die Forscher. „Eine der herausragenden Eigenschaften von GenEM ist die Fähigkeit, sich an unmittelbares menschliches Feedback anzupassen, was iterative Verbesserungen und die Generierung neuer expressiver Verhaltensweisen ermöglicht.“

Der GenEM-Workflow beginnt mit einer natürlichen Sprachaufforderung, die entweder eine expressive Handlung wie „Nicken Sie mit dem Kopf“ spezifiziert oder ein soziales Szenario wie „Eine Person, die vorbeigeht, winkt Ihnen zu“ festlegt. Zunächst verwendet ein LLM das Ketten-Denken, um eine potenzielle menschliche Antwort zu skizzieren. Ein anderer LLM-Agent übersetzt dies dann in eine schrittweise Anleitung, die die verfügbaren Funktionen des Roboters reflektiert und Aktionen wie Kopfneigen oder das Auslösen bestimmter Lichtmuster anleitet.

Anschließend werden die prozeduralen Anweisungen in ausführbaren Code umgewandelt und nutzen die API-Befehle des Roboters. Optionales menschliches Feedback kann zur weiteren Verfeinerung des Verhaltens integriert werden, ohne die LLMs zu trainieren – lediglich Anpassungen beim Prompt-Engineering sind erforderlich, basierend auf den Spezifikationen des Roboters.

GenEM testen

Die Forscher bewerteten die von zwei Varianten von GenEM erzeugten Verhaltensweisen – eine, die Nutzerfeedback einbezog, und eine, die dies nicht tat – im Vergleich zu skriptierten Verhaltensweisen eines professionellen Animators. Dabei nutzten sie OpenAI’s GPT-4 für kontextuelles Denken und die Generierung expressiver Verhaltensweisen und erfassten die Nutzerreaktionen zu den Ergebnissen. Die Ergebnisse zeigten, dass die Nutzer die von GenEM erzeugten Verhaltensweisen im Allgemeinen als ebenso verständlich empfanden wie die eines professionellen Animators. Zudem übertraf die modulare, mehrstufige Methode von GenEM die vorherige Einzel-LLM-Vorgehensweise erheblich.

Wesentlich ist, dass das promptbasierte Design von GenEM an jeden Robotertyp anpassbar ist, ohne spezielle Datensätze für das Training erforderlich zu machen. Es nutzt effektiv das LLM-Denken, um komplexe expressive Verhaltensweisen aus einfachen Roboteraktionen zu schaffen.

„Unser Framework generiert schnell expressive Verhaltensweisen durch In-Context-Lernen und wenig Beispiele, was den Bedarf an kuratierten Datensätzen oder aufwendigen Regelwerken deutlich reduziert, wie sie in früheren Methoden erforderlich waren“, fassen die Forscher zusammen.

Obwohl sich GenEM noch in einer frühen Phase befindet und hauptsächlich in einzelnen interaktiven Szenarien und begrenzten Aktionsbereichen getestet wurde, gibt es Potenzial für Erkundungen bei Robotern mit vielfältigeren primitiven Aktionen, wobei große Sprachmodelle die weiterführenden Fähigkeiten vielversprechend erweitern können.

„Wir glauben, dass unser Ansatz einen flexiblen Rahmen für die Generierung anpassbarer und zusammensetzbarer expressiver Bewegungen bietet und die Leistungsfähigkeit großer Sprachmodelle nutzt“, schlussfolgern die Forscher.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles