DeepMinds GenEM nutzt LLMs zur Schaffung ausdrucksstarker Roboterverhalten.

Home KI-Nachrichten DeepMinds GenEM nutzt LLMs zur Schaffung ausdrucksstarker Roboterverhalten.

Menschen nutzen häufig expressive Verhaltensweisen, um Ziele und Absichten zu vermitteln. Zum Beispiel nicken wir, um einen Kollegen zu begrüßen, schütteln den Kopf, um Missbilligung auszudrücken, oder sagen „Entschuldigung“, um uns durch eine Menschenmenge zu bewegen. Um reibungslosere Interaktionen zu ermöglichen, müssen mobile Roboter ähnliche expressive Verhaltensweisen zeigen. Dieses Unterfangen stellt jedoch eine bedeutende Herausforderung in der Robotik dar, da bestehende Lösungen oft an Flexibilität und Anpassungsfähigkeit mangeln.

In einer wegweisenden Studie präsentieren Forscher der University of Toronto, Google DeepMind und Hoku Labs GenEM, einen neuartigen Ansatz, der den umfangreichen sozialen Kontext großer Sprachmodelle (LLMs) nutzt, um Robotern zu ermöglichen, expressive Verhaltensweisen auszuführen. Durch verschiedene Aufforderungsmethoden ermöglicht GenEM Robotern, ihre Umgebung zu interpretieren und menschliche Ausdrücke effektiv nachzuahmen.

Expressive Verhaltensweisen in der Robotik

Traditionell basierte die Entwicklung expressiver Roboterausdrücke auf regel- oder templatebasierten Systemen, die einen erheblichen manuellen Aufwand für jeden Roboter und jede Umgebung erforderten. Diese Rigide erfordert umfangreiche Neuprogrammierungen für Änderungen oder Anpassungen. Neuere Techniken tendieren zu datengesteuerten Ansätzen, die mehr Flexibilität bieten, benötigen jedoch oft spezialisierte Datensätze, die auf die Interaktionen jedes Roboters zugeschnitten sind.

GenEM verändert diesen Ansatz, indem es das umfangreiche Wissen innerhalb von LLMs nutzt, um dynamisch expressive Verhaltensweisen zu generieren, was die Notwendigkeit traditioneller Modellausbildung oder komplizierter Regelwerke überflüssig macht. Beispielsweise können LLMs die Bedeutung von Augenkontakt oder Nicken in verschiedenen sozialen Kontexten erkennen.

„Unsere wichtigste Erkenntnis ist, den reichen sozialen Kontext von LLMs zu nutzen, um anpassbare und zusammensetzbare expressive Verhaltensweisen zu schaffen“, erklären die Forscher.

Generative Expressive Motion (GenEM)

GenEM verwendet eine Sequenz von LLM-Agenten, die autonom expressive Roboterverhalten basierend auf natürlichen Sprachbefehlen generieren. Jeder Agent trägt dazu bei, indem er über soziale Kontexte nachdenkt und diese Verhaltensweisen in umsetzbare API-Aufrufe für den Roboter übersetzt.

„GenEM kann multimodale Verhaltensweisen erzeugen, die die Fähigkeiten des Roboters – wie Sprache und Körperbewegungen – nutzen, um Absichten klar auszudrücken“, betonen die Forscher. „Eine der herausragenden Eigenschaften von GenEM ist die Fähigkeit, sich an unmittelbares menschliches Feedback anzupassen, was iterative Verbesserungen und die Generierung neuer expressiver Verhaltensweisen ermöglicht.“

Der GenEM-Workflow beginnt mit einer natürlichen Sprachaufforderung, die entweder eine expressive Handlung wie „Nicken Sie mit dem Kopf“ spezifiziert oder ein soziales Szenario wie „Eine Person, die vorbeigeht, winkt Ihnen zu“ festlegt. Zunächst verwendet ein LLM das Ketten-Denken, um eine potenzielle menschliche Antwort zu skizzieren. Ein anderer LLM-Agent übersetzt dies dann in eine schrittweise Anleitung, die die verfügbaren Funktionen des Roboters reflektiert und Aktionen wie Kopfneigen oder das Auslösen bestimmter Lichtmuster anleitet.

Anschließend werden die prozeduralen Anweisungen in ausführbaren Code umgewandelt und nutzen die API-Befehle des Roboters. Optionales menschliches Feedback kann zur weiteren Verfeinerung des Verhaltens integriert werden, ohne die LLMs zu trainieren – lediglich Anpassungen beim Prompt-Engineering sind erforderlich, basierend auf den Spezifikationen des Roboters.

GenEM testen

Die Forscher bewerteten die von zwei Varianten von GenEM erzeugten Verhaltensweisen – eine, die Nutzerfeedback einbezog, und eine, die dies nicht tat – im Vergleich zu skriptierten Verhaltensweisen eines professionellen Animators. Dabei nutzten sie OpenAI’s GPT-4 für kontextuelles Denken und die Generierung expressiver Verhaltensweisen und erfassten die Nutzerreaktionen zu den Ergebnissen. Die Ergebnisse zeigten, dass die Nutzer die von GenEM erzeugten Verhaltensweisen im Allgemeinen als ebenso verständlich empfanden wie die eines professionellen Animators. Zudem übertraf die modulare, mehrstufige Methode von GenEM die vorherige Einzel-LLM-Vorgehensweise erheblich.

Wesentlich ist, dass das promptbasierte Design von GenEM an jeden Robotertyp anpassbar ist, ohne spezielle Datensätze für das Training erforderlich zu machen. Es nutzt effektiv das LLM-Denken, um komplexe expressive Verhaltensweisen aus einfachen Roboteraktionen zu schaffen.

„Unser Framework generiert schnell expressive Verhaltensweisen durch In-Context-Lernen und wenig Beispiele, was den Bedarf an kuratierten Datensätzen oder aufwendigen Regelwerken deutlich reduziert, wie sie in früheren Methoden erforderlich waren“, fassen die Forscher zusammen.

Obwohl sich GenEM noch in einer frühen Phase befindet und hauptsächlich in einzelnen interaktiven Szenarien und begrenzten Aktionsbereichen getestet wurde, gibt es Potenzial für Erkundungen bei Robotern mit vielfältigeren primitiven Aktionen, wobei große Sprachmodelle die weiterführenden Fähigkeiten vielversprechend erweitern können.

„Wir glauben, dass unser Ansatz einen flexiblen Rahmen für die Generierung anpassbarer und zusammensetzbarer expressiver Bewegungen bietet und die Leistungsfähigkeit großer Sprachmodelle nutzt“, schlussfolgern die Forscher.

AMD stellt Embedded+ Architektur vor, die Edge AI-Hardware revolutioniert.

Menlo Ventures’ Vision: Die Zukunft der KI-Sicherheit gestalten

Most people like

Remove Background

12.6K

Entfernen Sie den Hintergrund Ihrer Bilder mit nur einem Klick! Ob Sie Fotos für persönliche Projekte oder professionelle Präsentationen verbessern möchten, unser benutzerfreundliches Tool vereinfacht den Bearbeitungsprozess und ermöglicht Ihnen, in kürzester Zeit beeindruckende Ergebnisse zu erzielen. Verabschieden Sie sich von komplizierter Software und begrüßen Sie mühelose Bildbearbeitung!

Hintergrundentferner AI Background Remover

PopAi

1.2M

Steigern Sie mühelos Ihre Produktivität mit PopAIs hochmodernem KI-Tool! Entfalten Sie neue Effizienzlevels und optimieren Sie Ihre Aufgaben wie nie zuvor.

KI-Assistent AI Presentation Generator

Face26

203.7K

Verbessern Sie Ihre Fotos mühelos mit dem kostenlosen KI-Foto-Verbesserer von Face26. Steigern Sie die Bildqualität, schärfen Sie Details und bringen Sie die Farben Ihrer Bilder mit nur wenigen Klicks wieder zum Leben.

Foto-Enhancer AI Photo Enhancer

Undressing AI

333.9K

Generieren Sie beeindruckende Nacktbilder mit fortschrittlicher KI-Technologie.

KI NSFW

Find AI tools in YBX