Kürzliche Fortschritte in Sprach- und Visionsmodellen haben die Fähigkeit von Robotersystemen, Anweisungen aus Text oder Bildern zu befolgen, erheblich verbessert. Dennoch gibt es Einschränkungen dieser Methoden. Eine neue Studie von Forschern der Stanford University und Google DeepMind schlägt vor, Skizzen als Robotikanweisungen zu nutzen. Skizzen bieten reichhaltige räumliche Informationen, die Robotern helfen, Aufgaben zu erfüllen, ohne die Verwirrung, die durch das Durcheinander realistischer Bilder oder die Mehrdeutigkeit natürlicher Sprache entstehen kann.
Einführung von RT-Sketch
Die Forscher entwickelten RT-Sketch, ein Modell, das Skizzen zur Steuerung von Robotern verwendet. Dieses Modell schneidet unter Standardbedingungen vergleichbar ab mit Sprach- und bildgesteuerten Agenten und übertrifft diese, wo Sprache und Bildanweisungen versagen.
Warum Skizzen wählen?
Während Sprache ein einfacher Weg ist, Ziele zu vermitteln, kann sie bei Aufgaben, die präzise Manipulationen erfordern, unpraktisch sein, wie etwa beim Anordnen von Objekten. Bilder zeigen gewünschte Ziele detailliert, jedoch ist das Beschaffen eines Zielbildes oft nicht praktikabel. Zudem können vorab aufgezeichnete Bilder übermäßig detailliert sein, was zu Überanpassung und schlechterer Verallgemeinerung auf neue Umgebungen führt.
„Wir haben zunächst überlegt, Roboter dazu zu befähigen, Montageanleitungen, wie sie in IKEA-Schemata vorkommen, zu interpretieren und die erforderlichen Manipulationen durchzuführen“, erklärte Priya Sundaresan, Doktorandin an der Stanford University und Hauptautorin der Studie. „Sprache ist oft zu mehrdeutig für solche räumlichen Aufgaben, und vorliegende Bilder sind möglicherweise nicht verfügbar.“
Das Team entschied sich für Skizzen, da sie minimal, leicht zu erzeugen und informativ sind. Skizzen kommunizieren räumliche Anordnungen effektiv, ohne dass pixelgenaue Details erforderlich sind, wodurch Modelle auf aufgabenrelevante Objekte erkennen können und deren Generalisierungsfähigkeiten verbessern.
„Wir sehen Skizzen als einen entscheidenden Schritt zu bequemeren und ausdrucksvolleren Möglichkeiten, wie Menschen Robotern Anweisungen geben können“, erklärte Sundaresan.
Das RT-Sketch-Modell
RT-Sketch basiert auf dem Robotics Transformer 1 (RT-1), einem Modell, das Sprache in Roboterbefehle übersetzt. Die Forscher passten diese Architektur an, um visuelle Ziele, einschließlich Skizzen und Bilder, zu nutzen.
Zur Schulung von RT-Sketch verwendeten sie den RT-1-Datensatz, der 80.000 Aufzeichnungen von VR-teleoperierten Aufgaben wie Objektmanipulation und Schrankoperationen umfasst. Zunächst erstellten sie Skizzen aus diesen Demonstrationen, indem sie 500 Beispiele auswählten und handgezeichnete Darstellungen aus den letzten Video-Frames produzierten. Diese Skizzen sowie die entsprechenden Video-Frames wurden verwendet, um ein generatives gegeneinander arbeitendes Netzwerk (GAN) zu trainieren, das Bilder in Skizzen umwandelt.
Training und Funktionalität
Das GAN erzeugte Skizzen zur Schulung des RT-Sketch-Modells, das weiter mit Variationen ergänzt wurde, um unterschiedliche handgezeichnete Stile nachzuahmen. Während des Betriebs akzeptiert das Modell ein Bild der Szene und eine grobe Skizze der gewünschten Objektanordnung und generiert eine Abfolge von Befehlen für den Roboter, um das spezifizierte Ziel zu erreichen.
„RT-Sketch ist vorteilhaft für räumliche Aufgaben, bei denen detaillierte verbale Anweisungen umständlich wären oder wenn kein Bild verfügbar ist“, sagte Sundaresan. Ein Beispiel: Beim Decken eines Tischs könnte eine Anweisung wie "lege die Bestecke neben den Teller" mehrdeutig sein und mehrere Interaktionen erfordern, um das Verständnis des Modells zu klären. Im Gegensatz dazu kann eine einfache Skizze die gewünschte Anordnung klar anzeigen.
„RT-Sketch könnte auch bei Aufgaben wie dem Auspacken von Gegenständen oder dem Anordnen von Möbeln in einem neuen Raum hilfreich sein, ebenso bei komplexen mehrstufigen Aufgaben wie dem Falten von Wäsche“, fügte Sundaresan hinzu.
Evaluierung von RT-Sketch
Die Forscher testeten RT-Sketch in verschiedenen Szenarien und bewerteten sechs Manipulationsfähigkeiten, wie das Bewegen von Objekten, das Umwerfen von Dosen und das Öffnen von Schubladen. Das Modell schnitt vergleichbar zu bestehenden bild- und sprachgesteuerten Modellen bei grundlegenden Manipulationsaufgaben ab und übertraf sprachbasierte Modelle in Szenarien, in denen die Ziele schwierig zu beschreiben waren.
„Das zeigt, dass Skizzen eine effektive Balance finden; sie sind präzise genug, um Verwirrung durch visuelle Ablenkungen zu vermeiden und gleichzeitig notwendigen semantischen und räumlichen Kontext zu bewahren“, merkte Sundaresan an.
Zukünftige Richtungen
Die Forscher planen, die Anwendbarkeit von Skizzen weiter zu erforschen und eventuell mit anderen Modalitäten wie Sprache, Bildern und menschlichen Gesten zu integrieren. DeepMind hat mehrere Robotermodelle, die multimodale Ansätze nutzen, und die Erkenntnisse aus RT-Sketch könnten diese Systeme verbessern. Sie sind zudem begeistert von den vielfältigen Möglichkeiten von Skizzen über die visuelle Darstellung hinaus.
„Skizzen können Bewegung mit Pfeilen vermitteln, Teilziele mit partiellen Skizzen darstellen und Einschränkungen mit Kritzeleien kennzeichnen, wodurch wertvolle Informationen für Manipulationsaufgaben bereitgestellt werden, die wir noch untersuchen müssen“, schloss Sundaresan.