Foundation Models und Robotik: Der Aufstieg von OpenVLA
Foundation-Modelle haben die Robotik erheblich vorangebracht, indem sie die Entwicklung von Vision-Language-Action (VLA)-Modellen ermöglicht haben. Diese Modelle können auf Objekte, Szenen und Aufgaben verallgemeinern, die über ihre ursprünglichen Trainingsdaten hinausgehen. Ihre Einführung wurde jedoch durch ihre geschlossene Natur und das Fehlen bewährter Praktiken für ihre Anpassung an neue Umgebungen begrenzt.
Einführung von OpenVLA
Um diese Herausforderungen zu bewältigen, haben Forscher der Stanford University, UC Berkeley, des Toyota Research Institute, Google DeepMind und anderer Institutionen OpenVLA ins Leben gerufen, ein Open-Source-VLA-Modell, das auf einer vielfältigen Reihe realer Roboterdemonstrationen trainiert wurde. OpenVLA übertrifft nicht nur andere Modelle bei Robotikaufgaben, sondern ermöglicht auch eine einfache Feinabstimmung zur Leistungssteigerung in Multi-Task-Umgebungen mit verschiedenen Objekten. Entwickelt für Effizienz nutzt es Optimierungstechniken, um auf Consumer-GPUs mit minimalen Feinabstimmungskosten zu laufen.
Die Bedeutung von Vision-Language-Action-Modellen
Traditionelle Methoden der robotischen Manipulation haben oft Schwierigkeiten mit der Verallgemeinerung über ihre Trainingsszenarien hinaus. Sie sind typischerweise ineffektiv gegen Ablenkungen oder unbekannte Objekte und haben Schwierigkeiten, sich an leicht veränderte Aufgabeninstruktionen anzupassen. Im Gegensatz dazu zeichnen sich große Sprachmodelle (LLMs) und Vision-Language-Modelle (VLMs) aufgrund ihrer umfangreichen, internetbasierten Vortrainingsdatensätze durch hohe Verallgemeinerungsfähigkeit aus. In letzter Zeit haben Forschungslabore begonnen, LLMs und VLMs als grundlegende Komponenten zur Entwicklung robotischer Strategien zu integrieren.
Zwei bemerkenswerte Ansätze umfassen die Nutzung vortrainierter LLMs und VLMs in modularen Systemen für die Aufgabenplanung und -ausführung sowie den Aufbau von VLAs von Grund auf zur Generierung direkter Robotersteuerungsaktionen. Beispiele wie RT-2 und RT-2-X haben neue Maßstäbe für allgemeine Roboterpolitiken gesetzt.
Allerdings stehen aktuelle VLAs vor zwei wesentlichen Herausforderungen: ihre geschlossene Architektur, die die Transparenz in Training und Datenmischung einschränkt, sowie das Fehlen standardisierter Praktiken für die Bereitstellung und Anpassung an neue Roboter und Aufgaben. Die Forscher betonen die Notwendigkeit offener, allgemeiner VLAs zur Förderung einer effektiven Anpassung, die dem bestehenden Open-Source-Ökosystem für Sprachmodelle ähnelt.
Die Architektur von OpenVLA
OpenVLA umfasst 7 Milliarden Parameter, basiert auf dem Prismatic-7B Vision-Language-Modell und enthält einen dualen visuellen Encoder zur Extraktion von Bildmerkmalen, gekoppelt mit einem LLaMA-2 7B Sprachmodell zur Verarbeitung von Instruktionen. Feinabgestimmt auf 970.000 Robotermanipulationstrajektorien aus dem Open-X Embodiment-Datensatz, deckt OpenVLA ein breites Spektrum robotischer Aufgaben und Umgebungen ab, während es Aktions-Tokens generiert, die spezifische Roboteraktionen abbilden.
OpenVLA erhält natürliche Sprachinstruktionen zusammen mit Eingabebildern und überlegt, um die optimale Abfolge von Aktionen zu bestimmen, die zum Abschluss von Aufgaben wie „den Tisch abwischen“ erforderlich sind. Bemerkenswerterweise übertrifft es das 55 Milliarden-Parameter RT-2-X-Modell, das zuvor als Stand der Technik für die WidowX- und Google-Roboter-Embodiments galt.
Feinabstimmung und Effizienz
Die Forscher haben effiziente Feinabstimmungsstrategien über sieben Manipulationsaufgaben hinweg untersucht und gezeigt, dass die feinabgestimmten OpenVLA-Politiken vortrainierte Alternativen übertreffen, insbesondere bei der Übersetzung von Sprachinstruktionen in Multi-Task-Verhaltensweisen mit verschiedenen Objekten. OpenVLA erreicht einzigartig eine Erfolgsquote von über 50 % über alle getesteten Aufgaben und positioniert sich als zuverlässige Option für das Nachahmungslernen in vielfältigen Szenarien.
In dem Bestreben nach Zugänglichkeit und Effizienz setzte das Team Low-Rank-Adaptation (LoRA) für die Feinabstimmung ein, wodurch auf einem einzelnen A100-GPU innerhalb von 10-15 Stunden aufgabenspezifische Anpassungen erzielt wurden – eine erhebliche Reduzierung des Rechenaufwands. Die Modellquantisierung verringerte zudem die Modellgröße und ermöglichte den Einsatz auf Consumer-GPUs, ohne die Leistung zu beeinträchtigen.
Open-Source von OpenVLA
Die Forscher haben das gesamte OpenVLA-Modell, einschließlich Bereitstellungs- und Feinabstimmungsnotebooks sowie Code für das skalierbare VLA-Training, open-sourced. Sie erwarten, dass diese Ressourcen weitere Erkundungen und Anpassungen von VLAs in der Robotik anstoßen werden. Die Bibliothek unterstützt die Feinabstimmung auf einzelnen GPUs und kann das Billionen-Parameter-VLA-Training über Multi-Node-GPU-Cluster orchestrieren, entsprechend modernen Optimierungs- und Parallelisierungstechniken.
Zukünftige Entwicklungen für OpenVLA zielen darauf ab, mehrere Bild- und propriozeptive Eingaben sowie Beobachtungsgeschichte einzubeziehen. Darüber hinaus könnte die Nutzung von VLMs, die auf miteinander verwobenen Bild- und Textdaten vortrainiert sind, die Flexibilität der VLA-Feinabstimmung erhöhen.
Mit OpenVLA steht die Robotik-Community am Rande bemerkenswerter Fortschritte, die VLA-Modelle zugänglicher und anpassungsfähiger für vielfältige Anwendungen machen.