Das Robotik-Startup 1X Technologies hat ein bahnbrechendes generatives Modell vorgestellt, das die Effizienz beim Training von Robotersystemen in simulierten Umgebungen verbessern soll. In ihrem neuesten Blogbeitrag erläutern sie, wie dieses Modell ein zentrales Problem der Robotik angeht: die Erstellung von „Weltmodellen“, die genau vorhersagen, wie sich Umgebungen in Reaktion auf die Aktionen eines Roboters ändern.
Das Training von Robotern in physischen Räumen ist kostspielig und riskant, weshalb Robotiker auf simulierte Umgebungen zurückgreifen, um Modelle zu entwickeln, bevor sie in der realen Welt eingesetzt werden. Allerdings können Diskrepanzen zwischen Simulationen und tatsächlichen physikalischen Gegebenheiten erhebliche Herausforderungen darstellen.
„Robotiker erstellen oft manuell gestaltete Szenen, die als ‚digitale Zwillinge‘ der realen Welt dienen, und nutzen starre Körper-Simulatoren wie MuJoCo, Bullet und Isaac zur Simulation der Dynamik“, erklärte Eric Jang, VP für KI bei 1X Technologies. „Leider können diese digitalen Zwillinge Ungenauigkeiten in Physik und Geometrie enthalten, was zu der 'sim2real-Lücke' führt. Ein heruntergeladenes Türmodell könnte beispielsweise nicht dieselbe Federsteifigkeit im Griff aufweisen wie die Tür, die während der Tests verwendet wurde.“
Generative Weltmodelle
Um diese Lücke zu überwinden, lernt das innovative Modell von 1X, die Dynamik der realen Welt zu simulieren, indem es auf Rohsensordaten trainiert, die direkt von Robotern gesammelt werden. Es analysiert tausende Stunden an Video- und Aktuatordaten von humanoiden Robotern des Unternehmens, die verschiedene mobile Manipulationsaufgaben in Haushalts- und Büroumgebungen ausführen.
„Wir haben Daten aus unseren 1X-Büros gesammelt, unterstützt von einem Team von Android Operators zur Annotation und Filterung“, sagte Jang. „Durch den Aufbau eines Simulators direkt aus den Interaktionen der realen Welt können wir Dynamiken erreichen, die enger mit tatsächlichen Szenarien übereinstimmen, während der Pool an Interaktionsdaten wächst.“
Das entwickelte Weltmodell ist hervorragend darin, Objektinteraktionen zu simulieren. Videos, die das Unternehmen geteilt hat, zeigen die Fähigkeit des Modells, Szenarien präzise vorherzusagen, wie zum Beispiel das Greifen von Kisten durch einen Roboter und die Interaktion mit verschiedenen Objekten – von starren Körpern bis zu verformbaren Gegenständen wie Vorhängen und Wäsche – wobei komplexe Dynamiken berücksichtigt werden, wie das Vermeiden von Hindernissen und das Einhalten von Sicherheitsabständen zu Menschen.
Herausforderungen von generativen Modellen
Trotz seiner Fortschritte steht das Modell weiterhin vor Herausforderungen aufgrund von Umweltveränderungen. Wie jeder Simulator benötigt es Aktualisierungen, wenn sich die operative Umgebung weiterentwickelt. Die Forscher glauben jedoch, dass der Lernansatz des Modells eine einfachere Aktualisierung ermöglicht.
„Das generative Modell kann eine sim2real-Lücke erleben, wenn seine Trainingsdaten veraltet sind“, räumte Jang ein. „Das Ziel ist es, einen gelernten Simulator zu schaffen, der kontinuierlich mit frischen Daten aus der realen Welt verfeinert werden kann, ohne manuelle Anpassungen vorzunehmen.“
Der Ansatz von 1X orientiert sich an Fortschritten wie OpenAI Sora und Runway, die zeigen, dass generative Modelle entwickelt werden können, um über Zeit hinweg Konsistenz mit geeigneten Trainingsdaten zu wahren. Während andere Modelle typischerweise Videos aus Texteingaben generieren, bringt 1X generative Systeme hervor, die während der Generierungsphase dynamisch reagieren und sich somit an der Spitze der Innovation positionieren. Google-Forscher haben ähnliche Techniken eingesetzt, um generative Modelle zu trainieren, die interaktive Umgebungen wie das Spiel DOOM simulieren können.
Trotz dieser Fortschritte bestehen weiterhin Herausforderungen. Das Fehlen eines klar definierten Weltsimulators kann manchmal zu unrealistischen Szenarien führen – das Modell könnte fälschlicherweise vorhersagen, dass ein schwebendes Objekt nicht fallen wird oder dass ein Objekt zwischen den Bildern verschwindet. Die Behebung dieser Probleme erfordert ständige Anstrengungen.
Eine mögliche Lösung besteht darin, kontinuierlich mehr Daten zu sammeln, um das Modelltraining zu verbessern. „Die jüngsten Fortschritte im generativen Videomodeling sind bemerkenswert, und die Ergebnisse von OpenAI Sora zeigen, dass die Skalierung von Daten und Rechenleistung zu erheblichen Verbesserungen führen kann“, bemerkte Jang.
1X engagiert die Gemeinschaft aktiv in dieser Initiative, indem es seine Modelle und Gewichte veröffentlicht und Wettbewerbe plant, bei denen Teilnehmer monetäre Preise gewinnen können, wenn sie zur Verfeinerung der Modelle beitragen.
„Wir erkunden verschiedene Methoden für Modelling und Videogenerierung“, schloss Jang und betonte das Engagement des Unternehmens für kontinuierliche Innovation.