La start-up en robotique 1X Technologies a lancé un modèle génératif révolutionnaire destiné à améliorer l'efficacité de l'entraînement des systèmes robotiques dans des environnements simulés. Comme l'indique leur dernier article de blog, ce modèle s'attaque à un défi majeur en robotique : la création de « modèles de monde » capables de prédire avec précision comment les environnements changent en réponse aux actions d'un robot.
Former des robots dans des espaces physiques comporte des coûts et des risques importants, ce qui pousse les roboticiens à s'appuyer sur des environnements simulés pour le développement de modèles avant leur déploiement dans le monde réel. Cependant, les écarts entre simulations et environnements physiques peuvent poser des défis significatifs.
“Les roboticiens conçoivent souvent des scènes élaborées manuellement qui servent de ‘jumeaux numériques’ du monde réel, utilisant des simulateurs de corps rigides tels que MuJoCo, Bullet et Isaac pour la simulation dynamique”, a expliqué Eric Jang, VP de l'IA chez 1X Technologies. “Malheureusement, ces jumeaux numériques peuvent contenir des inexactitudes en physique et en géométrie, entraînant l'écart ‘sim2real’. Par exemple, un modèle de porte téléchargé en ligne peut ne pas reproduire la même rigidité du ressort dans la poignée que celle de la porte utilisée lors des tests.”
Modèles de Monde Génératifs
Pour surmonter cet écart, le modèle innovant de 1X apprend à simuler les dynamiques du monde réel en s'entraînant sur des données brutes collectées directement depuis les robots. Il analyse des milliers d'heures de données vidéo et d'actionneurs de ses robots humanoïdes, qui effectuent diverses tâches de manipulation mobile dans des environnements domestiques et de bureau.
« Nous avons rassemblé des données dans nos bureaux 1X, soutenus par une équipe d'Opérateurs Android pour l'annotation et le filtrage », a déclaré Jang. « En construisant un simulateur directement à partir d'interactions réelles, nous pouvons atteindre des dynamiques qui s’alignent davantage sur de réelles situations à mesure que le pool de données d'interaction s'étend. »
Le modèle de monde développé excelle dans la simulation des interactions entre objets. Les vidéos partagées par la société démontrent la capacité du modèle à prédire avec précision des scénarios tels qu'un robot saisissant des boîtes et interagissant avec divers objets allant des corps rigides aux éléments déformables, comme des rideaux et du linge, tout en tenant compte des dynamiques complexes, telles que l'évitement d'obstacles et le maintien de distances sûres par rapport aux personnes.
Défis des Modèles Génératifs
Malgré ses avancées, le modèle fait face à des défis persistants en raison des changements environnementaux. Comme tout simulateur, il nécessite des mises à jour à mesure que l'environnement opérationnel évolue. Toutefois, les chercheurs croient que l'approche d'apprentissage du modèle facilite ces mises à jour.
« Le modèle génératif peut rencontrer un écart sim2real si ses données d'entraînement sont obsolètes », a reconnu Jang. « L'objectif est de créer un simulateur appris qui puisse être continuellement affiné avec de nouvelles données du monde réel sans nécessiter d'ajustements manuels. »
L'approche de 1X s'inspire d'avancées telles qu'OpenAI Sora et Runway, qui montrent que des modèles génératifs peuvent être développés pour maintenir la cohérence au fil du temps avec des données d'entraînement appropriées.
Alors que d'autres modèles génèrent généralement des vidéos à partir d'entrées textuelles, le focus de 1X sur les systèmes génératifs qui réagissent dynamiquement pendant la phase de génération le place à la pointe de l'innovation. Par exemple, des chercheurs de Google ont utilisé des techniques similaires pour entraîner des modèles génératifs capables de simuler des environnements interactifs, comme le jeu DOOM.
Malgré ces avancées, des défis demeurent. L'absence d'un simulateur de monde clairement défini peut parfois entraîner des scénarios peu réalistes; par exemple, le modèle peut prédire à tort qu'un objet suspendu ne tombera pas ou peut faire disparaître un objet entre deux images. Résoudre ces problèmes nécessitera des efforts continuels.
Une solution potentielle réside dans l'accumulation continue de données pour améliorer l'entraînement du modèle. « Les récentes avancées dans la modélisation vidéo générative ont été remarquables, et les résultats d'OpenAI Sora illustrent que l'échelle des données et de la puissance de calcul peut mener à des améliorations significatives », a noté Jang.
1X engage activement la communauté dans cette initiative en publiant ses modèles et poids, tout en planifiant des compétitions offrant des prix monétaires aux participants qui contribuent à affiner les modèles.
« Nous explorons diverses méthodes de modélisation du monde et de génération vidéo », a conclu Jang, soulignant l'engagement de l'entreprise envers l'innovation continue.