Le DrEureka d'Nvidia dépasse les performances humaines dans la formation de systèmes robotiques.

Les grands modèles de langage (LLM) transforment de manière significative la formation des systèmes robotiques, comme l'indiquent des recherches récentes de Nvidia, de l'Université de Pennsylvanie et de l'Université du Texas à Austin. L'étude présente DrEureka, une technique innovante qui automatise la création de fonctions de récompense et de distributions de randomisation pour les systèmes robotiques. DrEureka, qui signifie Domain Randomization Eureka, ne nécessite qu'une description de tâche à haut niveau et surpasse les récompenses traditionnellement conçues par des humains lors du transfert de politiques apprises de la simulation vers les applications réelles.

Transfert Sim-to-Réalité

Dans le domaine de la robotique, les politiques sont généralement entraînées dans des environnements simulés avant d'être déployées dans le monde réel. Le défi de transférer ces politiques apprises, souvent appelé "écart sim-to-réalité", exige un ajustement approfondi entre la simulation et les conditions réelles. Des avancées récentes ont montré que les LLM pouvaient tirer parti de leurs vastes connaissances et capacités de raisonnement, en conjonction avec les moteurs physiques des simulateurs virtuels, pour apprendre des compétences motrices complexes. Les LLM peuvent générer des fonctions de récompense — des éléments clés qui guident les systèmes d'apprentissage par renforcement (RL) — pour identifier les séquences d'actions optimales nécessaires à l'accomplissement de tâches. Cependant, le transfert d'une politique apprise vers des applications réelles implique souvent des ajustements laborieux des fonctions de récompense et des paramètres de simulation.

La Solution DrEureka

DrEureka vise à simplifier le processus de transfert sim-to-réalité en automatisant la conception des fonctions de récompense et des paramètres de randomisation de domaine (DR). S'appuyant sur la technique Eureka introduite en octobre 2023, DrEureka utilise les LLM pour générer des implémentations logicielles de fonctions de récompense basées sur des descriptions de tâches. Ces fonctions de récompense sont testées en simulation, et les résultats guident les modifications, permettant l'optimisation simultanée de plusieurs fonctions de récompense. Bien qu'Eureka facilite l'entraînement des politiques RL dans des environnements simulés, elle ne traite pas les complexités des scénarios réels et nécessite une intervention manuelle pour les transitions sim-to-réalité. DrEureka améliore ce processus en configurant automatiquement les paramètres de DR. Les techniques de DR introduisent de la variabilité dans la simulation, permettant aux politiques RL de s'adapter à l'imprévisibilité du monde réel. La sélection des paramètres appropriés exige un raisonnement physique de sens commun, ce qui représente un défi idéal pour les LLM.

Implémentation de DrEureka

DrEureka adopte une approche en plusieurs étapes pour optimiser simultanément les fonctions de récompense et la randomisation de domaine. Dans un premier temps, un LLM génère des fonctions de récompense basées sur des instructions de sécurité et des descriptions de tâches. Le modèle utilise ces instructions pour développer une fonction de récompense initiale, apprenant une politique similaire à celle de la méthode Eureka originale. Ensuite, il effectue des tests pour déterminer les paramètres physiques optimaux, tels que le frottement et la gravité, qui orientent le choix des configurations de randomisation de domaine. La politique est ensuite réentraînée avec ces configurations, augmentant sa robustesse face au bruit du monde réel. Les chercheurs décrivent DrEureka comme une "pipeline pilotée par un modèle linguistique pour le transfert sim-to-réalité avec une intervention humaine minimale."

Résultats de Performance

L'équipe a évalué DrEureka sur des plateformes robotiques quadrupèdes et de manipulation délicate. Leurs résultats ont démontré que les politiques de locomotion quadrupède entraînées avec DrEureka surpassaient les systèmes conçus par des humains de 34 % en vitesse de déplacement et de 20 % en distance parcourue sur divers terrains. Lors des tests de manipulation délicate, la meilleure politique développée par DrEureka a atteint 300 % de rotations de cube en plus dans un délai fixe par rapport aux politiques créées par des humains. Une application notable de DrEureka a mis en scène un robot-chien équilibrant et marchant sur une balle de yoga. Le LLM a élaboré avec succès des fonctions de récompense et des configurations de DR qui ont permis une performance fluide dans le monde réel, sans nécessiter d'ajustements supplémentaires, et performante sur diverses surfaces intérieures et extérieures avec un soutien minimal en matière de sécurité. L'étude a également révélé que l'inclusion d'instructions de sécurité dans les descriptions de tâches influence significativement la cohérence logique des instructions générées par le LLM pour le transfert au monde réel. "Nous croyons que DrEureka démontre le potentiel d'accélérer la recherche sur l'apprentissage des robots en automatisant les éléments complexes de la maîtrise des compétences de bas niveau," ont conclu les chercheurs.

Most people like

Find AI tools in YBX