Nvidias DrEureka übertrifft die menschliche Leistung beim Training von Robotersystemen

Home KI-Nachrichten Nvidias DrEureka übertrifft die menschliche Leistung beim Training von Robotersystemen

Große Sprachmodelle (LLMs) revolutionieren die Schulung von Robotersystemen erheblich, wie aktuelle Forschungen von Nvidia, der University of Pennsylvania und der University of Texas at Austin zeigen. Die Studie präsentiert DrEureka, eine bahnbrechende Technik, die die Erstellung von Belohnungsfunktionen und Randomisierungsverteilungen für Robotersysteme automatisiert. DrEureka, was für Domain Randomization Eureka steht, benötigt lediglich eine hochrangige Aufgabenbeschreibung und übertrifft traditionelle, von Menschen entworfene Belohnungen beim Transfer erlernter Politiken von der Simulation in reale Anwendungen.

Sim-to-Real-Transfer

In der Robotik werden Politiken normalerweise in simulierten Umgebungen trainiert, bevor sie in der realen Welt eingesetzt werden. Die Herausforderung des Transfers dieser erlernten Politiken, oft als "Sim-to-Real-Gap" bezeichnet, erfordert umfangreiche Feinabstimmungen zwischen Simulation und tatsächlichen Bedingungen. Neueste Fortschritte zeigen, dass LLMs ihr umfangreiches Wissen und ihre Überlegungsfähigkeiten in Verbindung mit den Physik-Engines virtueller Simulatoren nutzen können, um komplexe motorische Fähigkeiten zu erlernen. LLMs können Belohnungsfunktionen generieren – zentrale Komponenten, die Systeme des verstärkenden Lernens (RL) anleiten, um die optimalen Aktionssequenzen zur Aufgabenerfüllung zu identifizieren. Der Transfer einer erlernten Politik in reale Anwendungen erfordert jedoch oft arbeitsintensive Anpassungen der Belohnungsfunktionen und Simulationsparameter.

Die Lösung von DrEureka

DrEureka zielt darauf ab, den Sim-to-Real-Transferprozess zu optimieren, indem die Gestaltung von Belohnungsfunktionen und Parametern der Domainrandomisierung (DR) automatisiert wird. Aufbauend auf der im Oktober 2023 eingeführten Eureka-Technik nutzt DrEureka LLMs zur Generierung von Softwareimplementierungen von Belohnungsfunktionen basierend auf Aufgabenbeschreibungen. Diese Belohnungsfunktionen werden in Simulationen getestet, und die Ergebnisse fließen in Anpassungen ein, was eine gleichzeitige Optimierung mehrerer Belohnungsfunktionen ermöglicht. Während Eureka das Training von RL-Politiken in simulierten Umgebungen erleichtert, greift es nicht die Komplexitäten realer Szenarien auf und erfordert manuelle Eingriffe für Sim-to-Real-Übergänge. DrEureka verbessert diesen Prozess, indem es die DR-Parameter automatisch konfiguriert. DR-Techniken führen Variabilität in der Simulation ein, wodurch sich RL-Politiken an die Unvorhersehbarkeiten der realen Welt anpassen können. Die Auswahl geeigneter Parameter erfordert gesundes physikalisches Urteilsvermögen, was es zu einer idealen Herausforderung für LLMs macht.

Die Implementierung von DrEureka

DrEureka verfolgt einen mehrstufigen Ansatz zur gleichzeitigen Optimierung von Belohnungsfunktionen und Domainrandomisierung. Zunächst generiert ein LLM Belohnungsfunktionen basierend auf Sicherheitsanweisungen und Aufgabenbeschreibungen. Das Modell nutzt diese Anweisungen zur Entwicklung einer ersten Belohnungsfunktion und erlernt eine Politik ähnlich der der ursprünglichen Eureka-Methode. Anschließend führt es Tests durch, um die optimalen physikalischen Parameter wie Reibung und Schwerkraft zu bestimmen, die die Auswahl der Konfigurationen für die Domainrandomisierung leiten. Die Politik wird daraufhin mit diesen Konfigurationen erneut trainiert, wodurch ihre Robustheit gegenüber realen Störungen verbessert wird. Die Forscher beschreiben DrEureka als "eine von Sprachmodellen gesteuerte Pipeline für den Sim-to-Real-Transfer mit minimalem menschlichen Eingriff".

Leistungsergebnisse

Das Team evaluierte DrEureka an vierbeinigen und geschickten Robotik-Plattformen. Die Ergebnisse zeigten, dass die mit DrEureka trainierten vierbeinigen Lokomotionspolitiken traditionelle, von Menschen entworfene Systeme in der Vorwärtsgeschwindigkeit um 34 % und in der zurückgelegten Distanz über verschiedene Terrainarten um 20 % übertrafen. In Tests zur geschickten Manipulation erreichte die beste von DrEureka entwickelte Politik 300 % mehr Würfelbewegungen in einem festgelegten Zeitraum im Vergleich zu von Menschen entworfenen Politiken.

Eine bemerkenswerte Anwendung von DrEureka betraf einen Robo-Hund, der auf einem Gymnastikball balancierte und lief. Das LLM generierte erfolgreich Belohnungsfunktionen und DR-Konfigurationen, die eine nahtlose Performance in der realen Welt ermöglichten, ohne zusätzliche Anpassungen und mit effektiven Leistungen auf verschiedenen Innen- und Außenflächen bei minimaler Sicherheitsunterstützung. Die Studie zeigte zudem, dass die Einbeziehung von Sicherheitsanweisungen in Aufgabenbeschreibungen einen signifikanten Einfluss auf die logische Kohärenz der vom LLM generierten Anweisungen für den Transfer in die reale Welt hat.

"Wir glauben, dass DrEureka das Potenzial hat, die Forschung zum Lernen von Robotern zu beschleunigen, indem es die komplexen Designelemente der Erwerbung grundlegender Fertigkeiten automatisiert", schlossen die Forscher.

DocuSign erwirbt den KI-gestützten Vertragsmanagement-Anbieter Lexion für 165 Millionen US-Dollar zur Verbesserung der IAM-Plattform.

OpenAI kooperiert mit Stack Overflow zur Verbesserung von KI-Modellen für herausragende Programmierleistungen.

Most people like

15minuteplan.ai

79.7K

Erstellen Sie Ihren KI-Geschäftsplan in nur 15 Minuten Einen soliden Geschäftsplan zu erstellen, muss keine herausfordernde Aufgabe sein. Mit unserem KI-Geschäftsplan-Generator können Sie in nur 15 Minuten mühelos einen umfassenden und maßgeschneiderten Geschäftsplan entwickeln. Egal, ob Sie ein Startup gründen oder Investitionen suchen, unser intuitives Tool führt Sie durch jeden Schritt und sorgt dafür, dass Ihr Plan heraussticht und den Branchenstandards entspricht. Verabschieden Sie sich von Schreibblockaden und begrüßen Sie einen klaren Fahrplan für Ihren Geschäftserfolg!

KI AI Content Generator

PIXEL DOJO

90.9K

Entfessle deine Kreativität, indem du mit den neuesten fortschrittlichen Tools beeindruckende KI-Kunst erschaffst. Entdecke innovative Techniken, die es dir ermöglichen, deine Ideen in visuell fesselnde Meisterwerke zu verwandeln und die Kraft der künstlichen Intelligenz für deinen künstlerischen Ausdruck zu nutzen.

Generative KI AI Photo & Image Generator

Crafter.ai Platform

5.6K

Die Nutzung der Kraft von KI-Chatbots kann Ihre Interaktionen durch personalisierte Gesprächst Erfahrungen revolutionieren. Mit fortschrittlicher Technologie sind diese Chatbots darauf ausgelegt, Benutzer effektiv anzusprechen und maßgeschneiderte Antworten zu liefern, die die Kommunikation verbessern. Entdecken Sie, wie die Integration von KI-Chatbots in Ihre Strategie die Kundenzufriedenheit steigern und bedeutungsvolle Verbindungen fördern kann.

KI-Chatbot AI Chatbot

wizdom.ai

9.3K

Intelligenz für alle erschließen: Wissen und Zugang verbinden In einer Welt, in der Wissen Macht ist, ist es unsere Mission, Intelligenz zu demokratisieren. Wir sind überzeugt, dass jeder die Möglichkeit haben sollte, wertvolle Informationen und Erkenntnisse zu erhalten, unabhängig von seiner Herkunft. Durch das Abbauen von Barrieren und die Förderung des Verständnisses wollen wir Einzelpersonen und Gemeinschaften stärken. Begleiten Sie uns auf diesem Weg, um Intelligenz für alle zugänglich zu machen!

Künstliche Intelligenz AI Analytics Assistant

Find AI tools in YBX