Modelos de linguagem de grande escala (LLMs) estão revolucionando o treinamento de sistemas robóticos de maneiras significativas, conforme destacado por pesquisas recentes da Nvidia, da Universidade da Pensilvânia e da Universidade do Texas em Austin. O estudo apresenta o DrEureka, uma técnica inovadora que automatiza a criação de funções de recompensa e distribuições de randomização para sistemas robóticos. DrEureka, que significa Domain Randomization Eureka, requer apenas uma descrição de tarefa de alto nível e supera recompensas tradicionais projetadas por humanos na transferência de políticas aprendidas de simulações para aplicações do mundo real.
Transferência Sim-to-Real
Na robótica, políticas são geralmente treinadas em ambientes simulados antes de serem implementadas no mundo real. O desafio de transferir essas políticas aprendidas, frequentemente chamado de "gap sim-to-real", exige ajustes extensivos entre as simulações e as condições reais. Avanços recentes mostram que os LLMs podem aproveitar seu vasto conhecimento e habilidades de raciocínio, junto com os motores de física das simuladores virtuais, para aprender habilidades motoras complexas. Os LLMs conseguem gerar funções de recompensa, componentes essenciais que orientam sistemas de aprendizado por reforço (RL), para identificar as sequências ideais de ações necessárias para concluir tarefas. No entanto, a transferência de uma política aprendida para aplicações reais muitas vezes envolve ajustes laboriosos às funções de recompensa e parâmetros de simulação.
A Solução do DrEureka
O DrEureka visa otimizar o processo de transferência sim-to-real automatizando o design das funções de recompensa e dos parâmetros de randomização de domínio (DR). Com base na técnica Eureka introduzida em outubro de 2023, o DrEureka utiliza LLMs para gerar implementações de software de funções de recompensa com base em descrições de tarefas. Essas funções de recompensa são testadas em simulações, e os resultados informam modificações, permitindo a otimização simultânea de várias funções de recompensa. Enquanto o Eureka facilita o treinamento de políticas RL em ambientes simulados, não aborda as complexidades dos cenários do mundo real e requer intervenção manual para transições sim-to-real. O DrEureka melhora esse processo configurando automaticamente os parâmetros de DR. As técnicas de DR introduzem variabilidade na simulação, permitindo que as políticas RL se adaptem à imprevisibilidade do mundo real. A seleção dos parâmetros apropriados exige raciocínio físico comum, tornando-se um desafio ideal para LLMs.
Implementação do DrEureka
O DrEureka adota uma abordagem de várias etapas para otimizar funções de recompensa e randomização de domínio simultaneamente. Inicialmente, um LLM gera funções de recompensa com base em instruções de segurança e descrições de tarefa. O modelo utiliza essas instruções para desenvolver uma função de recompensa inicial, aprendendo uma política semelhante à do método Eureka original. Em seguida, realiza testes para determinar os parâmetros físicos ideais, como fricção e gravidade, que orientam a seleção das configurações de randomização de domínio. A política é retrainada com essas configurações, aumentando sua robustez contra ruídos do mundo real. Os pesquisadores descrevem o DrEureka como um "pipeline impulsionado por modelos de linguagem para transferência sim-to-real com intervenção humana mínima".
Resultados de Desempenho
A equipe avaliou o DrEureka em plataformas robóticas quadrúpedes e de manipulação dexterosa. Os resultados demonstraram que as políticas de locomoção quadrúpede treinadas com DrEureka superaram sistemas tradicionais projetados por humanos em 34% na velocidade para frente e 20% na distância percorrida em terrenos variados. Em testes de manipulação dexterosa, a melhor política desenvolvida pelo DrEureka conseguiu 300% mais rotações de cubos em um período fixo do que políticas criadas por humanos. Uma aplicação notável do DrEureka envolveu um robo-cachorro equilibrando e caminhando sobre uma bola de yoga. O LLM elaborou com sucesso funções de recompensa e configurações de DR que possibilitaram um desempenho fluido no mundo real, sem a necessidade de ajustes adicionais, atuando efetivamente em superfícies internas e externas diversas com suporte mínimo de segurança. O estudo também revelou que incluir instruções de segurança nas descrições das tarefas influencia significativamente a coerência lógica das instruções geradas pelo LLM para a transferência para o mundo real.
"Acreditamos que o DrEureka demonstra o potencial de acelerar a pesquisa em aprendizado de robôs ao automatizar os complexos elementos de design da aquisição de habilidades de nível básico", concluíram os pesquisadores.