대규모 언어 모델(LLMs)은 Nvidia, 펜실베이니아 대학교, 텍사스 대학교 오스틴 캠퍼스의 최근 연구에서 로봇 시스템 교육에 혁신적인 변화를 가져오고 있습니다. 이 연구는 로봇 시스템을 위한 보상 함수와 무작위화 분포의 자동 생성을 가능하게 하는 획기적인 기술인 DrEureka를 소개합니다. DrEureka(도메인 무작위화 유레카의 약자)는 고급 작업 설명만 필요로 하며, 전통적인 인간 설계 보상을 초월하여 시뮬레이션에서 실제 애플리케이션으로 학습된 정책을 더 잘 전이합니다.
시뮬레이션에서 현실로의 전이
로봇공학에서 정책은 일반적으로 시뮬레이션 환경에서 훈련된 후 실제 세계에 배치됩니다. 이러한 학습된 정책을 전이하는 과정에서 발생하는 문제, 일명 '시뮬레이션-현실 간 간격'은 시뮬레이션과 실제 조건 간의 세밀한 조정을 요구합니다. 최근의 발전은 LLM이 방대한 지식과 추론 능력을 활용하여 복잡한 운동 기술을 학습할 수 있음을 보여주었습니다. LLM은 보상 함수를 생성하여 강화 학습(RL) 시스템이 작업을 수행하기 위한 최적의 행동 순서를 식별할 수 있도록 돕습니다.
하지만, 학습된 정책을 실제 애플리케이션으로 전이하는 데에는 보상 함수와 시뮬레이션 매개변수에 대한 노동 집약적인 조정이 필요합니다.
DrEureka의 해결책
DrEureka는 보상 함수와 도메인 무작위화(DR) 매개변수 설계를 자동화하여 시뮬레이션에서 현실로의 전환 과정을 간소화하는 것을 목표로 합니다. 2023년 10월에 소개된 유레카 기술을 기반으로 하여, DrEureka는 LLM을 활용해 작업 설명에 따른 보상 함수의 소프트웨어 구현을 생성합니다. 이러한 보상 함수는 시뮬레이션에서 테스트되며, 결과는 수정 사항을 반영하여 다수의 보상 함수를 동시에 최적화할 수 있게 합니다.
유레카는 시뮬레이션 환경에서 RL 정책 훈련을 용이하게 하지만, 실제 상황의 복잡성에는 대응하지 않으며 시뮬레이션에서 현실로의 전이에 수작업 개입이 필요합니다. DrEureka는 DR 매개변수를 자동으로 설정하여 이 과정을 향상시킵니다. DR 기술은 시뮬레이션에 변동성을 도입하여 RL 정책이 현실의 예측 불가능성에 적응하도록 돕습니다. 적절한 매개변수 선택은 상식적인 물리적 추론이 필요하며, 이는 LLM에 이상적인 도전 과제가 됩니다.
DrEureka의 구현
DrEureka는 보상 함수와 도메인 무작위화를 동시에 최적화하기 위해 다단계 접근 방식을 사용합니다. 처음에 LLM은 안전 지침과 작업 설명을 기반으로 보상 함수를 생성합니다. 모델은 이러한 지침을 사용하여 초기 보상 함수를 개발하고, 원래 유레카 방법과 유사한 정책을 학습합니다. 그런 다음 마찰과 중력 같은 최적의 물리 매개변수를 결정하기 위한 테스트를 실시하여 도메인 무작위화 구성 선택을 안내합니다. 이후 이러한 구성으로 정책을 재훈련시켜 실제 세계의 소음에 대한 강인성을 높입니다.
연구팀은 DrEureka를 "인간의 개입을 최소화한 시뮬레이션-현실 전이를 위한 언어 모델 기반 파이프라인"이라고 설명합니다.
성과 결과
팀은 DrEureka를 사용하여 4족 보행 및 손재주 로봇 플랫폼에서 평가했습니다. 결과는 DrEureka로 훈련된 4족 보행 정책이 전통적인 인간 설계 시스템에 비해 전진 속도에서 34%, 주행 거리에서 20% 향상된 성과를 보였음을 나타냅니다. 손재주 조작 테스트에서는 DrEureka로 개발된 최상의 정책이 인간이 만든 정책보다 같은 시간에 300% 더 많은 큐브 회전을 달성했습니다.
특히, DrEureka의 적용 사례 중 하나는 로봇 개가 요가 볼 위에서 균형을 잡고 걷는 것이었습니다. LLM은 보상 함수와 DR 구성을 성공적으로 만들어내어 추가 조정 없이 원활한 실제 성능을 가능하게 하였으며, 다양한 실내 및 실외 표면에서 효과적으로 작동했습니다.
연구는 또한 작업 설명에 안전 지침을 포함시키는 것이 LLM이 생성한 실제 전이를 위한 지침의 논리적 일관성에 큰 영향을 미친다는 사실을 밝혀냈습니다.
"우리는 DrEureka가 저차원 기술 습득의 복잡한 설계 요소를 자동화함으로써 로봇 학습 연구를 가속화할 잠재력을 보여준다고 믿습니다,"라고 연구자들은 결론지었습니다.