Nvidia의 DrEureka, 로봇 시스템 훈련에서 인간 성능 초월

Home AI 뉴스 Nvidia의 DrEureka, 로봇 시스템 훈련에서 인간 성능 초월

대규모 언어 모델(LLMs)은 Nvidia, 펜실베이니아 대학교, 텍사스 대학교 오스틴 캠퍼스의 최근 연구에서 로봇 시스템 교육에 혁신적인 변화를 가져오고 있습니다. 이 연구는 로봇 시스템을 위한 보상 함수와 무작위화 분포의 자동 생성을 가능하게 하는 획기적인 기술인 DrEureka를 소개합니다. DrEureka(도메인 무작위화 유레카의 약자)는 고급 작업 설명만 필요로 하며, 전통적인 인간 설계 보상을 초월하여 시뮬레이션에서 실제 애플리케이션으로 학습된 정책을 더 잘 전이합니다.

시뮬레이션에서 현실로의 전이

로봇공학에서 정책은 일반적으로 시뮬레이션 환경에서 훈련된 후 실제 세계에 배치됩니다. 이러한 학습된 정책을 전이하는 과정에서 발생하는 문제, 일명 '시뮬레이션-현실 간 간격'은 시뮬레이션과 실제 조건 간의 세밀한 조정을 요구합니다. 최근의 발전은 LLM이 방대한 지식과 추론 능력을 활용하여 복잡한 운동 기술을 학습할 수 있음을 보여주었습니다. LLM은 보상 함수를 생성하여 강화 학습(RL) 시스템이 작업을 수행하기 위한 최적의 행동 순서를 식별할 수 있도록 돕습니다.

하지만, 학습된 정책을 실제 애플리케이션으로 전이하는 데에는 보상 함수와 시뮬레이션 매개변수에 대한 노동 집약적인 조정이 필요합니다.

DrEureka의 해결책

DrEureka는 보상 함수와 도메인 무작위화(DR) 매개변수 설계를 자동화하여 시뮬레이션에서 현실로의 전환 과정을 간소화하는 것을 목표로 합니다. 2023년 10월에 소개된 유레카 기술을 기반으로 하여, DrEureka는 LLM을 활용해 작업 설명에 따른 보상 함수의 소프트웨어 구현을 생성합니다. 이러한 보상 함수는 시뮬레이션에서 테스트되며, 결과는 수정 사항을 반영하여 다수의 보상 함수를 동시에 최적화할 수 있게 합니다.

유레카는 시뮬레이션 환경에서 RL 정책 훈련을 용이하게 하지만, 실제 상황의 복잡성에는 대응하지 않으며 시뮬레이션에서 현실로의 전이에 수작업 개입이 필요합니다. DrEureka는 DR 매개변수를 자동으로 설정하여 이 과정을 향상시킵니다. DR 기술은 시뮬레이션에 변동성을 도입하여 RL 정책이 현실의 예측 불가능성에 적응하도록 돕습니다. 적절한 매개변수 선택은 상식적인 물리적 추론이 필요하며, 이는 LLM에 이상적인 도전 과제가 됩니다.

DrEureka의 구현

DrEureka는 보상 함수와 도메인 무작위화를 동시에 최적화하기 위해 다단계 접근 방식을 사용합니다. 처음에 LLM은 안전 지침과 작업 설명을 기반으로 보상 함수를 생성합니다. 모델은 이러한 지침을 사용하여 초기 보상 함수를 개발하고, 원래 유레카 방법과 유사한 정책을 학습합니다. 그런 다음 마찰과 중력 같은 최적의 물리 매개변수를 결정하기 위한 테스트를 실시하여 도메인 무작위화 구성 선택을 안내합니다. 이후 이러한 구성으로 정책을 재훈련시켜 실제 세계의 소음에 대한 강인성을 높입니다.

연구팀은 DrEureka를 "인간의 개입을 최소화한 시뮬레이션-현실 전이를 위한 언어 모델 기반 파이프라인"이라고 설명합니다.

성과 결과

팀은 DrEureka를 사용하여 4족 보행 및 손재주 로봇 플랫폼에서 평가했습니다. 결과는 DrEureka로 훈련된 4족 보행 정책이 전통적인 인간 설계 시스템에 비해 전진 속도에서 34%, 주행 거리에서 20% 향상된 성과를 보였음을 나타냅니다. 손재주 조작 테스트에서는 DrEureka로 개발된 최상의 정책이 인간이 만든 정책보다 같은 시간에 300% 더 많은 큐브 회전을 달성했습니다.

특히, DrEureka의 적용 사례 중 하나는 로봇 개가 요가 볼 위에서 균형을 잡고 걷는 것이었습니다. LLM은 보상 함수와 DR 구성을 성공적으로 만들어내어 추가 조정 없이 원활한 실제 성능을 가능하게 하였으며, 다양한 실내 및 실외 표면에서 효과적으로 작동했습니다.

연구는 또한 작업 설명에 안전 지침을 포함시키는 것이 LLM이 생성한 실제 전이를 위한 지침의 논리적 일관성에 큰 영향을 미친다는 사실을 밝혀냈습니다.

"우리는 DrEureka가 저차원 기술 습득의 복잡한 설계 요소를 자동화함으로써 로봇 학습 연구를 가속화할 잠재력을 보여준다고 믿습니다,"라고 연구자들은 결론지었습니다.

도큐사인, IAM 플랫폼 강화를 위해 AI 기반 계약 관리 제공업체 렉시온 인수 - 1억 6,500만 달러 투자

OpenAI, Stack Overflow와 협력하여 AI 모델을 코딩 우수성 향상시킵니다.

Most people like

PostgresML

26.1K

빠르고 사용자 친화적이며 강력한 MLOps 플랫폼을 소개합니다. 머신러닝 운영을 간편하게 해주는 이 플랫폼으로 작업 흐름에서 매끄러운 통합과 향상된 효율성을 경험해 보세요.

MLOps AI Developer Tools

Pixfun

틱톡과 페이스북을 위한 최고의 AI 비디오 애니메이션 도구 최첨단 AI 비디오 애니메이션 도구로 소셜 미디어 존재감을 극대화하세요. 이 혁신적인 기술은 크리에이터와 마케터가 관객을 사로잡는 매력적이고 고품질의 애니메이션을 손쉽게 제작할 수 있도록 해줍니다. 브랜드 가시성을 높이거나 팔로워를 즐겁게 하고 싶다면, 적절한 AI 도구가 콘텐츠를 한층 더 돋보이게 만들어 줄 것입니다. 오늘 당장 비디오 프로젝트를 변형시킬 수 있는 최고의 옵션을 알아보세요!

AI 애니메이션 AI Anime & Cartoon Generator

Wenxin Yiyan

20.5M

AI 콘텐츠 파트너의 힘을 발견하여 복잡한 카피라이팅과 매력적인 대화를 강화하세요. 매력적인 마케팅 카피를 작성하거나 지능형 채팅 보조자가 필요하신 경우, 우리의 AI 솔루션은 귀하의 커뮤니케이션을 향상시키고 창의적인 프로세스를 간소화하도록 설계되었습니다. 첨단 기술로 새로운 가능성을 열어보세요!

AI 콘텐츠 생성 Large Language Models (LLMs)

Paraphrase Tool

331.1K

패러프레이즈 도구 소개: 무료 온라인 패러프레이징, 문법 검사 및 표절 제거를 위한 필수 자원. 100개 이상의 언어로 제공되며, 글쓰기의 명확성과 독창성을 손쉽게 향상시킵니다.

기타 AI Plagiarism Checker

Find AI tools in YBX