Nvidia의 DrEureka, 로봇 시스템 훈련에서 인간 성능 초월

Home AI 뉴스 Nvidia의 DrEureka, 로봇 시스템 훈련에서 인간 성능 초월

대규모 언어 모델(LLMs)은 Nvidia, 펜실베이니아 대학교, 텍사스 대학교 오스틴 캠퍼스의 최근 연구에서 로봇 시스템 교육에 혁신적인 변화를 가져오고 있습니다. 이 연구는 로봇 시스템을 위한 보상 함수와 무작위화 분포의 자동 생성을 가능하게 하는 획기적인 기술인 DrEureka를 소개합니다. DrEureka(도메인 무작위화 유레카의 약자)는 고급 작업 설명만 필요로 하며, 전통적인 인간 설계 보상을 초월하여 시뮬레이션에서 실제 애플리케이션으로 학습된 정책을 더 잘 전이합니다.

시뮬레이션에서 현실로의 전이

로봇공학에서 정책은 일반적으로 시뮬레이션 환경에서 훈련된 후 실제 세계에 배치됩니다. 이러한 학습된 정책을 전이하는 과정에서 발생하는 문제, 일명 '시뮬레이션-현실 간 간격'은 시뮬레이션과 실제 조건 간의 세밀한 조정을 요구합니다. 최근의 발전은 LLM이 방대한 지식과 추론 능력을 활용하여 복잡한 운동 기술을 학습할 수 있음을 보여주었습니다. LLM은 보상 함수를 생성하여 강화 학습(RL) 시스템이 작업을 수행하기 위한 최적의 행동 순서를 식별할 수 있도록 돕습니다.

하지만, 학습된 정책을 실제 애플리케이션으로 전이하는 데에는 보상 함수와 시뮬레이션 매개변수에 대한 노동 집약적인 조정이 필요합니다.

DrEureka의 해결책

DrEureka는 보상 함수와 도메인 무작위화(DR) 매개변수 설계를 자동화하여 시뮬레이션에서 현실로의 전환 과정을 간소화하는 것을 목표로 합니다. 2023년 10월에 소개된 유레카 기술을 기반으로 하여, DrEureka는 LLM을 활용해 작업 설명에 따른 보상 함수의 소프트웨어 구현을 생성합니다. 이러한 보상 함수는 시뮬레이션에서 테스트되며, 결과는 수정 사항을 반영하여 다수의 보상 함수를 동시에 최적화할 수 있게 합니다.

유레카는 시뮬레이션 환경에서 RL 정책 훈련을 용이하게 하지만, 실제 상황의 복잡성에는 대응하지 않으며 시뮬레이션에서 현실로의 전이에 수작업 개입이 필요합니다. DrEureka는 DR 매개변수를 자동으로 설정하여 이 과정을 향상시킵니다. DR 기술은 시뮬레이션에 변동성을 도입하여 RL 정책이 현실의 예측 불가능성에 적응하도록 돕습니다. 적절한 매개변수 선택은 상식적인 물리적 추론이 필요하며, 이는 LLM에 이상적인 도전 과제가 됩니다.

DrEureka의 구현

DrEureka는 보상 함수와 도메인 무작위화를 동시에 최적화하기 위해 다단계 접근 방식을 사용합니다. 처음에 LLM은 안전 지침과 작업 설명을 기반으로 보상 함수를 생성합니다. 모델은 이러한 지침을 사용하여 초기 보상 함수를 개발하고, 원래 유레카 방법과 유사한 정책을 학습합니다. 그런 다음 마찰과 중력 같은 최적의 물리 매개변수를 결정하기 위한 테스트를 실시하여 도메인 무작위화 구성 선택을 안내합니다. 이후 이러한 구성으로 정책을 재훈련시켜 실제 세계의 소음에 대한 강인성을 높입니다.

연구팀은 DrEureka를 "인간의 개입을 최소화한 시뮬레이션-현실 전이를 위한 언어 모델 기반 파이프라인"이라고 설명합니다.

성과 결과

팀은 DrEureka를 사용하여 4족 보행 및 손재주 로봇 플랫폼에서 평가했습니다. 결과는 DrEureka로 훈련된 4족 보행 정책이 전통적인 인간 설계 시스템에 비해 전진 속도에서 34%, 주행 거리에서 20% 향상된 성과를 보였음을 나타냅니다. 손재주 조작 테스트에서는 DrEureka로 개발된 최상의 정책이 인간이 만든 정책보다 같은 시간에 300% 더 많은 큐브 회전을 달성했습니다.

특히, DrEureka의 적용 사례 중 하나는 로봇 개가 요가 볼 위에서 균형을 잡고 걷는 것이었습니다. LLM은 보상 함수와 DR 구성을 성공적으로 만들어내어 추가 조정 없이 원활한 실제 성능을 가능하게 하였으며, 다양한 실내 및 실외 표면에서 효과적으로 작동했습니다.

연구는 또한 작업 설명에 안전 지침을 포함시키는 것이 LLM이 생성한 실제 전이를 위한 지침의 논리적 일관성에 큰 영향을 미친다는 사실을 밝혀냈습니다.

"우리는 DrEureka가 저차원 기술 습득의 복잡한 설계 요소를 자동화함으로써 로봇 학습 연구를 가속화할 잠재력을 보여준다고 믿습니다,"라고 연구자들은 결론지었습니다.

도큐사인, IAM 플랫폼 강화를 위해 AI 기반 계약 관리 제공업체 렉시온 인수 - 1억 6,500만 달러 투자

OpenAI, Stack Overflow와 협력하여 AI 모델을 코딩 우수성 향상시킵니다.

Most people like

Maket

184.3K

Maket은 생성형 AI를 통해 건축 디자인을 혁신하는 소프트웨어로, 평면도 생성 자동화를 지원하고 다양한 스타일 탐색을 가능하게 합니다.

생성적 디자인 AI Design Generator

emoji.is

63.2K

AI 기술로 텍스트를 이모지로 원활하게 변환합니다.

이모지 AI Emoji Generator

AI Virtual Staging

11.6K

부동산 이미지 즉시 연출: 귀하의 매물 목록을 손쉽게 변모시키세요 빠르고 전문적인 이미지 연출로 부동산 목록의 시각적 매력을 높이세요. 첫인상이 중요한 시장에서, 우리의 혁신적인 솔루션은 몇 초 만에 인상적인 이미지를 생성하여 귀하의 매물을 잠재 구매자에게 돋보이게 합니다. 부동산 중개인이나 주택 소유자라면, 빠른 연출이 귀하의 마케팅 전략을 어떻게 강화하고 목록에 대한 관심을 끌 수 있는지 알아보세요.

인공지능 Other

Promptzone

32.8K

혁신적인 플랫폼에 오신 것을 환영합니다. 여기서는 공유된 아이디어의 힘을 통해 창의성을 키우는 데 전념하고 있습니다. 사용자들은 작가, 예술가, 사상가에게 영감을 주기 위해 고안된 다양한 창작 프롬프트 컬렉션을 탐색할 수 있습니다. 활기찬 커뮤니티와 연결됨으로써 독특한 프롬프트를 발견하고, 자신의 아이디어를 공유해 모두의 창의적 경험을 풍부하게 할 수 있습니다. 오늘 저희와 함께 상상력을 발휘하고 창작 프로젝트를 한 단계 끌어올리세요!

창의적인 프롬프트 Prompt

Find AI tools in YBX