도쿄 대학과 Alternative Machine의 연구팀은 자연어 명령을 로봇 행동으로 직접 변환할 수 있는 휴머노이드 로봇 시스템인 Alter3를 개발했습니다. GPT-4와 같은 대규모 언어 모델(LLMs)에 내장된 방대한 지식을 활용하여 Alter3는 셀카 촬영이나 유령 역할 시뮬레이션과 같은 복잡한 작업을 수행할 수 있습니다. 이 혁신은 기본 모델과 로봇 시스템의 통합에서 중요한 진전을 나타냅니다. 상용 솔루션이 곧 등장할 가능성은 크지만, 최근의 진전은 로봇 연구에 활력을 불어넣고 있습니다.
언어를 로봇 행동으로 변환하기
Alter3는 GPT-4를 핵심 모델로 사용하여, 로봇이 반응할 수 있는 행동이나 상황을 설명하는 자연어 지침을 처리합니다. 모델은 "행위 프레임워크"를 활용하여 특정 목표를 달성하기 위한 일련의 행동 단계를 설계합니다. 초기에는 플래너로 작동하여 원하는 작업에 필요한 순서를 결정합니다.
Alter3는 다양한 GPT-4 프롬프트 형식을 사용하여 지침을 분석하고 이를 로봇 명령으로 매핑합니다. GPT-4는 Alter3의 프로그래밍 명령에 대한 특정 교육을 받지 않았기 때문에, 연구자들은 맥락 학습을 활용하여 로봇의 API에 맞게 출력을 조정합니다. 이를 위해 명령 목록과 사용 예시를 제공하여 각 행동 단계를 로봇이 실행 가능한 API 명령으로 변환할 수 있도록 합니다.
“이전에는 인간의 자세를 복제하거나 차를 서빙하거나 체스를 두는 등 특정 순서로 43개의 축을 수동으로 제어했습니다,”라고 연구진은 설명합니다. “하지만 LLM 덕분에 우리는 이 노동 집약적인 과정을 벗어날 수 있었습니다.”
인간 피드백의 통합
언어가 물리적 움직임을 세부적으로 설명하기에는 부정확할 수 있으므로 모델이 생성하는 행동 시퀀스가 항상 의도한 로봇 행동을 일으키지는 않을 수 있습니다. 이를 해결하기 위해 연구자들은 사용자가 명령을 다듬을 수 있는 피드백 메커니즘을 통합했습니다. 예를 들어 “팔을 좀 더 높이 들어라”와 같은 수정을 통해 또 다른 GPT-4 에이전트가 코드를 조정하고 수정된 행동 시퀀스를 로봇 실행을 위해 반환합니다. 향상된 계획과 코드는 미래에 활용될 수 있도록 저장됩니다.
인간 피드백과 기억의 통합은 Alter3의 성능을 크게 향상시킵니다. 연구팀은 로봇의 간단한 작업부터 셀카 촬영과 차를 마시기, 더 복잡한 유령이나 뱀처럼 행동하는 모방 작업까지 다양한 과제로 평가하였습니다. 이 모델은 복잡한 계획이 필요한 상황도 관리할 수 있는 능력을 보여주었습니다.
“LLM의 훈련은 다양한 언어적 표현을 포함하고 있습니다. GPT-4는 이러한 표현을 Alter3의 명령으로 정확하게 변환합니다,”라고 팀은 설명합니다.
GPT-4는 인간 행동에 대한 방대한 이해를 바탕으로, 휴머노이드 로봇을 위한 현실적인 행동 계획을 효과적으로 생성할 수 있습니다. 실험에서는 Alter3에 부끄러움과 기쁨과 같은 감정 표현을 주입하는 데 성공했습니다.
“감정 신호를 명시적으로 언급하지 않은 텍스트에서도 LLM은 적절한 감정을 추론하여 Alter3의 신체 반응에 반영합니다,”라고 연구자들은 강조합니다.
로봇 모델의 발전
로봇 연구에서 기본 모델의 도입이 빠르게 확산되고 있습니다. 예를 들어, 26억 달러의 가치를 지닌 Figure는 OpenAI 모델을 사용하여 인간 명령을 해석하고 이에 따른 실제 작업을 수행합니다. 다중 모달 기능이 발전하면서 로봇 시스템은 환경적 추론과 의사 결정 능력을 향상시킬 수 있게 되었습니다.
Alter3는 기본 모델이 로봇 제어 시스템 내에서 추론 및 계획 모듈로 작용하는 경향을 보여줍니다. 특히 GPT-4의 세밀한 조정 버전 없이 작동하므로, 이 코드는 다른 휴머노이드 로봇에도 적용할 수 있습니다.
RT-2-X 및 OpenVLA와 같은 프로젝트는 로봇 명령을 직접 생성하도록 설계된 전문 기본 모델을 활용합니다. 이러한 모델은 더 안정적인 결과를 제공하고 다양한 작업과 환경에서 일반화되는 경향이 있지만, 높은 기술 전문성과 개발 비용을 요구합니다.
그렇지만 이러한 이니셔티브에서 종종 간과되는 한 가지 중요한 측면은 로봇이 물체를 잡거나 균형을 유지하고 환경을 탐색하는 기본 작업을 수행할 수 있도록 하는 기본적인 도전입니다. “상당한 양의 작업이 이러한 모델이 다루는 것 이하의 수준에서 이루어집니다,”라고 AI 및 로봇 과학자 Chris Paxton은 최근 인터뷰에서 언급했습니다. “그것이 바로 많은 난제의 요인으로 작용하며, 주로 기존 데이터의 부족 때문입니다.”