DeepMind의 GenEM은 LLM을 활용하여 표현력 있는 로봇 행동을 생성합니다.

인간은 목표와 의도를 전달하기 위해 표현적인 행동을 자주 사용합니다. 예를 들어, 우리는 동료에게 인사할 때 고개를 끄덕이거나, 불만을 나타내기 위해 고개를 shaking하며, 군중 속을 지나갈 때 "실례합니다"라고 말합니다. 모바일 로봇 또한 원활한 인간 상호작용을 위해 비슷한 표현적인 행동을 해야 하지만, 로봇 공학에서는 여전히 큰 도전 과제가 남아 있으며 기존의 솔루션은 유연성과 적응성이 부족한 경우가 많습니다.

토론토 대학교, Google DeepMind, Hoku Labs의 연구자들이 혁신적인 연구를 통해 GenEM을 소개합니다. GenEM은 대규모 언어 모델(LLMs)에 내재된 풍부한 사회적 맥락을 활용하여 로봇이 표현적인 행동을 수행할 수 있도록 하는 새로운 접근 방식입니다. GenEM은 다양한 프롬프트 방법을 활용하여 로봇이 주변 환경을 해석하고 인간과 유사한 표현을 효과적으로 재현할 수 있도록 합니다.

로봇의 표현적 행동

전통적으로 표현적인 로봇 행동을 생성하기 위해서는 규칙 기반 또는 템플릿 기반 시스템이 필요했으며, 이는 각 로봇과 환경에 대해 상당한 수작업 입력을 요구했습니다. 이러한 경직성으로 인해 변화나 적응이 필요할 경우 광범위한 재프로그래밍이 필요합니다. 현대적인 기술은 더 큰 유연성을 제공하는 데이터 기반 접근 방식으로 이동했지만, 이러한 접근은 종종 각 로봇의 상호작용에 맞춘 특수 데이터셋을 요구했습니다.

GenEM은 LLMs 내의 풍부한 지식을 활용하여 표현적인 행동을 동적으로 생성함으로써 이러한 접근 방식을 재편합니다. 예를 들어, LLMs는 다양한 사회적 맥락에서 아이 컨택트나 고개 끄덕임의 중요성을 인식할 수 있습니다.

“우리는 LLMs의 풍부한 사회적 맥락을 활용하여 적응 가능하고 조합 가능한 표현 행동을 생성하는 것이 핵심 통찰력입니다.”라고 연구자들은 설명합니다.

생성적 표현 운동 (GenEM)

GenEM은 자연어 명령에 따라 자율적으로 표현적인 로봇 행동을 생성하는 LLM 에이전트의 연속을 사용합니다. 각 에이전트는 사회적 맥락에 대해 추론하고 이러한 행동을 로봇을 위한 실행 가능한 API 호출로 변환하는 역할을 합니다.

“GenEM은 로봇의 음성 및 몸짓과 같은 기능을 활용하여 의도를 명확히 표현하는 다양한 행동을 생성할 수 있습니다.”라고 연구자들은 말합니다. “GenEM의 두드러진 특징 중 하나는 실시간 인간 피드백에 적응할 수 있어 반복적인 개선과 새로운 표현 행동의 생성을 가능하게 한다는 점입니다.”

GenEM의 작업 흐름은 자연어 지시로 시작되며, ‘고개를 끄덕여라’와 같은 표현적 행동을 지정하거나, ‘지나가는 사람이 당신에게 손을 흔든다’와 같은 사회적 시나리오를 설정합니다. 초기에는 LLM이 생각의 사슬을 사용하여 인간의 잠재적 반응을 도출합니다. 그 다음 LLM 에이전트가 이를 로봇의 가용 기능을 반영하는 단계별 가이드로 변환하여, 고개 기울이거나 특정 조명 패턴을 트리거하는 행동을 안내합니다.

그 후 절차 지침은 로봇의 API 명령을 기반으로 실행 가능한 코드로 변환됩니다. 추가적인 인간 피드백을 통해 행동을 더욱 세밀하게 조정할 수 있으며, LLM를 훈련할 필요 없이 로봇의 사양에 기반한 프롬프트 조정만으로 이루어집니다.

GenEM 테스트

연구자들은 사용자 피드백을 포함한 GenEM의 두 가지 변형과 전문 애니메이터가 제작한 스크립트 행동을 비교 평가했습니다. OpenAI의 GPT-4를 사용하여 맥락 추론과 표현적 행동 생성을 진행했고, 사용자 반응을 조사했습니다. 그 결과 사용자는 GenEM이 생성한 행동이 전문 애니메이터의 행동과 동등하게 이해 가능하다고 평가했습니다. 또한 GenEM의 모듈식 다단계 접근 방식이 이전의 단일 LLM 접근 방식을 크게 능가했습니다.

특히 GenEM의 프롬프트 기반 설계는 전문 데이터셋 없이는 어떤 로봇 유형에도 적응할 수 있습니다. 간단한 로봇 동작에서 복잡한 표현 행동을 생성하는 데 LLM 추론을 효과적으로 활용합니다.

“우리의 프레임워크는 컨텍스트 학습 및 몇 가지 샷 프롬프트를 통해 표현 행동을 빠르게 생성하며, 이전 방법에서와 같이 큐레이션된 데이터셋이나 복잡한 규칙 제작의 필요성을 크게 줄입니다.”라고 연구자는 결론지었습니다.

GenEM은 아직 초기 단계에 있으며 주로 단일 인터랙티브 시나리오와 제한된 행동 공간에서 테스트되었습니다. 보다 다양한 기본 동작을 가진 로봇에서 탐구의 가능성이 있으며, 대규모 언어 모델은 이러한 능력을 더욱 향상시킬 것을 약속합니다.

“우리는 우리의 접근 방식이 대규모 언어 모델의 힘을 활용하여 적응 가능하고 조합 가능한 표현 동작을 생성하는 유연한 프레임워크를 제공한다고 믿습니다.” 연구자들은 최종적으로 덧붙입니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles