물리적 세계와 상호작용할 수 있는 체화 AI 에이전트는 다양한 응용 분야에서 막대한 잠재력을 지니고 있습니다. 그러나 주요 장애물 중 하나는 제한된 학습 데이터입니다. 이 문제를 해결하기 위해 런던 임페리얼 대학교와 Google DeepMind의 연구자들은 확산 증강 에이전트(DAAG) 프레임워크를 도입했습니다. 이 혁신적인 접근은 대형 언어 모델(LLMs), 비전 언어 모델(VLMs), 확산 모델의 기능을 활용하여 체화 에이전트의 학습 효율성과 전이 학습 능력을 향상시키는 것을 목표로 합니다.
체화 에이전트에게 데이터 효율성이 중요한 이유는 무엇인가요?
최근 LLM과 VLM의 발전은 로봇 공학과 체화 AI의 활용 가능성에 대한 기대를 높이고 있습니다. 이러한 모델은 인터넷에서 수집된 방대한 텍스트와 이미지 데이터셋으로 학습할 수 있지만, 체화 AI 시스템은 물리적 상호작용을 통해 학습해야 합니다. 현실 세계는 체화 AI에서 데이터 수집에 독특한 도전을 제공합니다. 물리적 환경은 디지털 영역보다 훨씬 복잡하고 예측 불가능합니다. 또한 로봇과 기타 체화 AI는 느리고, 잡음이 많으며, 고장에 취약한 물리적 센서와 구동장치에 의존합니다.
연구자들은 이러한 도전 과제를 극복하기 위해 에이전트의 기존 데이터와 경험을 최적화해야 한다고 주장합니다. 그들은 “체화 에이전트가 이전 경험을 활용하여 효과적으로 탐색하고 작업 간 지식을 전이함으로써 데이터 효율성을 극대화할 수 있다고 가정합니다.”라고 설명합니다.
DAAG란 무엇인가요?
확산 증강 에이전트(DAAG) 프레임워크는 에이전트가 과거 경험을 활용하고 합성 데이터를 생성하여 과제를 보다 효율적으로 학습하도록 돕도록 설계되었습니다. 연구자들은 에이전트가 외부 보상 없이도 자율적으로 하위 목표를 설정하고 평가하도록 하고, 이전 경험을 재활용하여 새로운 과제에 대한 학습 속도를 높이고자 합니다.
DAAG는 마코프 결정 프로세스(MDP) 내에서 작동하며, 각 에피소드의 시작에서 에이전트는 작업 지침을 받고, 환경을 관찰하며, 이러한 지침에 맞는 상태에 도달하기 위해 행동합니다. 두 개의 메모리 버퍼를 사용하며, 현재 경험을 위한 작업별 버퍼와 모든 이전 경험을 위한 "오프라인 평생 버퍼"가 있습니다.
DAAG는 LLM, VLM, 그리고 확산 모델의 강점을 결합하여 이전 경험을 재사용하여 새로운 목표를 효율적으로 학습할 수 있는 에이전트를 만듭니다. LLM은 중앙 제어기로 작용하여 새로운 작업 지침을 해석하고 이를 더 작은 하위 목표로 나누며, VLM 및 확산 모델과 협력하여 목표를 달성합니다.
과거 경험의 유용성을 극대화하기 위해 DAAG는 후향 경험 증강(HEA)이라는 방법을 사용합니다. VLM은 경험 버퍼에서 시각적 관찰을 처리하고 이를 원하는 하위 목표와 비교하여 에이전트의 기억을 향상시킵니다. relevante 경험이 부족할 경우, 확산 모델은 합성 데이터를 생성하여 에이전트가 잠재적 결과를 시각화할 수 있도록 하여 직접적인 물리적 상호작용 없이도 탐색할 수 있도록 합니다. 연구자들은 “HEA를 통해 에이전트의 버퍼에 저장된 성공적인 에피소드 수를 합성적으로 증가시킬 수 있어 데이터의 재사용이 효과ively 이루어지고, 특히 여러 작업을 연속적으로 학습할 때 효율성이 크게 증가합니다.”라고 설명합니다.
그들은 DAAG와 HEA를 인간의 감독 없이 독립적으로 작동하는 자율 파이프라인으로 설명하며, 신뢰할 수 있는 증강 관찰을 생성하기 위해 기하학적 및 시간적 일관성을 활용합니다.
DAAG의 장점은 무엇인가요?
다양한 벤치마크와 시뮬레이션 환경에서의 평가에서, 연구자들은 DAAG가 탐색 및 물체 조작과 같은 작업에서 전통적인 강화 학습 시스템을 크게 능가한다는 것을 발견했습니다. 특히 DAAG 기반 에이전트는 명시적 보상 없이도 목표에 도달하며, 목표를 더 빠르게 달성하고 비DAAG 에이전트에 비해 환경과의 상호작용이 적은 것으로 나타났습니다.
이 프레임워크는 이전 작업에서 데이터를 재사용하는 데 뛰어나 새로운 목표의 신속한 학습을 촉진합니다. 작업 간 지식을 전이하는 능력은 지속적인 학습과 적응이 가능한 에이전트를 만드는 데 필수적입니다. DAAG의 전이 학습 최적화 효과는 더 견고하고 유연한 로봇 및 체화 AI 시스템의 가능성을 열어줍니다. 연구자들은 “이번 연구는 로봇 학습에서 데이터 부족 문제를 해결하고 더 넓은 범위의 능력을 가진 에이전트를 개발하기 위한 유망한 방향성을 제시합니다.”라고 결론짓습니다.