기초 모델은 컴퓨터 비전과 자연어 처리를 혁신적으로 변화시켰으며, 이제 연구자들은 이러한 원칙을 적용하여 기초 에이전트를 개발할 것을 제안하고 있습니다. 이러한 AI 시스템은 물리적 환경에서의 개방형 의사결정 작업을 위해 설계되었습니다. 최근 중국 과학 아카데미의 과학자들이 발표한 직책 논문에서는 기초 에이전트를 "물리적 세계와 가상 세계에서 일반적으로 능력을 가진 에이전트"로 정의하고 있습니다. 그들은 이러한 에이전트가 대규모 언어 모델(LLM)이 언어 및 지식 중심 작업을 혁신한 것과 유사하게 의사결정의 패러다임 전환으로 이어질 수 있다고 제안합니다.
기초 에이전트는 다양한 AI 시스템의 개발을 단순화하여 현재 경직된 작업 중심의 AI 솔루션에 의존하고 있는 여러 분야에 중대한 영향을 미칠 수 있는 잠재력을 가지고 있습니다.
AI 의사결정의 도전 과제
전통적인 AI 의사결정 방식은 분명한 한계를 가지고 있습니다. 전문가 시스템은 형식적인 인간 지식과 수작업으로 생성된 규칙에 의존합니다. 강화 학습(RL) 시스템은 각 새로운 작업에 대해 처음부터 광범위한 훈련이 필요하여 일반화 능력을 제한합니다. 모방 학습(IL)은 훈련 예시를 준비하는 데 상당한 인간 노력이 필요합니다. 이에 반해, LLM과 비전 언어 모델(VLM)은 최소한의 미세 조정으로 다양한 작업에 신속하게 적응할 수 있습니다. 연구자들은 이러한 방법들이 필요한 수정을 통해 기초 에이전트를 개발하는 데 적용될 수 있다고 믿고 있습니다.
기초 에이전트의 주요 특징
연구자들은 기초 에이전트의 세 가지 필수 특징을 강조합니다:
1. 통합 표현: 환경 상태, 에이전트 행동 및 피드백 신호의 결합된 묘사.
2. 통합 정책 인터페이스: 로보틱스, 게임, 의료 등 다양한 작업과 분야에 적용 가능.
3. 합리적 의사결정 과정: 세계 지식, 환경 요인, 및 다른 에이전트와의 상호작용을 바탕으로 한 의사결정.
연구자들은 "이러한 특징들은 기초 에이전트에게 다중 모드 인식, 작업 및 분야 간 적응력, 예시가 적거나 없는 경우에도 일반화할 수 있는 능력을 부여합니다"라고 말합니다.
기초 에이전트를 위한 로드맵
기초 에이전트 개발을 위한 제안된 로드맵은 세 가지 중요한 요소로 구성되어 있습니다:
1. 데이터 수집: 대규모 상호작용 데이터는 인터넷과 실제 환경에서 수집해야 합니다. 데이터 수집이 어려운 경우 시뮬레이터와 Sora와 같은 생성 모델을 사용할 수 있습니다.
2. 비라벨 데이터에 대한 사전 훈련: 기초 에이전트는 유용한 의사결정 지식을 개발하기 위해 비라벨 데이터로 사전 훈련 되어야 합니다. 이는 모델을 소규모 특정 데이터셋에 맞춰 미세 조정하는 준비를 하여 새로운 작업에 빠르게 적응할 수 있게 합니다.
3. LLM과의 정렬: 기초 에이전트는 세계 지식과 인간의 가치를 의사결정 과정에 통합하기 위해 대규모 언어 모델과 통합되어야 합니다.
기초 에이전트의 도전과 기회
기초 에이전트 개발은 언어 및 비전 모델에서는 보지 못한 고유한 도전을 수반합니다. 물리적 세계의 세부 사항은 고수준 추상보다 저수준 정보를 포함하고 있어 의사결정 변수에 대한 통합 표현을 복잡하게 만듭니다. 또한, 의사결정 시나리오 간의 상당한 도메인 변동은 일관된 정책 인터페이스 개발을 방해합니다. 통합된 기초 모델은 모든 모드와 환경을 포괄할 수 있지만, 이는 복잡성을 도입하여 해석 가능성에 영향을 줄 수 있습니다.
기초 에이전트는 동적인 의사결정 과정에 적극적으로 참여해야 하며, 이는 언어 및 비전 모델의 주로 콘텐츠 중심 역할과는 상반되는 것입니다. 연구자들은 기존의 기초 모델과 진화하는 작업 및 환경에 적응할 수 있는 에이전트 간의 격차를 줄이기 위한 다양한 경로를 제안하고 있습니다.
로보틱스 분야에서는 제어 시스템과 기초 모델이 결합하여 이전에 접하지 않았던 작업에서 일반화할 수 있는 적응형 시스템이 만들어지고 있습니다. 이러한 시스템은 LLM과 VLM의 광범위한 상식 지식을 활용하여 낯선 상황에서도 정보에 입각한 결정을 내립니다. 자율주행 분야에서도 연구자들은 대규모 언어 모델이 상식 지식과 인간의 인지 능력을 통합하여 주행 시스템을 향상시킬 수 있는 방법을 조사하고 있습니다. 의료 및 과학 연구 등 다른 분야에서도 기초 에이전트와 인간 전문가가 협력할 때 이점을 얻을 수 있습니다.
"기초 에이전트는 기초 모델이 언어와 비전에 미친 영향처럼 의사결정 과정을 혁신할 잠재력을 가지고 있습니다,"라고 연구자들은 주장합니다. "이들의 고급 인식, 적응력, 그리고 추론 능력은 전통적인 RL의 한계를 극복할 뿐만 아니라 기초 에이전트를 실제 적용에서 완전히 활용할 수 있게 합니다."