기초 에이전트가 실제 응용에서 AI 의사결정을 어떻게 혁신할 수 있는지

Home AI 뉴스 기초 에이전트가 실제 응용에서 AI 의사결정을 어떻게 혁신할 수 있는지

기초 모델은 컴퓨터 비전과 자연어 처리를 혁신적으로 변화시켰으며, 이제 연구자들은 이러한 원칙을 적용하여 기초 에이전트를 개발할 것을 제안하고 있습니다. 이러한 AI 시스템은 물리적 환경에서의 개방형 의사결정 작업을 위해 설계되었습니다. 최근 중국 과학 아카데미의 과학자들이 발표한 직책 논문에서는 기초 에이전트를 "물리적 세계와 가상 세계에서 일반적으로 능력을 가진 에이전트"로 정의하고 있습니다. 그들은 이러한 에이전트가 대규모 언어 모델(LLM)이 언어 및 지식 중심 작업을 혁신한 것과 유사하게 의사결정의 패러다임 전환으로 이어질 수 있다고 제안합니다.

기초 에이전트는 다양한 AI 시스템의 개발을 단순화하여 현재 경직된 작업 중심의 AI 솔루션에 의존하고 있는 여러 분야에 중대한 영향을 미칠 수 있는 잠재력을 가지고 있습니다.

AI 의사결정의 도전 과제

전통적인 AI 의사결정 방식은 분명한 한계를 가지고 있습니다. 전문가 시스템은 형식적인 인간 지식과 수작업으로 생성된 규칙에 의존합니다. 강화 학습(RL) 시스템은 각 새로운 작업에 대해 처음부터 광범위한 훈련이 필요하여 일반화 능력을 제한합니다. 모방 학습(IL)은 훈련 예시를 준비하는 데 상당한 인간 노력이 필요합니다. 이에 반해, LLM과 비전 언어 모델(VLM)은 최소한의 미세 조정으로 다양한 작업에 신속하게 적응할 수 있습니다. 연구자들은 이러한 방법들이 필요한 수정을 통해 기초 에이전트를 개발하는 데 적용될 수 있다고 믿고 있습니다.

기초 에이전트의 주요 특징

연구자들은 기초 에이전트의 세 가지 필수 특징을 강조합니다:

1. 통합 표현: 환경 상태, 에이전트 행동 및 피드백 신호의 결합된 묘사.

2. 통합 정책 인터페이스: 로보틱스, 게임, 의료 등 다양한 작업과 분야에 적용 가능.

3. 합리적 의사결정 과정: 세계 지식, 환경 요인, 및 다른 에이전트와의 상호작용을 바탕으로 한 의사결정.

연구자들은 "이러한 특징들은 기초 에이전트에게 다중 모드 인식, 작업 및 분야 간 적응력, 예시가 적거나 없는 경우에도 일반화할 수 있는 능력을 부여합니다"라고 말합니다.

기초 에이전트를 위한 로드맵

기초 에이전트 개발을 위한 제안된 로드맵은 세 가지 중요한 요소로 구성되어 있습니다:

1. 데이터 수집: 대규모 상호작용 데이터는 인터넷과 실제 환경에서 수집해야 합니다. 데이터 수집이 어려운 경우 시뮬레이터와 Sora와 같은 생성 모델을 사용할 수 있습니다.

2. 비라벨 데이터에 대한 사전 훈련: 기초 에이전트는 유용한 의사결정 지식을 개발하기 위해 비라벨 데이터로 사전 훈련 되어야 합니다. 이는 모델을 소규모 특정 데이터셋에 맞춰 미세 조정하는 준비를 하여 새로운 작업에 빠르게 적응할 수 있게 합니다.

3. LLM과의 정렬: 기초 에이전트는 세계 지식과 인간의 가치를 의사결정 과정에 통합하기 위해 대규모 언어 모델과 통합되어야 합니다.

기초 에이전트의 도전과 기회

기초 에이전트 개발은 언어 및 비전 모델에서는 보지 못한 고유한 도전을 수반합니다. 물리적 세계의 세부 사항은 고수준 추상보다 저수준 정보를 포함하고 있어 의사결정 변수에 대한 통합 표현을 복잡하게 만듭니다. 또한, 의사결정 시나리오 간의 상당한 도메인 변동은 일관된 정책 인터페이스 개발을 방해합니다. 통합된 기초 모델은 모든 모드와 환경을 포괄할 수 있지만, 이는 복잡성을 도입하여 해석 가능성에 영향을 줄 수 있습니다.

기초 에이전트는 동적인 의사결정 과정에 적극적으로 참여해야 하며, 이는 언어 및 비전 모델의 주로 콘텐츠 중심 역할과는 상반되는 것입니다. 연구자들은 기존의 기초 모델과 진화하는 작업 및 환경에 적응할 수 있는 에이전트 간의 격차를 줄이기 위한 다양한 경로를 제안하고 있습니다.

로보틱스 분야에서는 제어 시스템과 기초 모델이 결합하여 이전에 접하지 않았던 작업에서 일반화할 수 있는 적응형 시스템이 만들어지고 있습니다. 이러한 시스템은 LLM과 VLM의 광범위한 상식 지식을 활용하여 낯선 상황에서도 정보에 입각한 결정을 내립니다. 자율주행 분야에서도 연구자들은 대규모 언어 모델이 상식 지식과 인간의 인지 능력을 통합하여 주행 시스템을 향상시킬 수 있는 방법을 조사하고 있습니다. 의료 및 과학 연구 등 다른 분야에서도 기초 에이전트와 인간 전문가가 협력할 때 이점을 얻을 수 있습니다.

"기초 에이전트는 기초 모델이 언어와 비전에 미친 영향처럼 의사결정 과정을 혁신할 잠재력을 가지고 있습니다,"라고 연구자들은 주장합니다. "이들의 고급 인식, 적응력, 그리고 추론 능력은 전통적인 RL의 한계를 극복할 뿐만 아니라 기초 에이전트를 실제 적용에서 완전히 활용할 수 있게 합니다."

Kneron, 엣지 AI 강화: 향상된 신경 처리 장치 및 업그레이드된 엣지 GPT 서버 기능

스노우플레이크 데이터 클라우드 서밋 2024: 주요 발표 및 주요 발전 공개

Most people like

Live3D

2.6M

다채로운 아바타와 매력적인 애니메이션을 제작하기 위한 최고의 VTuber 소프트웨어 패키지를 만나보세요. 창의력을 마음껏 발휘하고, 생동감 넘치는 스토리텔링과 즐거운 퍼포먼스를 위한 완벽한 도구로 가상 존재감을 한 단계 끌어올리세요.

VTuber 소프트웨어 AI Product Description Generator

Infography

32.6K

블로그 콘텐츠를 향상시키고 독자를 사로잡고 싶으신가요? 블로그 글을 시각적으로 매력적인 인포그래픽으로 변환하는 것은 정보를 효과적으로 전달하는 강력한 방법입니다. 인포그래픽은 복잡한 데이터를 단순화할 뿐만 아니라 공유하기 쉽고, 콘텐츠의 도달 범위를 넓혀줍니다. 이 가이드에서는 독자를 참여시키고 브랜드의 가시성을 높이는 멋진 인포그래픽으로 글을 변환하는 효과적인 전략을 탐구합니다. 인포그래픽의 예술을 활용하여 블로그 글의 영향력을 극대화하는 방법을 알아보세요!

인포그래픽 AI Photo & Image Generator

folk

277.5K

AI 기술로 강화된 경량화되고 맞춤형 CRM 솔루션을 만나보세요. 귀하의 고유한 비즈니스 요구에 맞춰 설계된 이 지능형 플랫폼은 고객 관계 관리를 간소화하여 효율성을 높이고 성장을 촉진합니다.

CRM AI CRM Assistant

cutlabs

68.1K

게임 콘텐츠가 대세인 시대에, 게임 스트리머들은 방송의 수준을 높이고 관객과의 소통을 강화할 방법을 끊임없이 모색하고 있습니다. 게임 스트리머를 위해 특별히 설계된 AI 비디오 편집기는 편집 과정을 간소화하고 콘텐츠 품질을 최적화하며 시청자 참여를 촉진하는 혁신적인 도구를 제공합니다. 게임에 맞춤화된 고급 기능을 갖춘 이 기술은 시간을 절약할 뿐만 아니라 창의력을 증진시켜 스트리머가 사랑하는 게임에 집중할 수 있도록 돕습니다. AI 기반 비디오 편집이 어떻게 방송 게임을 변모시킬 수 있는지 알아보세요!

AI 비디오 편집기 Captions or Subtitle

Find AI tools in YBX