스탠포드와 메타, 혁신적인 'CHOIS' 상호작용 모델로 인간처럼 지능적인 AI에 한 발짝 다가서다

스탠포드 대학과 메타의 페이스북 AI 연구소(FAIR) 연구자들이 텍스트 설명만으로 가상 인간과 객체 간의 사실적이고 동기화된 움직임을 생성할 수 있는 혁신적인 AI 시스템을 발표했습니다. 이 시스템은 CHOIS(제어 가능한 인간-객체 상호작용 합성)라는 이름으로, 고급 조건부 확산 모델 기술을 활용하여 매끄러운 상호작용을 가능하게 합니다. 예를 들어, “테이블을 머리 위로 들어올리고, 걸어서 테이블을 내려놓으세요”라는 지시를 해석하고 애니메이션화할 수 있습니다.

arXiv에 발표된 연구는 가상 존재가 인간처럼 언어 명령을 유창하게 이해하고 수행할 수 있는 미래를 암시합니다. 연구자들은 “3D 장면 내에서 언어 설명으로부터 연속적인 인간-객체 상호작용을 생성하는 것은 여러 가지 도전 과제가 있다”고 말했습니다. 그들은 움직임이 사실적으로 보이도록 하고, 인간의 손이 객체와 정확하게 상호작용하며, 객체가 인간의 행동에 반응하여 움직이도록 하는 데 우선 순위를 두었습니다.

CHOIS의 작동 원리

CHOIS는 3D 공간 내에서 인간-객체 상호작용을 생성하는 데 탁월합니다. 중심에는 자세한 동작 시퀀스를 시뮬레이션할 수 있는 생성 모델인 조건부 확산 모델이 있습니다. 인간과 객체의 초기 상태와 원하는 동작에 대한 언어 설명을 바탕으로 CHOIS는 작업을 수행하는 동작 시퀀스를 생성합니다. 예를 들어, “램프를 소파 쪽으로 옮기세요”라는 지시를 받고, CHOIS는 인간 아바타가 램프를 들어 소파 옆에 놓는 사실적인 애니메이션을 생성할 수 있습니다.

CHOIS의 차별점은 희소 객체 웨이포인트와 언어 입력을 애니메이션 가이드에 통합한 것입니다. 이 웨이포인트는 객체의 움직임에서 주요 지점을 표시하여 애니메이션이 현실적일 뿐만 아니라 언어 입력으로 표현된 목표에 부합하도록 보장합니다. 추가로, CHOIS는 전통 모델보다 언어 이해와 물리적 시뮬레이션을 효과적으로 통합하며, 이는 종종 언어와 공간적, 물리적 행동 간의 상관관계를 유지하는 데 어려움을 겪습니다. CHOIS는 언어 설명에 담긴 의도와 스타일을 해석하고 이를 물리적 움직임 시퀀스로 변환하면서 인간의 신체와 관련 객체의 제약을 준수합니다.

이 시스템은 손이 물체에 닿는 접촉 지점을 정확히 표현하고, 객체의 움직임을 인간 아바타가 가하는 힘에 맞추어 조정합니다. 전문 손실 함수와 가이드 용어를 사용하여 학습 및 생성 단계 모두에서 이러한 물리적 제약을 강화함으로써, CHOIS는 AI가 인간처럼 물리적 세계를 이해하고 상호작용할 수 있는 능력에 큰 발전을 이룬 것입니다.

컴퓨터 그래픽스, AI 및 로봇 공학에 미치는 영향

CHOIS 시스템은 애니메이션 및 가상 현실 분야에서 컴퓨터 그래픽스에 상당한 영향을 미칠 것입니다. AI가 자연어 명령을 해석하여 사실적인 인간-객체 상호작용을 가능하게 함으로써, CHOIS는 복잡한 장면 생성에 필요한 시간과 노력을 크게 줄일 수 있습니다. 애니메이터는 이 기술을 활용하여 세밀한 키프레임 애니메이션이 필요한 시퀀스를 자동화할 수 있습니다. 가상 현실에서는 사용자가 자연어로 가상 캐릭터를 지시하고 사실적인 작업 수행을 관찰할 수 있는 더욱 몰입감 있는 경험을 제공하여, 이전에는 스크립트화된 상호작용을 동적이고 반응적인 환경으로 전환할 수 있습니다.

AI 및 로봇 공학 분야에서 CHOIS는 자율적이고 상황 인식이 가능한 시스템 개발을 위한 중요한 도약을 나타냅니다. 사전 프로그래밍된 루틴에 의존하기보다 로봇은 CHOIS를 사용하여 인간 언어로 설명된 작업을 이해하고 수행할 수 있습니다. 이는 의료, 환대, 가정 환경 등의 분야에서 서비스 로봇의 능력을 혁신적하게 향상시킬 수 있습니다.

또한, 언어와 시각적 입력을 동시에 처리할 수 있는 능력은 AI가 주로 인간이 이룬 상황 및 맥락 이해 수준에 도달할 수 있게 합니다. 이러한 발전은 AI 시스템이 복잡한 작업에서 더 유능한 조수로 기능할 수 있게 하여, 인간의 지침의 "무엇"(what)뿐만 아니라 "어떻게"(how)를 이해하고 새로운 도전에 전례 없는 유연성으로 적응할 수 있도록 할 것입니다.

유망한 결과와 향후 전망

결론적으로, 스탠포드와 메타의 협력 연구는 컴퓨터 비전, 자연어 처리(NLP), 로봇 공학 간의 교차점에서 중요한 발전을 이룹니다. 연구자들은 이 작업을 다양한 3D 환경에서 지속적인 인간 행동을 모방할 수 있는 정교한 AI 시스템 개발을 위한 중요한 단계로 보고 있습니다. 더 나아가 이는 3D 장면과 언어 입력에서 인간-객체 상호작용을 합성하는 추가 탐색의 길을 열어, 미래의 더 발전된 AI 기술로 이어질 가능성을 제공합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles