오늘, Mobileye 및 AI21 Labs의 공동 창립자 아몬 샤슈아가 설립한 스타트업 멘티 로보틱스가 스텔스 모드에서 벗어나 최신 혁신인 AI 기반 휴머노이드 로봇 멘티봇을 공개했습니다. 현재 프로토타입 단계에 있는 멘티봇은 가정 및 창고에서 사용될 수 있도록 설계되었으며, OpenAI의 ChatGPT로 유명해진 트랜스포머 기반 대규모 언어 모델(LLM)을 포함한 고급 AI 기술을 활용합니다. 이러한 접근 방식은 로봇이 기능의 모든 계층에서 효과적으로 작동할 수 있게 합니다.
차세대 AI 에이전트
멘티봇은 시작부터 끝까지 복잡한 작업을 수행할 수 있는 AI 중심 로봇으로 자리매김하고 있습니다. 기존 시스템에 AI를 통합하는 많은 경쟁자들과 달리 멘티 로보틱스는 AI 중심의 설계 철학으로 멘티봇을 처음부터 끝까지 구축했습니다. 회사는 멘티봇이 구두 지시에 반응하는 모습을 담은 영상을 공개하며, 작업을 처리하면서 이동, 장면 이해, 물체 감지 및 집기 능력을 보여주었습니다.
멘티봇의 독특한 점
인간의 움직임을 모방하는 것에 중점을 둔 휴머노이드 로봇이 수년간 개발되어 왔지만, 대부분은 물리적 상호작용에 초점을 맞췄습니다. 이전 세대 로봇은 일반적으로 미리 프로그래밍되었거나 특정 작업을 수행하기 위한 소프트웨어로 운영되었습니다. 최근 언어 및 신체 학습 모델의 발전은 로봇이 자연어 명령을 이해하고 반응할 수 있는 새로운 물결을 가능하게 했습니다. 멘티 로보틱스는 기존 설계를 수정하는 대신 멘티봇의 전체 운영 프레임워크에 AI를 통합함으로써 차별성을 가지고 있습니다.
멘티봇의 세 가지 수준
멘티봇은 세 가지 주요 수준에서 AI를 활용하여 인간의 명령을 복잡한 행동으로 변환합니다:
1. 명령 해석: 트랜스포머 기반 LLM을 활용하여 멘티봇은 명령을 이해하고 작업을 완료하는 데 필요한 단계를 전략화합니다.
2. 환경 매핑: NeRF 기반 알고리즘을 통해 주변의 인지 3D 맵을 생성하고, 물체에 대한 의미론적 정보를 수집하며, 장애물을 동적으로 탐색합니다.
3. 작업 실행: 시뮬레이터에서 현실로(Sim2Real) 기계 학습 접근 방식을 사용하여 멘티봇은 시뮬레이션 환경에서 조정된 실제 걸음과 손 움직임으로 계획을 수행합니다.
아몬 샤슈아는 “우리는 컴퓨터 비전, 자연어 이해, 정교한 시뮬레이터의 융합이 이루어지는 경계에 있습니다. 멘티 로보틱스에서 이는 가사 작업을 수행하고 모방을 통해 학습할 수 있는 다목적 이족 로봇을 설계하는 기초가 됩니다.”라고 언급했습니다.
데모 영상에서는 멘티봇이 주방에서 과일을 한 장소에서 다른 장소로 이동시키는 모습을 보여주지만, 이 작업을 수행하기 위해 여러 명령이 필요하며 한 번의 유동적인 동작으로 실행되지 않습니다. 프로토타입인 만큼 지속적인 개선이 예상되며, 궁극적으로 멘티봇이 복잡한 명령을 원활하게 처리할 수 있게 될 것입니다.
멘티는 최종 생산 모델이 카메라 전용 감지, 향상된 손재주를 위한 독점 전기 모터, 완전 통합된 AI를 갖추게 될 것으로 예상하며, 2025년 1분기 출시를 목표로 하고 있습니다. 그러나 목표 시장 세그먼트는 아직 확인되지 않았습니다.
AI 기반 휴머노이드 경쟁
멘티 로보틱스는 샤슈아의 컴퓨터 비전 및 LLM에 관한 전문 지식을 기반으로 이점을 누리지만, 치열한 경쟁에 직면해 있습니다. 테슬라, OpenAI 지원의 Figure AI, 1X Technologies와 같은 기업들이 AI 기반 휴머노이드를 적극적으로 개발하고 있습니다. 또한 Nvidia는 휴머노이드 로봇의 기초 모델인 Project GR00T를 소개하며, Agility Robotics, Boston Dynamics, Unitree Robotics 등 다양한 산업 파트너와 협력하고 있습니다.
Boston Dynamics는 최근 자동차 및 산업 응용을 위해 설계된 완전 전기 Atlas 휴머노이드 로봇을 공개했습니다. 경쟁 환경은 역동적일 것으로 보이며, 멘티 로보틱스는 이 빠르게 진화하는 분야에서 AI 중심의 휴머노이드를 배포하기 위해 노력하고 있습니다.