LLM이 로봇 혁신의 새로운 시대를 선도하는 방법

최근 몇 달간 대형 언어 모델(LLM)을 활용한 혁신적인 로봇 응용 프로젝트가 급증하고 있습니다. LLM과 다중 모달 모델의 강력한 기능 덕분에 연구자들은 자연어 명령을 처리하고 고급 추론이 필요한 복잡한 작업을 수행할 수 있는 로봇을 개발하고 있습니다. LLM과 로봇 공학의 교차점에서의 관심 증가는 로봇 스타트업 환경을 활성화시켜 여러 업체가 막대한 자금을 확보하고 인상적인 시연을 선보이고 있습니다. LLM의 놀라운 발전이 현실 세계의 응용으로 이어짐에 따라 우리는 로봇 공학의 새로운 시대를 맞이할 준비가 되어 있는 것일지도 모릅니다.

인식 및 추론을 위한 언어 모델

전통적으로 로봇 시스템 구축에는 계획 및 추론 모듈 개발을 위한 복잡한 공학 노력이 필요했습니다. 그래서 사용자 친화적인 명령 인터페이스를 만드는 것이 어렵습니다. LLM 및 비전-언어 모델(VLM)의 출현은 로봇 엔지니어들이 기존 시스템을 혁신적으로 개선할 수 있는 기회를 제공했습니다. 이 분야의 핵심 프로젝트인 SayCan은 Google Research에서 개발하였으며, LLM에 내재된 의미 지식을 활용해 로봇이 작업을 추론하고 적절한 행동 순서를 결정하는 데 도움을 주었습니다.

AI 및 로봇 공학 연구원인 크리스 색스턴은 “SayCan은 로봇 공학 분야에서 가장 영향력 있는 논문 중 하나입니다. 모듈화된 설계로 서로 다른 구성 요소를 통합하여 강력한 시연이 가능한 시스템을 생성할 수 있습니다.”라고 말했습니다. SayCan 이후, 연구자들은 로봇 내 다양한 방식으로 언어 및 비전 모델을 적용하는 방법을 탐구하며 상당한 진전을 이루었습니다. 일부 프로젝트는 범용 LLM과 VLM을 활용하는 반면, 다른 프로젝트는 특정 로봇 작업에 맞춰 기존 모델을 맞춤화하는 데 중점을 두고 있습니다. 색스턴은 “대형 언어 모델과 비전 모델을 사용함으로써 인식 및 추론 같은 측면이 훨씬 더 접근 가능해졌습니다. 이는 많은 로봇 작업을 그 어느 때보다도 더 실현 가능하게 만들었습니다.”라고 언급했습니다.

기존 기능의 결합

전통적인 로봇 시스템의 주요 한계는 제어 메커니즘에 있습니다. 팀은 개별 기술을 위한 로봇 교육이 가능하지만, 이러한 기술을 결합해 복잡한 작업을 수행하는 것은 도전 과제가 됩니다. LLM 및 VLM은 로봇이 느슨하게 정의된 지침을 해석하고 이를 스스로의 능력에 맞는 특정 작업 순서에 매핑할 수 있도록 합니다. 흥미롭게도, 많은 고급 모델은 광범위한 재교육 없이도 이를 달성할 수 있습니다.

색스턴은 “대형 언어 모델을 사용하면 다양한 기술을 매끄럽게 연결하고 그 적용에 대해 추론할 수 있습니다.”라고 설명했습니다. 새로운 비전 언어 모델인 GPT-4V는 이러한 시스템이 다양한 응용 프로그램에서 효과적으로 협력할 수 있는 방식을 보여줍니다. 예를 들어, 토론토 대학교, Google DeepMind, Hoku Labs가 개발한 GenEM 기술은 LLM에 담긴 포괄적인 사회적 맥락을 활용해 표현력 있는 로봇 행동을 생성합니다. GPT-4를 활용하여 로봇은 요령을 꺾어 고개를 숙이는 것과 같이 맥락을 이해하고 훈련 데이터 및 인-context 학습 능력에 근거해 관련 작업을 수행할 수 있습니다.

메타 및 뉴욕 대학교가 개발한 OK-Robot은 VLM과 동작 계획 및 물체 조작 모듈을 융합해 낯선 환경에서 물건을 집고 놓는 작업을 수행합니다. 이러한 발전 속에서 일부 로봇 스타트업은 성공적으로 성장하고 있습니다. 캘리포니아에 본사를 둔 로봇 회사 Figure는 비전 및 언어 모델을 활용한 휴머노이드 로봇 개발을 위해 최근 6억 7500만 달러를 투자받았습니다. 이들의 로봇은 OpenAI 모델을 사용해 지침을 처리하고 전략적으로 행동을 계획합니다.

하지만 LLM과 VLM이 주요 도전 과제를 해결하더라도, 로봇 팀은 여전히 물건 잡기, 장애물 회피, 다양한 환경에서의 이동 등 기본 기술을 위한 시스템 개발을 해야 합니다. 색스턴은 “이러한 모델이 아직 다루지 못하는 기초 수준에서 상당한 노력이 이루어지고 있습니다.”라고 강조했습니다. “이 복잡성은 데이터의 필요성을 부각시킵니다. 현재 많은 기업들이 이를 생성하기 위해 노력하고 있습니다.”

전문화된 기초 모델

또 다른 유망한 접근 방식은 로봇 작업에 맞춰 기존의 기초 모델에서 구축한 전문화된 기초 모델을 만드는 것입니다. 이 분야의 주요 프로젝트 중 하나는 Google의 RT-2로, 비전-언어 행동(VLA) 모델로 인식 데이터와 언어 지침을 처리하여 로봇을 위한 실행 가능한 명령을 생성합니다. 최근 Google DeepMind는 RT-2의 향상된 버전인 RT-X-2를 공개했으며, 이는 다양한 로봇 형태에 적응하면서 훈련 데이터셋에 포함되지 않은 작업을 수행하는 데 능숙합니다. 또한 DeepMind와 스탠포드 대학교의 협력 프로젝트인 RT-Sketch는 대강의 스케치를 실행 가능한 로봇 행동 계획으로 변환합니다.

색스턴은 “이러한 모델은 여러 작업을 처리할 수 있는 확장성 있는 정책으로서 새로운 접근 방식을 제공합니다.”라고 언급했습니다. “이는 로봇이 카메라 피드를 통해 행동을 유도할 수 있는 엔드 투 엔드 학습 기반의 흥미로운 방향입니다.” 로봇을 위한 기초 모델은 상업 분야에도 점점 더 진입하고 있습니다. Covariant는 최근 텍스트, 이미지, 비디오, 로봇 행동 등 다양한 입력으로 훈련된 80억 개의 매개변수를 가진 변환 모델 RFM-1을 소개했습니다. 이는 다양한 로봇 응용을 위한 다재다능한 기초 모델을 만들기 위함입니다.

한편, Nvidia GTC에서 공개된 프로젝트 GR00T은 휴머노이드 로봇이 텍스트, 음성, 비디오와 같은 입력을 처리하여 이를 특정 작업으로 변환할 수 있도록 하는 것을 목표로 하고 있습니다. 언어 모델의 잠재력은 여전히 대부분 활용되지 않고 있으며, 이는 로봇 공학 연구를 계속 발전시킬 것입니다. LLM이 계속 발전함에 따라 로봇 공학 분야에서 혁신적인 발전이 예상됩니다.

Most people like

Find AI tools in YBX