기초 모델과 로봇 공학: OpenVLA의 부상
기초 모델은 비전-언어-행동(VLA) 모델의 개발을 촉진하여 로봇 공학의 중요한 발전을 이끌었습니다. 이러한 모델은 초기 훈련 데이터를 넘어 다양한 객체, 장면, 작업에 일반화할 수 있습니다. 그러나 폐쇄적인 특성과 새로운 환경에 대한 배포 및 조정에 대한 모범 사례 부족으로 인해 그 채택은 제한적이었습니다.
OpenVLA 소개
이러한 도전을 해결하기 위해 스탠퍼드 대학교, UC 버클리, 도요타 연구소, 구글 딥마인드 등 여러 기관의 연구자들이 다양한 실제 로봇 시연 데이터셋으로 훈련된 오픈 소스 VLA 모델인 OpenVLA를 출시했습니다. OpenVLA는 로봇 작업에서 다른 모델을 능가할 뿐만 아니라 다양한 객체를 다루는 다중 작업 환경에서 성능 향상을 위한 손쉬운 미세 조정을 제공합니다. 효율성을 위해 설계되었으며 소비자급 GPU에서 최소한의 미세 조정 비용으로 작동할 수 있는 최적화 기술을 활용합니다.
비전-언어-행동 모델의 중요성
전통적인 로봇 조작 방법은 훈련 시나리오를 넘어서는 일반화에 종종 어려움을 겪습니다. 그들은 일반적으로 방해 요소나 보이지 않는 객체에 대해 비효율적이며, 약간 변경된 작업 지침에 적응하는 데 어려움을 겪습니다. 반면, 대형 언어 모델(LLM)과 비전-언어 모델(VLM)은 방대한 인터넷 규모의 사전 훈련 데이터셋 덕분에 일반화에서 우수한 성과를 보입니다. 최근 연구소들은 LLM과 VLM을 로봇 정책 개발의 기초 요소로 통합하기 시작했습니다.
주요 방법으로는 사전 훈련된 LLM과 VLM을 모듈 시스템 내에서 작업 계획 및 실행에 활용하는 것과, 로봇 제어 작업을 직접 생성하기 위해 VLA를 처음부터 구축하는 방법이 있습니다. RT-2와 RT-2-X와 같은 주목할 만한 모델은 일반화된 로봇 정책에 대한 새로운 기준을 세웠습니다.
하지만 현재 VLA는 두 가지 주요 과제에 직면해 있습니다. 하나는 훈련 및 데이터 혼합의 투명성을 제한하는 폐쇄형 아키텍처이고, 다른 하나는 새로운 로봇과 작업에 대해 이들을 배포하고 조정하기 위한 표준 관행의 부재입니다. 연구자들은 언어 모델을 위한 기존의 오픈 소스 생태계를 반영하며 효과적인 적응을 촉진하기 위해 오픈 소스 일반화 VLA의 필요성을 강조합니다.
OpenVLA의 아키텍처
OpenVLA는 70억 개의 매개변수로 구성되어 있으며 Prismatic-7B 비전-언어 모델을 기반으로 하며, 이미지 특성 추출을 위한 이중 시각 인코더와 LLaMA-2 7B 언어 모델이 지침 처리를 위해 결합되어 있습니다. Open-X Embodiment 데이터셋의 970,000개의 로봇 조작 궤적을 기반으로 미세 조정되어 다양한 로봇 작업 및 환경을 포괄하며, 특정 로봇 동작에 매핑된 행동 토큰을 생성합니다. OpenVLA는 자연어 지침과 입력 이미지를 함께 받아들이며 이를 통해 "테이블 닦기"와 같은 작업을 완료하는 데 필요한 최적의 행동 순서를 결정합니다. 놀랍게도, OpenVLA는 이전에 최고라는 평가를 받은 550억 개 매개변수의 RT-2-X 모델보다 성능이 우수합니다.
미세 조정 및 효율성
연구자들은 7개의 조작 작업에서 효율적인 미세 조정 전략을 탐구하였으며, 미세 조정된 OpenVLA 정책이 사전 훈련된 대안보다 우수하다는 사실을 입증했습니다. 특히 다양한 객체에 대한 다중 작업 행동으로 언어 지침을 변환할 때 그 성능이 두드러집니다. OpenVLA는 모든 테스트 작업에서 50% 이상의 성공률을 달성하여 다양한 시나리오에서 모방 학습을 위한 신뢰할 수 있는 옵션으로 자리 잡았습니다.
접근성과 효율성을 고려하여 연구팀은 저랭크 적응(LoRA)를 활용하여 미세 조정을 수행하였으며, 단일 A100 GPU에서 10-15시간 만에 작업별 조정을 완료했습니다. 모델 양자화를 통해 모델 크기를 더 줄여 소비자급 GPU에서도 성능을 유지하면서 배포할 수 있게 되었습니다.
OpenVLA 오픈 소스화
연구자들은 전체 OpenVLA 모델과 배포 및 미세 조정용 노트북과 확장 가능한 VLA 교육 코드도 오픈 소스화했습니다. 이들은 이러한 자원이 로봇 공학 분야에서 VLA의 추가 탐색과 적응을 촉진할 것으로 기대하고 있습니다. 이 라이브러리는 개별 GPU에서의 미세 조정을 지원하며, 다중 노드 GPU 클러스터에서의 수십억 매개변수 VLA 훈련을 조정할 수 있어 현대 최적화 및 병렬화 기술에 부합합니다.
OpenVLA의 향후 개발은 여러 이미지 및 고유 수용 입력, 관찰 기록을 통합하는 것을 목표로 하고 있습니다. 또한, 이미지를 간섭하며 텍스트 데이터를 기반으로 미리 훈련된 VLM을 활용하면 VLA 미세 조정의 유연성을 더욱 향상시킬 수 있습니다.
OpenVLA와 함께 로봇 공학 커뮤니티는 VLA 모델을 다양한 응용 프로그램에 보다 접근 가능하고 적응 가능하게 만드는 놀라운 발전의 경계에 서 있습니다.