메타의 OK-로봇, 훈련되지 않은 환경에서 제로 샷 픽 앤 드롭 기능 실현

최근 비전-언어 모델(VLMs)의 발전은 자연어 쿼리를 시각적 장면의 객체와 매칭하는 데 기여하고 있습니다. 연구자들은 이러한 모델을 로봇 시스템에 통합하는 방법을 탐색하고 있으며, 이는 종종 능력을 일반화하는 데 어려움을 겪습니다. 메타 AI와 뉴욕대학교의 연구자들이 발표한 혁신적인 논문에서는 OK-Robot이라는 오픈 지식 기반 프레임워크를 소개합니다. 이 시스템은 사전 훈련된 머신러닝(ML) 모델을 결합하여 추가 훈련 없이 익숙하지 않은 환경에서 픽 앤 드롭 작업을 수행합니다.

현재 로봇 시스템의 도전 과제

대부분의 로봇 시스템은 이전에 접한 환경을 위해 설계되어 새로운 설정, 특히 집과 같은 비구조적 공간에 적응하는 능력이 제한적입니다. VLM이 언어 프롬프트와 시각적 객체의 연결에서 탁월함을 보이고 로봇 기술이 탐색과 잡기에 개선되고 있음에도 불구하고, 이러한 기술의 통합은 여전히 최적의 성능을 발휘하지 못하고 있습니다. 연구자들은 "이 문제를 해결하려면 VLM과 로봇 원리를 통합하면서 새로운 모델을 유연하게 통합할 수 있는 세심하고 미세한 프레임워크가 필요하다"고 언급합니다.

OK-Robot 개요

OK-Robot은 첨단 VLM과 강력한 로봇 메커니즘을 통합하여 눈에 띄지 않는 환경에서 픽 앤 드롭 작업을 수행합니다. 이는 방대한 공개 데이터 세트에서 훈련된 모델을 활용합니다. 이 프레임워크는 세 가지 주요 하위 시스템으로 구성됩니다: 오픈 어휘 객체 탐색 모듈, RGB-D 잡기 모듈, 드롭핑 휴리스틱 시스템. 새로운 공간에 들어갈 때 OK-Robot은 수동 스캔이 필요하며, 이는 사용자가 영역을 이동하면서 RGB-D 이미지 시리즈를 캡처하는 iPhone 앱을 통해 쉽게 진행할 수 있습니다. 이러한 이미지는 카메라의 위치 정보와 결합되어 3D 환경 맵을 만듭니다.

각 이미지는 비전 트랜스포머(ViT) 모델을 사용해 객체 정보를 추출합니다. 이 데이터와 환경 컨텍스트는 의미 있는 객체 메모리 모듈에 입력되어 시스템이 자연어 쿼리에 따라 객체를 검색할 수 있도록 합니다. 메모리는 음성 프롬프트의 임베딩을 계산하고 이를 가장 가까운 의미적 표현과 매칭합니다. 탐색 알고리즘은 로봇이 안전하게 객체를 잡을 수 있는 충분한 공간을 확보하며 가장 효율적인 경로를 설정합니다.

마지막으로 로봇은 객체 분할 모델과 사전 훈련된 잡기 모델을 갖춘 RGB-D 카메라를 사용하여 아이템을 집어 올립니다. 드롭 포인트로 이동하는 데에도 유사한 방법이 적용됩니다. 이 시스템은 로봇이 다양한 객체 유형에 적합한 잡기를 결정하고 평탄하지 않은 목적지 위치를 관리할 수 있도록 합니다. "완전히 새로운 환경에 진입하여 자율 작업을 시작하는 데 평균 10분 이내로 첫 번째 픽 앤 드롭 작업을 완료합니다"라고 연구자들은 보고합니다.

테스트 및 결과

연구자들은 OK-Robot을 10개의 가정에서 평가하며 171회의 픽 앤 드롭 실험을 수행했습니다. 이 시스템은 58%의 성공률로 전체 작업을 완료하여 제로샷 능력을 보여주었습니다. 모델이 이러한 환경에 대해 명시적으로 훈련되지 않았음에도 불구하고, 입력 쿼리를 정제하고 공간을 정리하며 방해 요소를 최소화하면 성공률이 82%를 초과할 수 있습니다.

그럼에도 불구하고 OK-Robot은 몇 가지 한계가 있습니다. 자연어 프롬프트와 올바른 객체를 잘못 맞추거나 특정 잡기에서 어려움을 겪으며 하드웨어 제약이 있습니다. 또한 객체 메모리 모듈은 스캔 후 정적 상태를 유지하여 로봇이 객체의 위치나 가용성 변화에 적응하지 못합니다.

이러한 도전에도 불구하고 OK-Robot 프로젝트는 중요한 통찰력을 제공합니다. 첫째, 현재 오픈 어휘 VLM이 다양한 실제 객체를 식별하고 제로샷 학습으로 이들을 탐색하는 데 뛰어난 성능을 보임을 입증하였습니다. 둘째, 방대한 데이터 세트에서 사전 훈련된 전문 로봇 모델이 새로운 환경에서 오픈 어휘 잡기를 원활하게 지원할 수 있음을 확인하였습니다. 마지막으로, 추가 훈련 없이 사전 훈련된 모델을 결합하여 제로샷 작업을 수행할 수 있는 가능성을 강조하며 이 새로운 분야의 미래 발전을 위한 길을 열어줍니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles