딥마인드와 스탠포드의 혁신적인 로봇 제어 모델, 스케치 지침에 따라 작업 수행

최근 언어 및 비전 모델의 발전은 로봇 시스템이 텍스트나 이미지에서 파생된 지침을 따르는 능력을 크게 향상시켰습니다. 하지만 이러한 방법에는 한계가 있습니다. 스탠포드 대학교와 Google DeepMind의 연구팀은 로봇 지침으로 스케치를 사용하는 방안을 제안했습니다. 스케치는 복잡한 실제 이미지나 자연어의 모호성으로 인한 혼란 없이 로봇이 작업을 수행하는 데 필요한 풍부한 공간 정보를 제공합니다.

RT-Sketch 소개

연구자들은 로봇을 제어하기 위해 스케치를 활용하는 RT-Sketch 모델을 개발했습니다. 이 모델은 표준 조건에서 언어 및 이미지 기반 에이전트와 동등한 성능을 보이며, 언어와 이미지 지침이 부족한 부분에서는 이를 초월합니다.

왜 스케치를 선택할까요?

언어는 목표를 전달하는 간단한 수단이지만, 정밀한 조작이 필요한 작업(예: 물체 배열)에는 불편할 수 있습니다. 이미지는 원하는 목표를 세부적으로 설명하지만, 목표 이미지를 얻는 것은 종종 비현실적입니다. 또한, 사전 녹화된 이미지는 지나치게 세부적이어서 과적합 및 새로운 환경에 대한 일반화 성능 저하를 초래할 수 있습니다.

“우리는 로봇이 조립 설명서(예: IKEA 도면)를 해석하고 필요한 조작을 수행할 수 있도록 하는 방안에 대해 초기 아이디어를 논의했습니다,”라고 스탠포드 대학교의 박사과정 학생이자 연구의 주 저자인 프리야 순다레산이 말했습니다. “언어는 공간적 작업에는 종종 너무 모호하며, 기존 이미지가 없을 수 있습니다.”

팀은 스케치가 간결하고 생성이 용이하며 정보를 효과적으로 전달할 수 있기 때문에 이를 선택했습니다. 스케치는 픽셀이 아닌 공간적 배열을 효과적으로 전달하여 모델이 작업 관련 물체를 식별하도록 돕고 일반화 능력을 향상시킵니다.

“우리는 스케치를 로봇에게 지시하는 더 편리하고 표현력이 풍부한 방법으로 발전시키는 중요한 단계로 보고 있습니다,”라고 순다레산이 설명했습니다.

RT-Sketch 모델

RT-Sketch는 언어 지침을 로봇 명령으로 변환하는 Robotics Transformer 1(RT-1)을 기반으로 합니다. 연구자들은 이 아키텍처를 스케치 및 이미지를 포함한 시각적 목표에 맞게 조정했습니다. RT-Sketch의 훈련을 위해서는 오브젝트 조작 및 캐비닛 작업과 같은 VR 원격 작업의 8만 개 녹화로 이루어진 RT-1 데이터셋을 활용했습니다. 초기에는 이 시연에서 500개의 예시를 선택하고 최종 비디오 프레임에서 손으로 그린 표현을 제작하여 스케치를 만들었습니다. 이러한 스케치와 해당 비디오 프레임은 이미지를 스케치로 변환하는 생성적 적대 신경망(GAN) 교육에 사용되었습니다.

훈련 및 기능

GAN은 RT-Sketch 모델을 훈련시키기 위해 스케치를 생성하였고, 다양한 손 그리기 스타일을 모방하기 위해 추가적으로 변형을 주었습니다. 작동 중, 이 모델은 장면의 이미지와 원하는 물체 배열의 대략적인 스케치를 받아, 로봇이 목표를 달성하기 위한 명령 시퀀스를 생성합니다.

“RT-Sketch는 세부적인 언어 지침이 번거롭거나 이미지가 없는 경우에 유용합니다,”라고 순다레산이 말했습니다. 예를 들어, 저녁 식탁을 세팅할 때 "접시 곁에 식기를 두세요"라는 언어는 모호성을 초래할 수 있습니다. 이는 모델의 이해를 명확히 하기 위한 여러 상호작용을 유도할 수 있습니다. 반면, 간단한 스케치는 원하는 배열을 명확히 나타낼 수 있습니다.

“RT-Sketch는 물품 정리나 공간 내 가구 배치와 같은 작업, 세탁물 접기와 같은 복합적인 다단계 작업에서도 도움을 줄 수 있습니다,”라고 순다레산이 덧붙였습니다.

RT-Sketch 평가

연구자들은 RT-Sketch를 다양한 상황에서 테스트했으며, 물체 이동, 캔 치기, 서랍 열기와 같은 여섯 가지 조작 기술을 평가했습니다. 이 모델은 기본 조작 작업에 대해 기존의 이미지 및 언어 기반 모델과 동등한 성능을 보였으며, 목표를 설명하기 어려운 상황에서는 언어 기반 모델보다 우수한 성과를 나타냈습니다.

“이는 스케치가 시각적 혼란을 피하면서도 필요한 의미적 및 공간적 맥락을 보존하는 효과적인 균형을 이룬다는 것을 시사합니다,”라고 순다레산이 언급했습니다.

미래 방향

앞으로 연구자들은 스케치를 언어, 이미지, 인간 제스처 등의 다른 양식과 통합하여 보다 넓은 응용 가능성을 탐색할 계획입니다. DeepMind는 다중 모달 접근 방식을 사용한 여러 로봇 모델을 보유하고 있으며, RT-Sketch의 발견이 이러한 시스템을 향상시킬 수 있습니다. 또한, 시각적 표현 이상의 스케치의 다양한 가능성에 대해 기대하고 있습니다.

“스케치는 화살표로 동작을 전달하고, 부분 스케치를 통해 하위 목표를 나타내며, 낙서로 제약을 표시하는 등 조작 작업에 대한 귀중한 정보를 제공할 수 있습니다,”라고 순다레산이 결론지었습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles