基礎模型與機器人技術:OpenVLA的崛起
基礎模型在機器人技術領域取得了顯著進展,促進了視覺-語言-行動(VLA)模型的開發。這些模型能夠推廣到超出其初始訓練數據的物體、場景和任務。然而,由於其封閉性質及缺乏最佳實踐,這些模型的採用受到限制,使得在新環境中的部署和適應成為挑戰。
引入OpenVLA
為了解決這些問題,斯坦福大學、加州大學柏克萊分校、豐田研究所、Google DeepMind及其他機構的研究人員推出了OpenVLA,這是一個開源的VLA模型,訓練於多樣化的真實世界機器人演示。OpenVLA不僅在機器人任務上超越其他模型,還能輕鬆微調,以提高在涵蓋多種物體的多任務環境中的表現。該模型旨在高效運行,利用優化技術在消費級GPU上以最低的微調成本運行。
視覺-語言-行動模型的重要性
傳統的機器人操作方法通常在情境外的推廣上面臨挑戰,面對干擾或未見物體時效果不佳,並且難以適應略有變動的任務指示。相對而言,大型語言模型(LLMs)和視覺-語言模型(VLMs)因其龐大的互聯網範圍預訓練數據集而在推廣能力上表現優異。近期,研究實驗室已開始將LLMs和VLMs作為開發機器人政策的基礎組件。
兩種主要方法包括在模塊化系統中利用預訓練的LLMs和VLMs進行任務規劃與執行,以及從零開始構建VLA以生成機器人控制指令。RT-2和RT-2-X等著名案例為通用型機器人政策樹立了新的基準。
當前的VLA面臨兩大挑戰:封閉的架構限制了訓練和數據混合的透明度,缺乏將其部署及適應至新機器人和任務的標準實踐。研究人員強調需要開源的通用VLA以促進有效的適應,這與現有的語言模型開源生態系統相呼應。
OpenVLA的架構
OpenVLA由70億個參數組成,基於Prismatic-7B視覺-語言模型,包含一個雙部分的視覺編碼器進行圖像特徵提取,並搭配一個LLaMA-2 7B語言模型來處理指令。該模型在來自Open-X Embodiment數據集的970,000個機器人操作軌跡上進行微調,涵蓋了各種機器人任務和環境,同時生成與特定機器人行動對應的指令代碼。
OpenVLA接收自然語言指令和輸入圖像,通過推理確定完成任務(如“擦拭桌子”)所需的最佳行動序列。其性能驚人,超越了55億參數的RT-2-X模型,後者曾被認為是WidowX和Google Robot的最先進模型。
微調與效率
研究人員探討了在七個操作任務中高效的微調策略,顯示出微調後的OpenVLA政策超越了預訓練的替代品,尤其是在將語言指令轉換為涉及多種物體的多任務行為時。OpenVLA在所有測試任務中成功率超過50%,成為各種場景下模仿學習的可靠選擇。
為了提升可及性和效率,團隊採用了低秩適應(LoRA)進行微調,實現了在單個A100 GPU上於10至15小時內進行特定任務的調整,顯著降低了計算需求。模型量化進一步減少了模型大小,使其能夠在消費級GPU上部署而不影響性能。
開源OpenVLA
研究人員已將完整的OpenVLA模型開源,並提供部署和微調的筆記本及可擴展的VLA訓練代碼。他們預期這些資源將刺激對VLA在機器人技術中進一步探索和適應的興趣。這一庫支持在單一GPU上進行微調,並能夠在多節點GPU集群中協調十億參數的VLA訓練,符合當前的優化和並行技術。
OpenVLA的未來發展旨在整合多個圖像和本體感知輸入,以及觀察歷史。此外,利用在交錯的圖像和文本數據上進行預訓練的VLMs將可能提升VLA微調的靈活性。
隨著OpenVLA的出現,機器人技術社群正處於顯著進步的邊緣,使VLA模型在多元應用中更加可及和可適應。