OpenVLA：一個開源的通用機器人框架，適用於多種應用

Home AI新聞 OpenVLA：一個開源的通用機器人框架，適用於多種應用

基礎模型與機器人技術：OpenVLA的崛起

基礎模型在機器人技術領域取得了顯著進展，促進了視覺-語言-行動（VLA）模型的開發。這些模型能夠推廣到超出其初始訓練數據的物體、場景和任務。然而，由於其封閉性質及缺乏最佳實踐，這些模型的採用受到限制，使得在新環境中的部署和適應成為挑戰。

引入OpenVLA

為了解決這些問題，斯坦福大學、加州大學柏克萊分校、豐田研究所、Google DeepMind及其他機構的研究人員推出了OpenVLA，這是一個開源的VLA模型，訓練於多樣化的真實世界機器人演示。OpenVLA不僅在機器人任務上超越其他模型，還能輕鬆微調，以提高在涵蓋多種物體的多任務環境中的表現。該模型旨在高效運行，利用優化技術在消費級GPU上以最低的微調成本運行。

視覺-語言-行動模型的重要性

傳統的機器人操作方法通常在情境外的推廣上面臨挑戰，面對干擾或未見物體時效果不佳，並且難以適應略有變動的任務指示。相對而言，大型語言模型（LLMs）和視覺-語言模型（VLMs）因其龐大的互聯網範圍預訓練數據集而在推廣能力上表現優異。近期，研究實驗室已開始將LLMs和VLMs作為開發機器人政策的基礎組件。

兩種主要方法包括在模塊化系統中利用預訓練的LLMs和VLMs進行任務規劃與執行，以及從零開始構建VLA以生成機器人控制指令。RT-2和RT-2-X等著名案例為通用型機器人政策樹立了新的基準。

當前的VLA面臨兩大挑戰：封閉的架構限制了訓練和數據混合的透明度，缺乏將其部署及適應至新機器人和任務的標準實踐。研究人員強調需要開源的通用VLA以促進有效的適應，這與現有的語言模型開源生態系統相呼應。

OpenVLA的架構

OpenVLA由70億個參數組成，基於Prismatic-7B視覺-語言模型，包含一個雙部分的視覺編碼器進行圖像特徵提取，並搭配一個LLaMA-2 7B語言模型來處理指令。該模型在來自Open-X Embodiment數據集的970,000個機器人操作軌跡上進行微調，涵蓋了各種機器人任務和環境，同時生成與特定機器人行動對應的指令代碼。

OpenVLA接收自然語言指令和輸入圖像，通過推理確定完成任務（如“擦拭桌子”）所需的最佳行動序列。其性能驚人，超越了55億參數的RT-2-X模型，後者曾被認為是WidowX和Google Robot的最先進模型。

微調與效率

研究人員探討了在七個操作任務中高效的微調策略，顯示出微調後的OpenVLA政策超越了預訓練的替代品，尤其是在將語言指令轉換為涉及多種物體的多任務行為時。OpenVLA在所有測試任務中成功率超過50%，成為各種場景下模仿學習的可靠選擇。

為了提升可及性和效率，團隊採用了低秩適應（LoRA）進行微調，實現了在單個A100 GPU上於10至15小時內進行特定任務的調整，顯著降低了計算需求。模型量化進一步減少了模型大小，使其能夠在消費級GPU上部署而不影響性能。

開源OpenVLA

研究人員已將完整的OpenVLA模型開源，並提供部署和微調的筆記本及可擴展的VLA訓練代碼。他們預期這些資源將刺激對VLA在機器人技術中進一步探索和適應的興趣。這一庫支持在單一GPU上進行微調，並能夠在多節點GPU集群中協調十億參數的VLA訓練，符合當前的優化和並行技術。

OpenVLA的未來發展旨在整合多個圖像和本體感知輸入，以及觀察歷史。此外，利用在交錯的圖像和文本數據上進行預訓練的VLMs將可能提升VLA微調的靈活性。

隨著OpenVLA的出現，機器人技術社群正處於顯著進步的邊緣，使VLA模型在多元應用中更加可及和可適應。

Decagon 揭幕「人類般」的 AI 代理商，從隱形模式中革新企業客戶支持服務。

Augie Studio：為行銷人員和企業帶來AI影片製作的革命，類似Canva

Most people like

Kodezi

21.9K

介紹 Kodezi，這是一款創新的 AI 工具，旨在自動修正和提升您的程式碼質量，讓您毫不費力。透過 Kodezi 的智能功能，讓您的程式設計體驗更上一層樓，確保快速生成乾淨且無錯誤的程式碼。

AI 開發工具 AI Code Assistant

Jinni AI

18.7K

介紹 AI WhatsApp 助手：提升您的對話，達到最佳生產力！

人工智慧 AI Chatbot

Creatosaurus

24.5K

全面的創意與行銷平台，助您提升故事敘述。

創意平台 AI Social Media Assistant

ChatPDF

5.1M

介紹 ChatPDF，一項創新的 AI 驅動服務，讓用戶能輕鬆地與任何 PDF 文件互動。藉助 ChatPDF，您可以進行即時對話，獲得快速解答，並加深對複雜資料的理解。今天就來體驗更智能的文件處理方式吧！

PDF AI PDF

Find AI tools in YBX