OpenVLA：一個開源的通用機器人框架，適用於多種應用

Home AI新聞 OpenVLA：一個開源的通用機器人框架，適用於多種應用

基礎模型與機器人技術：OpenVLA的崛起

基礎模型在機器人技術領域取得了顯著進展，促進了視覺-語言-行動（VLA）模型的開發。這些模型能夠推廣到超出其初始訓練數據的物體、場景和任務。然而，由於其封閉性質及缺乏最佳實踐，這些模型的採用受到限制，使得在新環境中的部署和適應成為挑戰。

引入OpenVLA

為了解決這些問題，斯坦福大學、加州大學柏克萊分校、豐田研究所、Google DeepMind及其他機構的研究人員推出了OpenVLA，這是一個開源的VLA模型，訓練於多樣化的真實世界機器人演示。OpenVLA不僅在機器人任務上超越其他模型，還能輕鬆微調，以提高在涵蓋多種物體的多任務環境中的表現。該模型旨在高效運行，利用優化技術在消費級GPU上以最低的微調成本運行。

視覺-語言-行動模型的重要性

傳統的機器人操作方法通常在情境外的推廣上面臨挑戰，面對干擾或未見物體時效果不佳，並且難以適應略有變動的任務指示。相對而言，大型語言模型（LLMs）和視覺-語言模型（VLMs）因其龐大的互聯網範圍預訓練數據集而在推廣能力上表現優異。近期，研究實驗室已開始將LLMs和VLMs作為開發機器人政策的基礎組件。

兩種主要方法包括在模塊化系統中利用預訓練的LLMs和VLMs進行任務規劃與執行，以及從零開始構建VLA以生成機器人控制指令。RT-2和RT-2-X等著名案例為通用型機器人政策樹立了新的基準。

當前的VLA面臨兩大挑戰：封閉的架構限制了訓練和數據混合的透明度，缺乏將其部署及適應至新機器人和任務的標準實踐。研究人員強調需要開源的通用VLA以促進有效的適應，這與現有的語言模型開源生態系統相呼應。

OpenVLA的架構

OpenVLA由70億個參數組成，基於Prismatic-7B視覺-語言模型，包含一個雙部分的視覺編碼器進行圖像特徵提取，並搭配一個LLaMA-2 7B語言模型來處理指令。該模型在來自Open-X Embodiment數據集的970,000個機器人操作軌跡上進行微調，涵蓋了各種機器人任務和環境，同時生成與特定機器人行動對應的指令代碼。

OpenVLA接收自然語言指令和輸入圖像，通過推理確定完成任務（如“擦拭桌子”）所需的最佳行動序列。其性能驚人，超越了55億參數的RT-2-X模型，後者曾被認為是WidowX和Google Robot的最先進模型。

微調與效率

研究人員探討了在七個操作任務中高效的微調策略，顯示出微調後的OpenVLA政策超越了預訓練的替代品，尤其是在將語言指令轉換為涉及多種物體的多任務行為時。OpenVLA在所有測試任務中成功率超過50%，成為各種場景下模仿學習的可靠選擇。

為了提升可及性和效率，團隊採用了低秩適應（LoRA）進行微調，實現了在單個A100 GPU上於10至15小時內進行特定任務的調整，顯著降低了計算需求。模型量化進一步減少了模型大小，使其能夠在消費級GPU上部署而不影響性能。

開源OpenVLA

研究人員已將完整的OpenVLA模型開源，並提供部署和微調的筆記本及可擴展的VLA訓練代碼。他們預期這些資源將刺激對VLA在機器人技術中進一步探索和適應的興趣。這一庫支持在單一GPU上進行微調，並能夠在多節點GPU集群中協調十億參數的VLA訓練，符合當前的優化和並行技術。

OpenVLA的未來發展旨在整合多個圖像和本體感知輸入，以及觀察歷史。此外，利用在交錯的圖像和文本數據上進行預訓練的VLMs將可能提升VLA微調的靈活性。

隨著OpenVLA的出現，機器人技術社群正處於顯著進步的邊緣，使VLA模型在多元應用中更加可及和可適應。

Decagon 揭幕「人類般」的 AI 代理商，從隱形模式中革新企業客戶支持服務。

Augie Studio：為行銷人員和企業帶來AI影片製作的革命，類似Canva

Most people like

EssayFlow

58.6K

介紹我們的先進AI論文寫作工具—專為您量身打造的高品質、徹底研究且無抄襲的論文。體驗尖端科技在製作學術與專業寫作中的眾多好處。

AI 論文寫作工具 AI Checker Essay

Netus AI

88.8K

發現 NetusAI，這是一款先進的改寫工具，採用了尖端且無法被檢測的人工智慧模型，確保高品質的內容轉換。透過 NetusAI，輕鬆提升您的寫作，讓智慧科技與無縫創意完美結合。

改寫 AI Rewriter

Infography

32.6K

您是否希望提升您的博客內容並吸引讀者？將您的博客文章轉換為引人注目的資訊圖表是一種強大的視覺展示資訊的方法。資訊圖表不僅簡化了複雜資料，還使其更易於分享，擴大您的內容觸及範圍。在本指南中，我們將探討有效策略，將您的文字內容轉換為驚人的資訊圖表，以吸引讀者並提升品牌的能見度。了解如何利用資訊圖表的藝術，最大化您的博客文章的影響力！

資訊圖表 AI Photo & Image Generator

insMind

1.2M

提升您的產品圖片，使用我們專為圖像增強設計的先進AI照片編輯器。將普通照片轉變為驚豔的視覺效果，吸引您的觀眾並推動銷售。輕鬆發現AI技術的威力，提升您產品圖片的清晰度、色彩和細節。

人工智慧照片編輯 AI Photo & Image Generator

Find AI tools in YBX