Meta的 OK-Robot 在未經訓練的環境中實現零樣本拾取與放置能力

最近的視覺語言模型(VLM)進展,促進了自然語言查詢與視覺場景中物體的匹配。研究人員正在探索如何將這些模型整合進入機器人系統,然而這些系統通常難以概括其能力。

Meta AI和紐約大學的研究人員發表了一篇開創性的論文,提出了一個名為OK-Robot的開放知識框架。這一創新系統結合了預訓練的機器學習模型,能在不熟悉的環境中執行任務,特別是進行取放操作,且無需額外訓練。

現有機器人系統的挑戰

大多數機器人系統是針對其先前遇到的環境進行設計,這限制了它們適應新環境的能力,特別是在家庭等非結構化空間。儘管VLM在連結語言提示和視覺物體方面有顯著進展,且機器人的導航與抓取技術也在提升,將這些技術相結合仍然導致表現不理想。

研究人員指出:“推進這一問題需要一個精確而靈活的框架,能整合VLM與機器人基元,並且具備接納來自VLM和機器人社群新模型的靈活性。”

OK-Robot的概述

OK-Robot將尖端的VLM與強大的機器人機制整合,以在未見環境中執行取放任務。該系統使用在大量公共數據集上進行訓練的模型。

該框架由三個主要子系統組成:開放詞彙物體導航模塊、RGB-D抓取模塊及投放啟發式系統。進入新空間時,OK-Robot需要手動掃描,這可通過iPhone應用輕鬆完成,用戶在移動時捕獲一系列RGB-D圖像,這些圖像結合相機定位,生成3D環境地圖。

每張圖像使用視覺變換器(ViT)模型進行處理,以提取物體信息。這些數據及環境上下文信息輸入語義物體記憶模塊,讓系統能根據自然語言查詢回應物體取回的需求。該記憶模塊計算語音提示的嵌入,並將其與最近的語義表示匹配。導航算法隨後規劃最有效的路徑,以確保機器人有足夠空間安全抓取物體。

最後,機器人使用RGB-D相機配合物體分割模型和預訓練的抓取模型來抓取物品。此方法同樣應用於導航至投放點。該系統使機器人能夠根據不同物體類型確定最適合的抓取方式,並處理可能不平坦的目的地。

“從進入全新的環境到開始自主操作,我們的系統平均在10分鐘內完成首次取放任務,”研究人員報告道。

測試與結果

研究人員在十個家庭中評估了OK-Robot,進行了171次取放實驗。它成功地完成了58%的完整操作,展示了其零-shot能力,即模型並未針對這些環境進行過明確訓練。通過優化輸入查詢、清理空間及減少干擾物體,成功率可以超過82%。

儘管潛力巨大,OK-Robot仍存在限制。它偶爾會將自然語言提示與正確物體錯位,對某些抓取方式感到困難,並且硬體受限。此外,物體記憶模塊在掃描後保持靜態,無法適應物體位置或可用性變化。

儘管面臨挑戰,OK-Robot項目提供了重要的見解。首先,它表明當前的開放詞彙VLM在識別多樣化的現實世界物體及以零-shot學習導航至這些物體方面表現卓越。此外,該研究確認了專業機器人模型在龐大數據集上預訓練後,能無縫促進開放詞彙的抓取於新環境中的應用。最後,它突顯了結合預訓練模型以實現零-shot任務的潛力,為未來這一新興領域的進步鋪平了道路。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles