Meta的 OK-Robot 在未經訓練的環境中實現零樣本拾取與放置能力

Home AI新聞 Meta的 OK-Robot 在未經訓練的環境中實現零樣本拾取與放置能力

最近的視覺語言模型（VLM）進展，促進了自然語言查詢與視覺場景中物體的匹配。研究人員正在探索如何將這些模型整合進入機器人系統，然而這些系統通常難以概括其能力。

Meta AI和紐約大學的研究人員發表了一篇開創性的論文，提出了一個名為OK-Robot的開放知識框架。這一創新系統結合了預訓練的機器學習模型，能在不熟悉的環境中執行任務，特別是進行取放操作，且無需額外訓練。

現有機器人系統的挑戰

大多數機器人系統是針對其先前遇到的環境進行設計，這限制了它們適應新環境的能力，特別是在家庭等非結構化空間。儘管VLM在連結語言提示和視覺物體方面有顯著進展，且機器人的導航與抓取技術也在提升，將這些技術相結合仍然導致表現不理想。

研究人員指出：“推進這一問題需要一個精確而靈活的框架，能整合VLM與機器人基元，並且具備接納來自VLM和機器人社群新模型的靈活性。”

OK-Robot的概述

OK-Robot將尖端的VLM與強大的機器人機制整合，以在未見環境中執行取放任務。該系統使用在大量公共數據集上進行訓練的模型。

該框架由三個主要子系統組成：開放詞彙物體導航模塊、RGB-D抓取模塊及投放啟發式系統。進入新空間時，OK-Robot需要手動掃描，這可通過iPhone應用輕鬆完成，用戶在移動時捕獲一系列RGB-D圖像，這些圖像結合相機定位，生成3D環境地圖。

每張圖像使用視覺變換器（ViT）模型進行處理，以提取物體信息。這些數據及環境上下文信息輸入語義物體記憶模塊，讓系統能根據自然語言查詢回應物體取回的需求。該記憶模塊計算語音提示的嵌入，並將其與最近的語義表示匹配。導航算法隨後規劃最有效的路徑，以確保機器人有足夠空間安全抓取物體。

最後，機器人使用RGB-D相機配合物體分割模型和預訓練的抓取模型來抓取物品。此方法同樣應用於導航至投放點。該系統使機器人能夠根據不同物體類型確定最適合的抓取方式，並處理可能不平坦的目的地。

“從進入全新的環境到開始自主操作，我們的系統平均在10分鐘內完成首次取放任務，”研究人員報告道。

測試與結果

研究人員在十個家庭中評估了OK-Robot，進行了171次取放實驗。它成功地完成了58%的完整操作，展示了其零-shot能力，即模型並未針對這些環境進行過明確訓練。通過優化輸入查詢、清理空間及減少干擾物體，成功率可以超過82%。

儘管潛力巨大，OK-Robot仍存在限制。它偶爾會將自然語言提示與正確物體錯位，對某些抓取方式感到困難，並且硬體受限。此外，物體記憶模塊在掃描後保持靜態，無法適應物體位置或可用性變化。

儘管面臨挑戰，OK-Robot項目提供了重要的見解。首先，它表明當前的開放詞彙VLM在識別多樣化的現實世界物體及以零-shot學習導航至這些物體方面表現卓越。此外，該研究確認了專業機器人模型在龐大數據集上預訓練後，能無縫促進開放詞彙的抓取於新環境中的應用。最後，它突顯了結合預訓練模型以實現零-shot任務的潛力，為未來這一新興領域的進步鋪平了道路。

Semron 獲得 790 萬美元資金，用於先進的 3D 集成 AI 晶片技術

AI毒害工具Nightshade在短短五天內下載量突破25萬次：‘超出我們的所有預期’