DeepMind 與史丹福大學的創新機器人控制模型,能根據草圖指令執行任務。

近期在語言與視覺模型方面的進展大幅提升了機器人系統依據文字或圖像指示執行任務的能力。然而,這些方法仍存在一定的局限性。來自斯坦福大學與 Google DeepMind 的研究人員提出了一項新研究,建議使用手繪草圖作為機器人的指令。草圖提供了豐富的空間信息,幫助機器人執行任務,避免了真實圖像的混亂或自然語言的模糊性。

Introducing RT-Sketch

研究團隊開發了 RT-Sketch,一個利用草圖控制機器人的模型。在標準條件下,該模型的表現與語言及圖像條件的代理相當,並在語言和圖像指示不足的情況下超越它們。

為什麼選擇草圖?

雖然語言是傳達目標的直接方式,但在需要精確操作的任務中,例如排列物件,可能會顯得不方便。圖像能詳細描述所需的目標,但獲取目標圖像往往不切實際。此外,預錄影像可能包含過多細節,導致過度擬合,難以適應新環境。

“我們最初的腦力激盪是讓機器人理解組裝手冊,例如 IKEA 的設計圖,並進行必要的操作,”斯坦福大學的博士生、該研究的首位作者 Priya Sundaresan 表示。“語言往往對這類空間任務過於模糊,且現成的圖像可能無法取得。”

團隊選擇草圖,因為其簡潔、易於產生且信息量豐富。草圖有效地傳達空間安排,而無需像素級的細節,使模型能夠識別任務相關的物件,提升其泛化能力。

“我們將草圖視為促進人類更便捷且表達豐富地指導機器人的重要一步,”Sundaresan 解釋道。

RT-Sketch 模型

RT-Sketch 基於 Robotics Transformer 1 (RT-1),這個模型能將語言指示轉換為機器人命令。研究人員針對此架構進行調整,以使用視覺目標,包括草圖和圖像。

為了訓練 RT-Sketch,他們利用了 RT-1 數據集,該數據集包含 80,000 條 VR 遙控操作任務的錄音,例如物體操作和櫃子操作。最初,他們從這些演示中選取 500 個示例,從最終視頻幀生成手繪草圖。這些草圖和相應的視頻幀被用來訓練一個生成對抗網絡(GAN),將圖像轉換為草圖。

訓練與功能

GAN 生成草圖以訓練 RT-Sketch 模型,並進一步增強變體,以模擬不同的手繪風格。在操作過程中,模型接收場景的圖像和所需物件排列的粗略草圖,生成一系列命令來實現指定目標。

“RT-Sketch 對於空間任務特別有利,當詳細的口頭指示不方便或圖像不可用時,”Sundaresan 說。

例如,設置晚餐桌時,像「把餐具放在盤子旁邊」的語言可能導致模糊,可能需要多次互動來澄清模型的理解。相比之下,簡單的草圖可以清晰地指示所需的佈局。

“RT-Sketch 還可以協助執行像拆包物品或在新空間中佈置家具等任務,以及折疊衣物等複雜的多步任務,”Sundaresan 補充道。

評估 RT-Sketch

研究人員在各種場景中測試 RT-Sketch,評估六種操作技能,如移動物件、敲打罐子和打開抽屜。該模型在基本操作任務中表現與現有的圖像和語言條件模型相當,在目標難以用語言表述的場景中則表現更佳。

“這表明草圖在有效平衡中找到了一個良好的位置;它們簡潔到能避免視覺干擾帶來的困惑,同時保留必要的語義和空間上下文,”Sundaresan 指出。

未來方向

展望未來,研究人員計劃探索草圖的更廣泛應用,可能與語言、圖像和人類手勢等其他模式進行整合。DeepMind 擁有多個使用多模態方法的機器人模型,而 RT-Sketch 的發現可望提升這些系統。他們對草圖在視覺表達之外的多樣潛力感到興奮。

“草圖可以用箭頭傳達動作,通過部分草圖表示子目標,並用簡單的線條表達限制,為尚未研究的操作任務提供有價值的信息,”Sundaresan 最後總結道。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles