認識 Alter3:由 GPT-4 驅動的尖端人形機器人

東京大學及Alternative Machine的研究人員開發了一款名為Alter3的人形機器人系統,能夠將自然語言指令直接轉化為機器動作。利用像GPT-4這樣的大型語言模型(LLM)中所嵌入的豐富知識,Alter3可以執行複雜的任務,如拍攝自拍或模擬鬼魂行為。這項創新標誌著基礎模型與機器人系統整合的重要進展。儘管可擴展的商業解決方案仍在未來,但近期的進展為機器人研究帶來了新的活力,並充滿了潛力。

將語言轉化為機器人動作

Alter3以GPT-4作為核心模型,處理描述動作或場景的自然語言指令,讓機器人做出反應。該模型採用“代理框架”制定執行指定目標所需的一系列動作步驟。最初,它作為規劃者,確定執行所需任務的順序。

Alter3利用多種GPT-4提示格式來分析指令並將其映射到機器人指令上。由於GPT-4未經專門訓練以理解Alter3的編程指令,研究人員利用其上下文學習能力來調整輸出,以適應機器人的API。這包括提供一系列指令及使用示例,使模型能將每個動作步驟轉換為可執行的API命令。

“以前,我們需要手動按照特定順序控制43個軸來模擬人類姿勢或執行例如倒茶或下棋等動作,”研究人員表示。“有了LLM,我們擺脫了這一勞動密集型的過程。”

融入人類反饋

由於語言在詳細描述物理動作時可能存在不精確性,因此模型生成的動作序列未必始終能達到預期的機器人行為。為了解決這一問題,研究人員整合了反饋機制,允許用戶修正指令,如“再抬高一點手臂”。這些修正由另一個GPT-4代理處理,調整代碼並返回修訂後的動作序列供機器人執行。增強的計劃和代碼隨後將被存儲以供未來使用。

人類反饋和記憶的整合顯著提升了Alter3的性能。研究人員在各種任務中評估了機器人,從簡單動作如自拍和喝茶,到更複雜的模仿,如模仿鬼魂或蛇。該模型亦展示了其處理需精細規劃的情境能力。

“LLM的訓練涵蓋了多種動作的語言表達,GPT-4能準確將其轉化為Alter3的指令,”團隊解釋道。

隨著GPT-4對人類行為的深刻理解,它能有效生成現實的人形機器人行為計劃。在實驗中,團隊甚至成功為Alter3賦予了尷尬和喜悅等情感表達。

“即使文本中未明確提及情感線索,LLM也能推斷出適當的情感,並在Alter3的身體反應中表現出來,”研究人員強調道。

機器人模型的進展

基礎模型在機器人研究中的應用迅速增長。例如,市值達26億美元的Figure使用OpenAI模型來解讀人類命令並執行相應的現實行動。隨著基礎模型多模態能力的提高,機器人系統準備提升其環境推理和決策能力。

Alter3體現了一種趨勢,即現成的基礎模型作為機器人控制系統中的推理和規劃模組。值得注意的是,它並不依賴於經過微調的GPT-4版本,使其代碼能夠應用於其他人形機器人。

如RT-2-X和OpenVLA等項目利用專門的基礎模型來直接生成機器人指令。雖然這些模型通常能產生更穩定的結果並在多種任務和環境下進行泛化,但仍需較高的技術專業知識和開發成本。

然而,這些計畫中常被忽視的一個關鍵方面是讓機器人執行基本任務的根本挑戰,例如抓取物體、保持平衡和導航環境。“大量的工作發生在這些模型所處理的層面之下,”AI和機器人科學家Chris Paxton在最近的訪談中表示。“這是一些具有挑戰性的工作,主要是由於缺乏現有數據。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles