具身人工智慧代理人能夠與物理世界互動,具有廣泛的應用潛力。然而,目前主要的障礙在於訓練數據的稀缺。為了解決這一挑戰,倫敦帝國學院和Google DeepMind的研究者們推出了擴散增強代理人(DAAG)框架。這種創新的方法利用大型語言模型(LLMs)、視覺語言模型(VLMs)和擴散模型的能力,提高了具身代理人的學習效率和遷移學習能力。
為什麼數據效率對具身代理人如此重要?
近期在LLMs和VLMs方面的進步,讓人對其在機器人技術和具身人工智慧中的應用充滿期待。儘管這些模型可以基於廣泛的文本和圖像數據集進行訓練,但具身AI系統需要從物理互動中學習。真實世界在具身AI的數據收集方面面臨獨特挑戰,物理環境的複雜性和不可預測性遠超數字領域。此外,機器人和其他具身AI依賴於可能較慢、受噪音影響、且易於故障的物理傳感器和執行器。
研究人員強調,克服這些挑戰的關鍵在於優化代理人現有數據和經驗的使用。他們表示:「我們假設具身代理人可以透過利用過去經驗來有效探索,並在任務間轉移知識,從而實現更高的數據效率。」
DAAG是什麼?
擴散增強代理人(DAAG)框架旨在通過利用過去經驗和生成合成數據,幫助代理人更有效地學習任務。研究人員的目標是協助代理人自主設置和評估子目標,即使在沒有外部獎勵的情況下,也能通過重新運用先前的經驗來加速新任務的學習。
DAAG運作於馬可夫決策過程(MDP)之內。在每個回合開始時,代理人會接收任務指示,觀察其環境,並採取行動以達成與這些指示一致的狀態。它擁有兩個記憶緩衝區:一個是針對當前經驗的任務專門緩衝區,另一個是涵蓋所有過去經驗的「離線終身緩衝區」,不論其任務或結果。
DAAG綜合了LLMs、VLMs和擴散模型的優勢,使代理人能夠進行推理、環境分析和高效學習新目標,重新利用先前的經驗。LLM作為中央控制器,解釋新任務指示,將其拆分為更小的子目標,並與VLM和擴散模型協調以實現目標。
為了最大化過去經驗的效用,DAAG採用了名為後見經驗增強(HEA)的方法。VLM處理經驗緩衝區中的視覺觀察,並將其與期望的子目標進行比較,增強代理人的記憶。如果相關經驗缺失,擴散模型則生成合成數據,幫助代理人可視化潛在結果,實現無需直接物理互動的探索。
「通過HEA,我們可以合成增加代理記憶緩衝區中成功回合的數量,促進數據的有效重用,並顯著提升效率,尤其是在連續學習多個任務時。」研究人員解釋道。他們形容DAAG和HEA為一個無需人類監督的自主流程,利用幾何和時間一致性生成可靠的增強觀察。
DAAG的好處是什麼?
在多個基準和模擬環境中的評估顯示,DAAG在導航和物品操作等任務中顯著超越了傳統強化學習系統。值得注意的是,即便在沒有明確獎勵的情況下,DAAG啟用的代理人依然能夠達成目標,更快地實現目標,且與環境的互動需求較非DAAG代理人少。
該框架擅長重用先前任務的數據,使新目標的學習更加迅速。任務間知識轉移的能力對創造持續學習和適應能力的代理人至關重要。DAAG在優化遷移學習方面的有效性,為更具彈性和靈活性的機器人及具身人工智慧系統鋪平了道路。
「這項研究顯示出解決機器人學習數據稀缺問題和開發更具能力代理人的美好前景。」研究人員總結道。