基礎模型已經改變了計算機視覺和自然語言處理,現在研究人員提出將這些原則應用於開發基礎代理。這些人工智慧系統旨在實現物理環境中的開放式決策任務。
在最近的一篇立場論文中,中國科學院的科學家將基礎代理定義為“在物理和虛擬世界中普遍能力的代理”。他們認為,這些代理可能引發決策模式的重大轉變,類似於大型語言模型 (LLMs) 在語言和知識密集型任務中的革命性影響。
基礎代理有望簡化多功能人工智慧系統的創建,這些系統將顯著影響當前依賴僵硬、特定任務 AI 解決方案的領域。
人工智慧決策面臨的挑戰
傳統的人工智慧決策方法有明顯的局限性。專家系統依賴於正式的人類知識和手動創建的規則。強化學習 (RL) 系統需要為每個新任務進行大量從零開始的訓練,限制了其概括能力。模仿學習 (IL) 需要相當大的人工努力來準備訓練範例。
相比之下,LLMs 和視覺語言模型 (VLMs) 能以最小的微調迅速適應不同任務。研究人員認為,通過必要的修改,這些方法可應用於開發基礎代理,使其能夠處理物理和虛擬領域中的開放式決策任務。
基礎代理的主要特徵
研究人員強調基礎代理的三個基本特徵:
1. 統一表徵:環境狀態、代理行動及反饋信號的綜合描繪。
2. 統一政策介面:適用於廣泛的任務和領域,包括機器人、遊戲、健康護理等。
3. 理性決策過程:基於對世界知識、環境因素及與其他代理互動的理解做出決策。
研究人員表示:“這些特徵賦予基礎代理多模態感知、跨任務和領域的適應能力,以及以少量或無例子的概括能力。”
基礎代理的發展藍圖
基礎代理的發展藍圖包括三個關鍵組件:
1. 數據收集:必須從互聯網和現實環境中收集大規模互動數據。在數據獲取困難的場景中,可以使用模擬器和生成模型如 Sora。
2. 無標註數據的預訓練:基礎代理應該使用無標註數據進行預訓練,以培養有用的決策知識,這樣可以為在較小的特定數據集上的微調做好準備,迅速適應新任務。
3. 與 LLMs 對齊:基礎代理應與大型語言模型整合,將世界知識和人類價值觀納入其決策過程。
基礎代理的挑戰和機遇
開發基礎代理會引入不會在語言和視覺模型中遇到的獨特挑戰。物理世界的細節涉及低層次信息而非高層次抽象,這使得為決策變量創建統一表徵變得複雜。
此外,各種決策場景中的大規模領域變化妨礙了統一政策介面的發展。雖然統一的基礎模型可涵蓋所有模態和環境,但這可能增加複雜性,影響可解釋性。
基礎代理必須積極參與動態決策過程,這是語言和視覺模型以內容為中心角色的重大轉變。研究人員提出多種途徑,旨在彌合現有基礎模型與能夠應對不斷演變任務和環境的代理之間的差距。
在機器人技術領域,控制系統和基礎模型的融合正在迅速推進,旨在創建能夠在未遇到的任務中進行概括的適應性系統。這些系統利用 LLMs 和 VLMs 的廣泛常識知識,在不熟悉的情況下做出明智的決策。
另一個重要的探索領域是自動駕駛,研究人員正在調查大型語言模型如何通過整合常識知識和人類認知能力來提升駕駛系統。其他領域,包括健康護理和科學研究,也將受益於基礎代理與人類專家的協作。
研究人員堅稱:“基礎代理有潛力改變決策過程,正如基礎模型對語言和視覺的影響一樣。它們的高級感知、適應性和推理能力不僅能夠解決傳統 RL 的局限性,還能充分發揮基礎代理在現實應用中的潛力。”