大型語言模型(LLMs)在解決規劃和推理任務上展現了潛力,能夠探索各種解決方案。然而,目前的方法往往耗時、計算資源密集,有時還會產生不可靠的結果。
為了解決這些挑戰,康奈爾大學和IBM研究院的研究人員開發了AutoToS,這是一種將大型語言模型的規劃能力與基於規則的搜索演算法的效率和精確性相結合的技術。AutoToS減少了人為干預,大幅降低了解決規劃問題的計算開銷,使其成為需要理性決策的大型語言模型應用的可行方案。
創新的規劃技術
對於使用LLMs解決規劃問題的興趣急劇上升,催生了多種方法。其中最有效的之一,思想樹(Tree of Thoughts),利用LLMs作為搜索演算法來驗證解決方案並提出修正。然而,這些技術面臨兩個關鍵挑戰:對LLMs的调用需求高,成本顯著,以及缺乏對“完整性”和“合理性”的保證。完整性確保如果存在解決方案,最終會被找到,而合理性則確認提供的任何解決方案都是有效的。
搜尋思想(Thought of Search, ToS)則提出了一種替代方案,利用LLMs生成搜索演算法的關鍵組件代碼:前驅函數(探索不同節點)和目標函數(確定是否達到期望狀態)。此方法透過減少LLM在搜索過程中的參與,提高了效率。
IBM研究院的首席研究人員Michael Katz解釋道:“歷史上,規劃社群要麼手動編碼這些組件以解決新問題,要麼從規劃語言描述中生成它們,這些描述要麼是手動編碼的,要麼是從數據學習的。我們的目標是利用大型語言模型從文本問題描述中生成搜索組件的代碼。”
原始的ToS技術在搜索演算法的合理性和完整性上取得了可喜的進展,但仍需要人類專家的反饋來檢視生成的代碼,這造成了瓶頸,影響了演算法的速度。
使用AutoToS自動化過程
為了克服這一限制,AutoToS通過單元測試和調試語句自動化反饋和調試過程,並結合了少量樣本和思路鏈(chain-of-thought, CoT)提示技術。
AutoToS的運作步驟如下:首先,它向LLM提供問題描述並提示其生成前驅和目標函數的代碼。接著,單元測試評估目標函數並提供必要的修訂反饋。一旦目標函數通過測試,該演算法進行有限的廣度優先搜索來驗證合理性和完整性,並進行迭代直至所有標準達成。最後,驗證過的函數納入經典搜索演算法中,進行高效的全面搜索。
AutoToS的評估
研究人員在各種規劃和推理任務中評估了AutoToS,包括積木世界(BlocksWorld)、迷你填字遊戲(Mini Crossword)和24遊戲(24 Game),後者要求四個整數經算術運算組合成24。他們利用不同的LLMs,如GPT-4o、Llama 2和DeepSeek Coder,以分析模型尺寸對性能的影響。
結果顯示,AutoToS使所有模型能夠利用反饋識別和修正代碼錯誤。較大的模型在未獲得反饋的情況下通常能生成準確的目標函數,並且加強前驅函數的迭代次數極少。值得注意的是,即便是較小的GPT-4o-mini,表現出的準確度也相當強勁。
研究人員指出:“只需少量的語言模型調用,我們便能在無需直接人類反饋的情況下獲得搜索組件,確保合理性、完整性,並在所有模型和領域中達到近乎100%的準確率。”與其他方法相比,AutoToS顯著減少了LLMs的調用次數;例如,在24遊戲數據集中解決1,362個謎題,之前的方法大約需要100,000次調用GPT-4,而AutoToS平均僅需2.2次調用。
Katz表示:“有了這些組件,我們能夠利用標準的BFS算法在2秒內以完全準確性解決所有1,362個遊戲,而這是之前的方法無法實現的。”
企業應用的啟示
AutoToS在需要規劃解決方案的企業環境中具有顯著潛力。通過降低LLM的使用成本和對人工輸入的依賴,使專家能夠專注於高層次的規劃和目標規範。
Katz強調:“我們希望AutoToS能夠促進基於規劃的解決方案的開發和部署,利用語言模型創建可驗證的搜索組件,加速開發的同時避開典型的LLM部署問題。”
ToS和AutoToS展示了神經符號人工智慧(neuro-symbolic AI)這一混合方法,結合了深度學習和基於規則的系統來解決複雜挑戰。這一方法越來越被認識為解決當前人工智慧系統不足的有效方向。
IBM研究科學家Harsha Kokel表示:“我對混合系統在AI中的未來角色毫不懷疑。當前的語言模型可以被視為混合系統,因為它們進行搜索以確定下一個標記。”
儘管ToS和AutoToS展現了交口稱讚的潛力,但仍需進一步探索。
Kokel和Katz總結道:“目睹自然語言規劃的演變以及LLMs如何增強規劃工具在決策過程中的整合,令人振奮,這為未來智能代理的發展鋪平了道路。 我們期待探索LLMs的世界知識如何豐富現實情況下的規劃和行動。”