新興的大型語言模型(LLMs),如OpenAI的ChatGPT(特別是GPT-4)、Claude AI和Gemini,展現出有限的決策能力。本文探討了近期有關LLM決策的研究及其對未來的影響。
傳統上,LLM的有效決策涉及辨識基本模式或規則,並靈活應用於新情境。聖塔菲研究所的研究發現,包括ChatGPT在內的LLMs在「推理基本核心概念」方面存在困難。作出明智決策需要深入了解提示的上下文及輸出的潛在後果。
LLMs的糟糕決策可能導致有害結果。例如,在2023年,國家飲食失調協會因其AI聊天機器人「Tessa」開始提供有害建議(如建議每週稱重和減少500到1000卡路里的熱量攝取)而暫停其服務。這一反彈促使該聊天機器人迅速停用。
LLMs也傾向於產生籠統的建議。INSEAD的研究顯示,在被問及商業戰略時,ChatGPT通常依賴傳統智慧,如促進合作和創新文化。然而,商業戰略是一個複雜的過程,需要具體的見解,而非籠統的建議。
一種反論是專門訓練LLMs處理商業戰略或醫療建議可能解決這些問題。然而,改善其上下文理解不能僅靠擴大數據集。單純增加數據可能導致偏見,並增加計算需求,卻無法提升決策質量。
加強與上下文相符的決策能力
為LLMs進行上下文相符的決策訓練需要細緻的方法。當前機器學習研究中的兩種先進策略提出了增強LLM決策以模仿人類認知過程的方法。第一種,AutoGPT,使用自我反思機制來計畫和驗證輸出。第二種,思維樹(Tree of Thoughts, ToT),通過跳脫傳統線性推理來促進有效決策。
AutoGPT旨在自主創建、評估和完善模型,以實現特定目標。對AutoGPT的增強現在納入了「額外意見」策略,將專家模型整合到決策過程中。這種整合使得LLMs能夠運用各種專家分析的相關信息,從而通過系統性「思考-推理-計畫-評估」方法改善決策結果。
如果有效實施,增強專家模型的LLMs可能處理比人類更多的信息,提示它們能做出更明智的決策。然而,AutoGPT的一個限制是其有限的上下文視窗,這可能導致無限的互動循環。相比於在對話過程中逐步注入數據,提前提供所有相關信息通常能獲得更好的結果。
模擬人類認知的思維樹
思維樹(ToT)框架提供了另一種有前景的方法來提高LLM的準確性,模仿人類的認知過程。人類決策通常涉及生成和評估多個情境。ToT識別了LLMs中的線性推理缺陷,類似於AutoGPT的方法。在實驗中,ToT測量LLMs遵循自然語言指令完成任務(如解謎和創意寫作)的能力。
在LLMs中,傳統的線性推理由「思路鏈」表示, delineates 一個序列的決策過程。然而,ToT旨在提升LLMs的自我批判能力,並探索各種推理路徑。例如,在24點遊戲中,思路鏈在識別達到24的不同數學運算方面表現不佳,導致低準確率。而ToT通過評估多種結果,實現了74%的準確率。
如果LLMs能夠持續改善其判斷力,未來人類與AI在策略決策上的合作將成為現實。ToT的應用範圍擴展到編碼、數據分析和機器人技術,而AutoGPT則致力於追求一般智能。
隨著學術研究的發展,增強LLMs認知決策的創新策略層出不窮。考慮到它們內在的高效數據分析能力,成功的進展可能使LLMs在未來幾年內匹敵甚至超越人類的決策能力。