大型語言模型(LLMs)根本上依賴於其訓練所使用數據的質量和範疇。研究人員長期以來一直在尋求有效方法,讓這些模型能夠在生成輸出時自我修正不準確之處。早期的努力,例如麻省理工學院開發的多代理人方法,已顯示出可喜的前景。然而,來自Google DeepMind的最新研究發現,LLMs在嘗試自主自我修正時,實際上可能會出現性能下降。
在題為《大型語言模型尚無法自我修正推理》的論文中,Google DeepMind的研究團隊進行了廣泛的實驗,以澄清LLMs自我修正能力的局限性。他們的分析指出了一個重大挑戰:當這些模型僅根據內部判斷來糾正錯誤時——而沒有任何外部指導——它們往往無法成功。這一發現與先前的研究大相徑庭,後者認為在‘神諭’的引導下,內在的自我修正是有效的。缺乏這些神諭導致模型在準確性方面無法提升。
研究團隊強調,LLMs必須具備自我修正能力,特別是因為在許多現實應用中,“外部反饋是無法獲得的。”
自我修正的挑戰
幻覺,即LLMs生成的虛假輸出,代表了這些模型面臨的各種挑戰之一。雖然沒有系統可以完全避免這些不準確,但有緩解策略存在,例如Gorilla提出的AST樹方法和MIT研究人員正在探索的多代理人社會方法。
想像一下,如果基於LLM的客戶服務聊天機器人意識到自己提供了錯誤答案並自主修正這一錯誤的情境。AI研究社群越來越專注於將這一情境變為現實。Google研究人員考慮到這一目標,但指出許多歸因於自我修正的改進實際上可能是由於初始提示設計不佳,反而被良好設計的反饋所掩蓋。“在這種情況下,”他們表示,“將反饋整合到初始指示中或調整初始提示可能會產生更好的結果並降低成本。”
然而,這種調整並未實現LLMs完全自主自我修正的願望。例如,指導模型“回顧先前答案並識別錯誤”可能會導致不正確的結果,即使最初的回答是準確的。
探索輸出的連貫性
該研究涉及多個模型,包括OpenAI的ChatGPT,進行基準測試,任務是生成代碼。隨後的基於代理的系統對這些回應進行錯誤檢查,以促進自我修正。這個過程揭示,雖然沒有單一的AI模型能夠一致地產生相同的輸出,但多個LLMs可以集體達成一致的回應。
該研究強調自我連貫性的概念,認為觀察到的改進並非源自自我修正,而是來自模型輸出的一致性增加。關鍵在於投票機制是基於模型驅動的見解還是單純的輸出計數。因此,要將某種情形歸類為自我修正,必須排除生成多個輸出所帶來的選擇效應。
走向有效的自我修正
問題仍然是:何時才能實現LLMs真正的自我修正?Google DeepMind建議,自我修正能力在需要更安全響應生成的應用中尤其重要。研究指出,像Claude的“憲法AI”系統那樣整合真實標籤的模型,能幫助LLMs在推理過程中避免錯誤回應。
目前,LLMs尚無法在沒有外部輸入的情況下獨立自我修正推理。研究人員認為,假設這些模型最終會發展出自主自我修正能力過於樂觀。相反,他們主張應改進現有模型,為未來的自我修正做好準備。
為了推進這一重要領域,他們呼籲研究人員採取精明的自我修正觀點——認可其潛力同時了解其限制。這種平衡的方法將更好地幫助LLMs提升準確性和可靠性,指導它們在各種應用中成為精確和可靠的工具。