隨著大型語言模型(LLMs)在處理複雜任務方面的能力不斷提升,它們在首次嘗試時仍常無法提供準確的回答。這引發了對增強其識別和修正錯誤能力的興趣,這一過程稱為「自我修正」。然而,現有的自我修正方法存在局限,常常無法滿足現實需求。
在一篇具有開創性的研究論文中,Google DeepMind 的研究人員提出了透過增強學習進行自我修正(SCoRe)的方法,這是一種新穎的方法,能顯著提升 LLM 的自我修正能力,並且僅依賴自生成數據。SCoRe 有望增強 LLM 的可靠性和穩健性,為其推理和解決問題的能力帶來新契機。
Google DeepMind 的研究科學家 Aviral Kumar 稱:「自我修正能大幅增強人類思考能力。人類常花時間思考多種想法並修正錯誤,最終找到正確解答。我們希望 LLM 具備同樣的能力。」
理想的 LLM 應具備強大的自我修正能力,能夠評估並細化自身的回答,直到獲得正確答案。這非常重要,因為儘管 LLM 通常具備解決問題所需的知識,但它們可能在首次回答時無法有效地運用這些知識。
Kumar 解釋道:「從基本的機器學習觀點來看,我們不期待 LLM 一次就解決困難問題。因此,我們希望 LLM 在思考和自我修正上投入更多計算努力,以在面對挑戰時取得成功。」
先前使 LLM 能夠自我修正的嘗試主要依賴於提示工程或微調模型,通常需要外部反饋或來自「神諭」的指導。這些現有技術往往忽視了模型的內在自我修正能力。例如,監督微調(SFT)方法在很大程度上依賴人類標註者或更強模型的反饋,限制了其在現實場景中的應用。此外,SFT 方法有時在推斷過程中需要多個模型進行驗證,增加了部署的複雜性。
DeepMind 的研究顯示,雖然 SFT 可以提升模型的初始輸出,但當模型需要在幾個步驟中修正答案時,效果卻不如預期,這是面對複雜問題的常見需求。Kumar 指出:「在訓練結束時,模型可能學會糾正基準模型的錯誤,但仍無法檢測自己的錯誤。」
SFT 的另一個缺點是可能導致意外行為,模型學會在首次嘗試時提供最佳答案,而不進行調整,即使該答案是錯誤的。據 Kumar 補充,「SFT 訓練的模型傾向於採用‘直接’策略,而不是學習自我修正的過程。」
透過增強學習的進展
為了解決這些局限性,DeepMind 的研究人員轉向增強學習(RL)。Kumar 表示:「當前的 LLM 無法有效執行自我修正,它們未訓練反思過去的錯誤,而是旨在對問題給出最佳回答。因此,我們開發了自我修正的方法。」
SCoRe 教導單一模型獨立生成回應及修正錯誤,無需外部反饋。這通過僅以自生成數據進行訓練來實現,徹底消除了對外部信息的依賴。
早期的 RL 自我修正方法主要依賴於單回合互動,導致行為崩潰,模型忽略自我修正指令,直接憑記憶提供最佳猜測。Kumar 說:「幼稚的 RL 方法讓模型忽略自我修正提示,僅專注於產出零樣本回應。」
為了解決行為崩潰問題,SCoRe 採用由正則化技術增強的兩階段訓練過程。第一階段優化修正效果,同時確保模型的初始回應與基準模型的輸出保持一致。第二階段則採用多回合 RL,提升初始及後續嘗試的表現,結合獎勵系統,促使模型在多次迭代中改善答案。
研究人員解釋說:「這種雙重方法確保模型不僅僅學會給出最佳的第一次回應並最小化調整。總體而言,SCoRe 有效利用基準模型的知識進行正向自我修正。」
SCoRe 的應用
DeepMind 的研究人員在評估 SCoRe 時使用了自生成數據,特別聚焦於數學和編程任務,並選取了如 MATH、MBPP 和 HumanEval 等基準。SCoRe 在 Gemini 1.0 Pro 和 1.5 Flash 模型的自我修正能力上顯著提升,MATH 基準上實現了 15.6% 的絕對增益,HumanEval 上相較於基準模型提高了 9.1%,且超越了其他自我修正技術。
最顯著的改善是模型在第一次到第二次嘗試中的錯誤修正能力,同時將對正確答案的錯誤修正降至最低。當 SCoRe 結合推斷時的擴展策略時,其效率也得以大幅提升,進一步提高通過將同樣的推斷預算分配到多次修正回合來增進性能。
儘管該研究主要聚焦於編碼和推理任務,團隊相信 SCoRe 具有更廣泛的應用前景。Kumar 建議:「想象一下,模型能夠識別潛在的安全性問題並在用戶看到之前自主進行改進。」
這項工作強調了教導 LLM 如何推理和自我修正的重要性,而不僅僅是將輸入映射到輸出,為打造更強大且可靠的 AI 系統鋪平了道路。