大型語言模型(LLMs)在處理事實和邏輯錯誤時,特別是在進行複雜推理任務時,經常會遇到問題。為了減輕這一情況,研究人員通常會實施驗證器或獎勵模型,以評估並選擇從LLMs生成的多個輸出中最準確的回應。
來自Google DeepMind、多倫多大學、Mila及加州大學洛杉磯分校的最新論文介紹了GenRM,這是一種創新的方法,利用LLMs的生成能力來強化驗證過程。GenRM是一種對於基於LLM的應用相當有價值的工具,尤其在傳統驗證方法無法滿足需求的情況下。
經典驗證器和獎勵模型的局限性
提升LLM準確性的常見方法是生成多個候選答案,並利用另一個元件來找出最佳答案。這需要可靠的驗證器或獎勵模型。通常,基於LLM的驗證器被訓練為識別性獎勵模型(RMs),這些模型通過分配數值分數來評估候選解決方案的正確性。然而,這些RMs並未充分利用LLMs在生成和處理回應方面的固有優勢。
“雖然經典的獎勵模型(RMs)/驗證器是通過微調LLMs來訓練的,但它們並未利用LLMs在文本生成方面的基本能力,”論文的共同作者及DeepMind高級研究科學家Rishabh Agarwal表示。
另一種常見技術是LLM-as-a-Judge,這種技術透過先進的提示方法來評估回答。儘管這種方法提供了靈活性,但在訓練中未能獲得獎勵模型的能力。
生成獎勵模型
DeepMind的GenRM提出了一種替代方案,通過下一個標記預測訓練驗證器,充分發揮LLMs的生成優勢。“通過下一個標記預測訓練RMs,使其能夠充分利用生成LLMs的各種優勢,”Agarwal說。“我們證明同一模型能夠進行驗證和生成解決方案,使用思路鏈推理來提高準確性。”
在GenRM中,驗證決策表達為一個標記。例如,為某一解決方案創建分數時,驗證器使用提示如“答案是否正確?”並根據上下文將分數表示為文本標記的概率(例如,“是”或“否”)。
考慮到驗證通常涉及複雜推理,生成驗證器能從先進的提示技術(如思路鏈(CoT)推理)中獲益良多,這鼓勵模型在得出答案之前梳理出其思考過程。
“具體而言,我們可以在決定解決方案的正確性之前生成中間推理步驟或評論(CoT),從而可能揭示直接驗證器未能察覺的微妙錯誤,”研究人員表示。
用於訓練GenRM模型的CoT推理可以來自人類輸入或其他LLM。在推理過程中,GenRM首先生成一個CoT推理,然後使用“是”標記的概率來確定正確性分數。
為進一步提高CoT驗證器的準確性,研究人員運用了多數投票法。他們取樣多條CoT鏈,計算所有樣本的平均“是”分數,有效地優化了測試期間的計算。
“GenRM可以被概念化為將LLM-as-a-Judge與經典驗證器融合,它代表了一個針對特定領域驗證數據進行訓練的LLM-as-a-Judge,”Agarwal解釋道。“因此,GenRM適用於任何標準提示的LLMs不夠的領域。”
GenRM的實踐應用
為評估GenRM的有效性,DeepMind的研究人員在多個推理任務中測試了該模型,包括最後字母連接、單詞排序和詞數學問題。研究團隊將GenRM與標準方法進行比較,包括識別性獎勵模型、LLM-as-a-Judge和“自我一致性”,後者使模型生成多個答案並選擇最頻繁的答案。
在所有任務中,使用CoT的GenRM始終比其他方法高出幾個百分點,包括專門訓練的識別性獎勵模型。在GSM8K數學推理基準上,針對GenRM訓練的Gemma-9B模型取得了92.8%的解題率,超越了GPT-4和Gemini 1.5 Pro的表現。
“通過將解答生成與下一個標記預測目標的驗證相結合,GenRM在所有任務中都不斷提高了驗證性能,”研究人員指出。“這一改進在直接驗證器和基於CoT的生成驗證器中都很明顯,表明教授驗證器模仿正確解決方案通常是有益的。”
實驗還顯示,GenRM在數據集大小和模型能力增長方面的擴展效果良好。此外,結合CoT的GenRM在取樣更多回應時仍顯示出改進,給LLM應用開發者提供了更大的靈活性,以平衡準確性和計算成本。
“與經典驗證器相比,GenRM能夠在相同數據下通過聯合訓練生成和驗證而超越它們,而GenRM的訓練僅涉及標準微調,”Agarwal表示。“然而,為了充分發揮GenRM的能力,我們需要能夠澄清獎勵標籤的評論或驗證推理。對於高品質數據,這可能涉及人類輸入,但更具可擴展性的解決方案會是合成的LLM生成推理。”
未來GenRM的發展方向可能包括擴展合成驗證推理,用於開放生成任務,將GenRM整合到強化學習管道中,以及利用先進的LLM能力,如少量學習、檢索增強生成、ReAct和代碼生成及執行,進一步提升驗證效果。