排行榜類別收藏

DeepMind的GenRM透過自我驗證輸出，提升語言模型的準確性

Home AI新聞 DeepMind的GenRM透過自我驗證輸出，提升語言模型的準確性

大型語言模型（LLMs）在處理事實和邏輯錯誤時，特別是在進行複雜推理任務時，經常會遇到問題。為了減輕這一情況，研究人員通常會實施驗證器或獎勵模型，以評估並選擇從LLMs生成的多個輸出中最準確的回應。

來自Google DeepMind、多倫多大學、Mila及加州大學洛杉磯分校的最新論文介紹了GenRM，這是一種創新的方法，利用LLMs的生成能力來強化驗證過程。GenRM是一種對於基於LLM的應用相當有價值的工具，尤其在傳統驗證方法無法滿足需求的情況下。

經典驗證器和獎勵模型的局限性

提升LLM準確性的常見方法是生成多個候選答案，並利用另一個元件來找出最佳答案。這需要可靠的驗證器或獎勵模型。通常，基於LLM的驗證器被訓練為識別性獎勵模型（RMs），這些模型通過分配數值分數來評估候選解決方案的正確性。然而，這些RMs並未充分利用LLMs在生成和處理回應方面的固有優勢。

“雖然經典的獎勵模型（RMs）/驗證器是通過微調LLMs來訓練的，但它們並未利用LLMs在文本生成方面的基本能力，”論文的共同作者及DeepMind高級研究科學家Rishabh Agarwal表示。

另一種常見技術是LLM-as-a-Judge，這種技術透過先進的提示方法來評估回答。儘管這種方法提供了靈活性，但在訓練中未能獲得獎勵模型的能力。

生成獎勵模型

DeepMind的GenRM提出了一種替代方案，通過下一個標記預測訓練驗證器，充分發揮LLMs的生成優勢。“通過下一個標記預測訓練RMs，使其能夠充分利用生成LLMs的各種優勢，”Agarwal說。“我們證明同一模型能夠進行驗證和生成解決方案，使用思路鏈推理來提高準確性。”

在GenRM中，驗證決策表達為一個標記。例如，為某一解決方案創建分數時，驗證器使用提示如“答案是否正確？”並根據上下文將分數表示為文本標記的概率（例如，“是”或“否”）。

考慮到驗證通常涉及複雜推理，生成驗證器能從先進的提示技術（如思路鏈（CoT）推理）中獲益良多，這鼓勵模型在得出答案之前梳理出其思考過程。

“具體而言，我們可以在決定解決方案的正確性之前生成中間推理步驟或評論（CoT），從而可能揭示直接驗證器未能察覺的微妙錯誤，”研究人員表示。

用於訓練GenRM模型的CoT推理可以來自人類輸入或其他LLM。在推理過程中，GenRM首先生成一個CoT推理，然後使用“是”標記的概率來確定正確性分數。

為進一步提高CoT驗證器的準確性，研究人員運用了多數投票法。他們取樣多條CoT鏈，計算所有樣本的平均“是”分數，有效地優化了測試期間的計算。

“GenRM可以被概念化為將LLM-as-a-Judge與經典驗證器融合，它代表了一個針對特定領域驗證數據進行訓練的LLM-as-a-Judge，”Agarwal解釋道。“因此，GenRM適用於任何標準提示的LLMs不夠的領域。”

GenRM的實踐應用

為評估GenRM的有效性，DeepMind的研究人員在多個推理任務中測試了該模型，包括最後字母連接、單詞排序和詞數學問題。研究團隊將GenRM與標準方法進行比較，包括識別性獎勵模型、LLM-as-a-Judge和“自我一致性”，後者使模型生成多個答案並選擇最頻繁的答案。

在所有任務中，使用CoT的GenRM始終比其他方法高出幾個百分點，包括專門訓練的識別性獎勵模型。在GSM8K數學推理基準上，針對GenRM訓練的Gemma-9B模型取得了92.8%的解題率，超越了GPT-4和Gemini 1.5 Pro的表現。

“通過將解答生成與下一個標記預測目標的驗證相結合，GenRM在所有任務中都不斷提高了驗證性能，”研究人員指出。“這一改進在直接驗證器和基於CoT的生成驗證器中都很明顯，表明教授驗證器模仿正確解決方案通常是有益的。”

實驗還顯示，GenRM在數據集大小和模型能力增長方面的擴展效果良好。此外，結合CoT的GenRM在取樣更多回應時仍顯示出改進，給LLM應用開發者提供了更大的靈活性，以平衡準確性和計算成本。

“與經典驗證器相比，GenRM能夠在相同數據下通過聯合訓練生成和驗證而超越它們，而GenRM的訓練僅涉及標準微調，”Agarwal表示。“然而，為了充分發揮GenRM的能力，我們需要能夠澄清獎勵標籤的評論或驗證推理。對於高品質數據，這可能涉及人類輸入，但更具可擴展性的解決方案會是合成的LLM生成推理。”

未來GenRM的發展方向可能包括擴展合成驗證推理，用於開放生成任務，將GenRM整合到強化學習管道中，以及利用先進的LLM能力，如少量學習、檢索增強生成、ReAct和代碼生成及執行，進一步提升驗證效果。

Google 在 Chrome 地址欄中推出 Gemini AI 整合，提升用戶體驗

提升複雜數據集查詢：表格增強生成如何超越文本到 SQL

Most people like

59.9K

歡迎來到 Elephant.ai，您的個性化聊天機器人，旨在為您網站上的每位訪客提供量身定制的回應。利用我們的智能 AI 解決方案，提升用戶參與度和滿意度。

聊天機器人 AI Chatbot

83.1K

將您的草圖瞬間轉換為驚人真實的圖像。

AI 草圖轉圖片生成器 AI 3D Model Generator

109.1K

探索人工智慧驅動的情色角色扮演世界，在這裡，沉浸式幻想與尖端科技相遇。參與引人入勝的情境，點燃您的想像力，提升您的體驗。

情色角色扮演 AI Girlfriend

20.5M

發掘AI內容夥伴的力量，提升文案撰寫和互動對話的品質。無論您是在撰寫引人入勝的行銷文案，還是尋找智慧的聊天助手，我們的AI解決方案皆旨在提升您的溝通效果並簡化創作流程。讓先進科技為您開啟新的可能性！

AI內容生成 Large Language Models (LLMs)

Find AI tools in YBX

Related Articles

Refresh Articles