Meta的自學評估器賦能大型語言模型生成自我訓練數據

Home AI新聞 Meta的自學評估器賦能大型語言模型生成自我訓練數據

大型語言模型的人類評估：創新需求

人類評估長期以來被視為評估大型語言模型（LLMs）質量和準確性的金標準，尤其在創意寫作和編程等開放式任務中。然而，這種方法通常耗時、成本高昂，且需要專業的專家知識。

自學評估者的介紹

Meta FAIR 的研究人員開發了一種名為自學評估者的創新方法，利用合成數據來訓練 LLM 評估者，而無需人類標註。儘管這種方法存在一些限制，但它有望提升 LLM 評估的效率和可擴展性，特別是對於希望建立自訂模型的企業。

LLM 評估的挑戰

LLMs 經常作為評估者，對其他模型進行人類偏好的對齊或在訓練過程中提高其自身表現。這在創意和複雜指令場景中，面對多個有效結果的任務中至關重要。傳統上，精確訓練 LLM 評估者依賴大量的人類標註數據，這一過程既費時又昂貴，阻礙了基於 LLM 應用的快速發展。

自學評估者的運作方式

自學評估者解決了這一問題，消除了對人工標註數據的需求。它基於 LLM 作為評審的概念，模型接收輸入、兩個可能答案和評估提示，以生成推理鏈來判斷哪個回應更優越。

該過程始於一個種子 LLM 和大量未標註的人類撰寫指令，這些指令常見於生產系統中。評估者從這個未整理的庫中選擇一組指令，生成兩組回應：一組被“選擇”為較高質量，另一組則被“拒絕”。

然後，評估者以迭代方式進行訓練。在每次迭代中，它採樣多個 LLM 作為評審的推理痕跡和判斷。正確的推理鏈將納入訓練集，包括輸入、真實和錯誤答案以及判斷鏈。模型在這個新數據集上進行微調，從而為隨後的迭代提供更新的模型。

自學評估者的測試

研究人員使用 Llama 3-70B-Instruct 模型啟動了他們的自學評估者，並使用了 WildChat 數據集，選取了超過 20,000 個推理類別範例。他們還探討了其他數據集和任務，包括編程和單詞數學問題，讓自學管道自主生成完整答案和訓練集。

實驗結果顯示，自學評估者顯著提高了基礎模型在 RewardBench 基準上的準確性，將其性能從 75.4% 提升至 88.7%，且無需任何人類標註。這一準確性媲美甚至在某些情況下超越了基於人類標註數據訓練的模型，並且在某些私營前沿模型中表現更佳。在 MT-Bench 基準上也觀察到了類似的改進，該基準評估 LLM 在多輪對話中的表現。

對企業的影響

這項研究與利用 LLM 在自動化自我改進循環中的日益增長趨勢相一致，減少了創建高性能模型的手工工作，並促進了更具可擴展性的 AI 應用程序開發。自學評估者對於擁有大量未標註企業數據、希望在無需大量手工標註的情況下微調模型的企業特別有利。

然而，必須承認一些限制。該方法依賴於初始的種子模型，該模型經過指令調整並與人類偏好對齊。研究人員在初始訓練數據集中使用了 Mixtral 8x22B 的專家混合模型，強調根據特定數據和任務仔細選擇相關的種子和基礎模型的必要性。

標準化基準可能無法充分捕捉 LLM 的能力和限制。此外，完全依賴 LLM 進行自我評估的自動化循環，可能會在優化基準的同時在實際應用中表現不佳。企業必須在不同的訓練階段進行手動測試，以確保模型達到所需的性能標準。

創建屬於你的AI機器人：探索Hugging Face的LeRobot教學如何變革機器人技術！

Salesforce推出開源「xGen-MM」多模態人工智慧模型，以提升視覺語言理解能力

Most people like

CheatGPT

60K

CheatGPT 是一款創新的 AI 學習工具，旨在為學生提供即時答案和有價值的考試協助。無論您面對複雜的科目或準備考試，CheatGPT 都能為您提供所需的支持，有效提升您的學習體驗。

CheatGPT AI Education Assistant

Supernormal

469.6K

Supernormal 是一款強大的人工智慧工具，旨在簡化會議記錄的過程，通過高效的自動化為您節省寶貴的時間。

人工智慧 AI Meeting Assistant

Ghost Craft AI

9.4K

發現一款創新的人工智慧工具，專為快速而引人入勝的新聞文章創作而設計。此技術非常適合新聞工作者、部落客和內容創作者，旨在簡化寫作過程，同時保持質量和讀者的興趣。輕鬆提升您的內容，讓引人注目的新聞講述隨時在您指尖。

AI 文章生成器 AI Blog Writer

Voicenotes

205.3K

輕鬆釋放你的思緒，體驗完美的記憶保持。

筆記工具 AI Notes Assistant

Find AI tools in YBX