大型語言模型的人類評估:創新需求
人類評估長期以來被視為評估大型語言模型(LLMs)質量和準確性的金標準,尤其在創意寫作和編程等開放式任務中。然而,這種方法通常耗時、成本高昂,且需要專業的專家知識。
自學評估者的介紹
Meta FAIR 的研究人員開發了一種名為自學評估者的創新方法,利用合成數據來訓練 LLM 評估者,而無需人類標註。儘管這種方法存在一些限制,但它有望提升 LLM 評估的效率和可擴展性,特別是對於希望建立自訂模型的企業。
LLM 評估的挑戰
LLMs 經常作為評估者,對其他模型進行人類偏好的對齊或在訓練過程中提高其自身表現。這在創意和複雜指令場景中,面對多個有效結果的任務中至關重要。傳統上,精確訓練 LLM 評估者依賴大量的人類標註數據,這一過程既費時又昂貴,阻礙了基於 LLM 應用的快速發展。
自學評估者的運作方式
自學評估者解決了這一問題,消除了對人工標註數據的需求。它基於 LLM 作為評審的概念,模型接收輸入、兩個可能答案和評估提示,以生成推理鏈來判斷哪個回應更優越。
該過程始於一個種子 LLM 和大量未標註的人類撰寫指令,這些指令常見於生產系統中。評估者從這個未整理的庫中選擇一組指令,生成兩組回應:一組被“選擇”為較高質量,另一組則被“拒絕”。
然後,評估者以迭代方式進行訓練。在每次迭代中,它採樣多個 LLM 作為評審的推理痕跡和判斷。正確的推理鏈將納入訓練集,包括輸入、真實和錯誤答案以及判斷鏈。模型在這個新數據集上進行微調,從而為隨後的迭代提供更新的模型。
自學評估者的測試
研究人員使用 Llama 3-70B-Instruct 模型啟動了他們的自學評估者,並使用了 WildChat 數據集,選取了超過 20,000 個推理類別範例。他們還探討了其他數據集和任務,包括編程和單詞數學問題,讓自學管道自主生成完整答案和訓練集。
實驗結果顯示,自學評估者顯著提高了基礎模型在 RewardBench 基準上的準確性,將其性能從 75.4% 提升至 88.7%,且無需任何人類標註。這一準確性媲美甚至在某些情況下超越了基於人類標註數據訓練的模型,並且在某些私營前沿模型中表現更佳。在 MT-Bench 基準上也觀察到了類似的改進,該基準評估 LLM 在多輪對話中的表現。
對企業的影響
這項研究與利用 LLM 在自動化自我改進循環中的日益增長趨勢相一致,減少了創建高性能模型的手工工作,並促進了更具可擴展性的 AI 應用程序開發。自學評估者對於擁有大量未標註企業數據、希望在無需大量手工標註的情況下微調模型的企業特別有利。
然而,必須承認一些限制。該方法依賴於初始的種子模型,該模型經過指令調整並與人類偏好對齊。研究人員在初始訓練數據集中使用了 Mixtral 8x22B 的專家混合模型,強調根據特定數據和任務仔細選擇相關的種子和基礎模型的必要性。
標準化基準可能無法充分捕捉 LLM 的能力和限制。此外,完全依賴 LLM 進行自我評估的自動化循環,可能會在優化基準的同時在實際應用中表現不佳。企業必須在不同的訓練階段進行手動測試,以確保模型達到所需的性能標準。