來自Abacus.AI、紐約大學、Nvidia、馬里蘭大學和南加州大學的合作團隊推出了LiveBench,一項突破性的基準測試,旨在克服現有行業標準所面臨的重要限制。LiveBench作為一個通用的評估工具,專為大型語言模型(LLMs)設計,提供無污染的測試數據集,以克服以往基準中因重複使用導致的問題。
什麼是基準測試?
基準測試是一種標準化測試,用於通過一系列任務或指標評估AI模型的性能。它使研究人員和開發者能夠比較結果、追踪進展,並了解不同模型的能力。
LiveBench的亮點在於它涵蓋了AI大師Yann LeCun的貢獻,LeCun是Meta的首席AI科學家,還包括Abacus.AI的研究主管Colin White及其他多位知名研究者。關鍵貢獻者Goldblum強調了改進LLM基準的必要性,指出這一倡議的驅動力在於需要新生成的多樣性問題,以消除測試集污染。
LiveBench的關鍵亮點
LLMs的崛起凸顯了傳統機器學習基準的不足。大多數基準是公開可用的,許多現代LLMs在訓練過程中納入了大量互聯網數據。因此,如果LLM在訓練期間遇到基準問題,其性能可能顯得過於理想,這引發了對這類評估可靠性的擔憂。
LiveBench旨在通過每月釋出來自各種最新數據集、數學競賽、arXiv論文、新聞故事和IMDb電影摘要的更新問題來應對這些不足。目前有960道問題,每道問題均有可驗證的客觀答案,允許準確打分而無需LLM裁判。
任務類別
LiveBench包含18個任務,分為六個類別,利用持續更新的信息來源來增強問題的多樣性和挑戰性。以下是任務類別:
- 數學:來自高中數學競賽和高級AMPS問題的問題。
- 編碼:包括代碼生成和新的代碼補全任務。
- 推理:來自Big-Bench Hard的謊言網絡和位置推理的挑戰場景。
- 語言理解:涉及字謎、錯字刪除和電影摘要解密的任務。
- 指令遵循:四個任務專注於針對近期文章的闡述、總結和故事生成。
- 數據分析:任務重構表格、識別可聯接列和使用最新數據集預測列類型。
模型的評估基於其成功率,應在30%至70%之間,反映任務的難度。
LiveBench LLM排行榜
截至2024年6月12日,LiveBench已評估了多個知名LLM,顯示頂尖模型的準確率均低於60%。例如,OpenAI的GPT-4o以53.79的平均分數領先,GPT-4 Turbo以53.34緊隨其後。
對商業領導者的影響
在AI領域的變化下,商業領導者面臨著挑戰,尤其是在選擇合適的LLM時。基準測試可以提供關於模型性能的保證,但往往無法提供完整的畫面。Goldblum指出,LiveBench簡化了模型比較,減少了對數據污染和人類評估的偏見的擔憂。
與現有基準的比較
LiveBench團隊已經針對已建立的基準,如LMSYS的Chatbot Arena和Arena-Hard進行了分析。雖然LiveBench的趨勢通常與其他基準一致,但具體差異顯示了LLM評估中潛在的偏見。
LiveBench被設計為一個開源工具,任何人都可以使用、貢獻和擴展其功能。White指出,有效的基準對於開發高性能的LLM至關重要,這反過來促進了模型的創新。開發者可以通過GitHub訪問LiveBench的代碼,並在Hugging Face上利用其數據集。