LiveBench：一個開放的LLM基準測試，擁有無污染的測試數據和客觀評分

Home AI新聞 LiveBench：一個開放的LLM基準測試，擁有無污染的測試數據和客觀評分

來自Abacus.AI、紐約大學、Nvidia、馬里蘭大學和南加州大學的合作團隊推出了LiveBench，一項突破性的基準測試，旨在克服現有行業標準所面臨的重要限制。LiveBench作為一個通用的評估工具，專為大型語言模型（LLMs）設計，提供無污染的測試數據集，以克服以往基準中因重複使用導致的問題。

什麼是基準測試？

基準測試是一種標準化測試，用於通過一系列任務或指標評估AI模型的性能。它使研究人員和開發者能夠比較結果、追踪進展，並了解不同模型的能力。

LiveBench的亮點在於它涵蓋了AI大師Yann LeCun的貢獻，LeCun是Meta的首席AI科學家，還包括Abacus.AI的研究主管Colin White及其他多位知名研究者。關鍵貢獻者Goldblum強調了改進LLM基準的必要性，指出這一倡議的驅動力在於需要新生成的多樣性問題，以消除測試集污染。

LiveBench的關鍵亮點

LLMs的崛起凸顯了傳統機器學習基準的不足。大多數基準是公開可用的，許多現代LLMs在訓練過程中納入了大量互聯網數據。因此，如果LLM在訓練期間遇到基準問題，其性能可能顯得過於理想，這引發了對這類評估可靠性的擔憂。

LiveBench旨在通過每月釋出來自各種最新數據集、數學競賽、arXiv論文、新聞故事和IMDb電影摘要的更新問題來應對這些不足。目前有960道問題，每道問題均有可驗證的客觀答案，允許準確打分而無需LLM裁判。

任務類別

LiveBench包含18個任務，分為六個類別，利用持續更新的信息來源來增強問題的多樣性和挑戰性。以下是任務類別：

- 數學：來自高中數學競賽和高級AMPS問題的問題。

- 編碼：包括代碼生成和新的代碼補全任務。

- 推理：來自Big-Bench Hard的謊言網絡和位置推理的挑戰場景。

- 語言理解：涉及字謎、錯字刪除和電影摘要解密的任務。

- 指令遵循：四個任務專注於針對近期文章的闡述、總結和故事生成。

- 數據分析：任務重構表格、識別可聯接列和使用最新數據集預測列類型。

模型的評估基於其成功率，應在30%至70%之間，反映任務的難度。

LiveBench LLM排行榜

截至2024年6月12日，LiveBench已評估了多個知名LLM，顯示頂尖模型的準確率均低於60%。例如，OpenAI的GPT-4o以53.79的平均分數領先，GPT-4 Turbo以53.34緊隨其後。

對商業領導者的影響

在AI領域的變化下，商業領導者面臨著挑戰，尤其是在選擇合適的LLM時。基準測試可以提供關於模型性能的保證，但往往無法提供完整的畫面。Goldblum指出，LiveBench簡化了模型比較，減少了對數據污染和人類評估的偏見的擔憂。

與現有基準的比較

LiveBench團隊已經針對已建立的基準，如LMSYS的Chatbot Arena和Arena-Hard進行了分析。雖然LiveBench的趨勢通常與其他基準一致，但具體差異顯示了LLM評估中潛在的偏見。

LiveBench被設計為一個開源工具，任何人都可以使用、貢獻和擴展其功能。White指出，有效的基準對於開發高性能的LLM至關重要，這反過來促進了模型的創新。開發者可以通過GitHub訪問LiveBench的代碼，並在Hugging Face上利用其數據集。

革命性變壓器架構：在不使用GPU的情況下釋放強大的大型語言模型（LLMs）

Luma夢機上市：我們不再需要Sora——全新AI視頻生成器流量激增

Most people like

Sku Fetch

13.3K

推出一項精簡的服務，旨在從供應商那裡收集、整理和編輯產品資訊，然後無縫地分發到各大上市平台。此解決方案簡化了您的工作流程，確保您的產品數據準確無誤，並能有效吸引客戶。

產品擷取 AI Product Description Generator

AI Photo Studio

1.1M

發現一款最先進的 AI 照片編輯器，提供先進功能，輕鬆轉換您的影像。這款強大的工具專為攝影師和愛好者設計，使照片編輯變得直觀且易於使用。

照片編輯器 Photo & Image Editor

HireQuotient

500.7K

HireQuotient 是一個專為非科技職位招聘而設計的創新平台，能夠簡化並自動化整個招聘過程。

其他 AI Consulting Assistant

Dify

825.5K

Dify 讓用戶輕鬆打造可持續應用，讓環保開發對每個人都變得觸手可及。

大模型運營 AI Product Description Generator

Find AI tools in YBX