LiveBench: 汚染のないテストデータと客観的スコアリングを備えたオープンLLMベンチマーク

アバカス.AI、ニューヨーク大学、Nvidia、メリーランド大学、南カリフォルニア大学からなる共同チームが、既存の業界基準の重大な制約を克服するために、革新的なベンチマークである「LiveBench」を発表しました。LiveBenchは、大規模言語モデル(LLM)の一般的な評価ツールとして機能し、従来のベンチマークが直面していた、繰り返し使用によるテストデータの汚染問題を解消したクリーンなテストデータセットを提供します。

ベンチマークとは?

ベンチマークとは、AIモデルの性能を一連のタスクや指標を通じて評価する標準化されたテストを指します。これにより、研究者や開発者は結果を比較し、進歩を追跡し、異なるモデルの能力を理解することができます。

LiveBenchは、Meta社の最高AI科学者であるヤン・ルカンやアバカス.AIの研究責任者コリン・ホワイトをはじめとする著名な研究者たちが貢献している点で特に注目に値します。ゴールドブルーム氏は、LLMのベンチマークの向上の必要性を強調し、このイニシアチブが新たに生成された多様な質問を必要としているとの意見を表明しました。

LiveBenchの主な特長

LLMの台頭は、従来の機械学習ベンチマークの不十分さを浮き彫りにしました。多くのベンチマークは公開されており、現代のLLMはトレーニング中にインターネットデータの膨大な部分を使用します。そのため、LLMがトレーニング中にベンチマークの質問に遭遇すると、そのパフォーマンスが人工的に高く見える可能性があり、評価の信頼性についての懸念が生じます。

LiveBenchは、最近のデータセット、数学コンペティション、arXivの論文、ニュース記事、IMDbの映画要約からの最新の質問を毎月公開することで、これらの短所に対処します。現在、960の質問が用意されており、それぞれの質問には確実で客観的な回答が用意されています。

タスクカテゴリー

LiveBenchには、質問の多様性と難易度を高めるために継続的に更新される情報源を使用した6つのカテゴリーで18のタスクがあります。以下にタスクカテゴリーを示します:

- 数学: 高校数学コンペや高度なAMPS問題からの質問。

- コーディング: コード生成や新しいコード完成タスクを含む。

- 推論: Big-Bench Hardの「Web of Lies」や位置推理に基づく挑戦的なシナリオ。

- 言語理解: 単語パズル、誤字の除去、映画要約の解読を含むタスク。

- 指示の実行: 最近の記事に基づいた言い換え、要約、ストーリー生成の4つのタスク。

- データ分析: テーブルの再フォーマットや結合可能な列の特定、最近のデータセットを使用した列タイプの予測を行うタスク。

モデルは成功率に基づいて評価され、その範囲は30%から70%に設定され、タスクの難易度を反映しています。

LiveBench LLMリーダーボード

2024年6月12日現在、LiveBenchは多くの著名なLLMを評価しており、上位モデルの精度が60%未満であることを明らかにしました。具体的には、OpenAIのGPT-4oが平均スコア53.79でリードしており、GPT-4 Turboが53.34で続いています。

ビジネスリーダーへの示唆

AIの領域をナビゲートする際、ビジネスリーダーには適切なLLMの選定が特に難しい課題となります。ベンチマークはモデルのパフォーマンスに関する安心感を提供しますが、完全な全体像を示すことができないことが多いです。ゴールドブルーム氏は、LiveBenchがデータの汚染や人間の評価のバイアスに関する懸念を軽減し、モデル比較を簡素化することを強調しています。

既存のベンチマークとの比較

LiveBenchチームは、LMSYSのチャットボットアリーナやArena-Hardなど、確立されたベンチマークと並行して分析を行っています。LiveBenchの傾向は他のベンチマークと一般的に一致しますが、特定の不一致はLLMの採点に内在するバイアスを示唆しています。

LiveBenchはオープンソースツールとして設計されており、誰でも使用し、貢献し、その機能を拡張することができます。ホワイト氏は、効果的なベンチマークが高性能のLLM開発に不可欠であり、これがモデルの革新を加速することを指摘しています。開発者は、GitHubを通じてLiveBenchのコードにアクセスし、Hugging Faceでデータセットを利用できます。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles