LiveBench: 汚染のないテストデータと客観的スコアリングを備えたオープンLLMベンチマーク

Home AIニュース LiveBench: 汚染のないテストデータと客観的スコアリングを備えたオープンLLMベンチマーク

アバカス.AI、ニューヨーク大学、Nvidia、メリーランド大学、南カリフォルニア大学からなる共同チームが、既存の業界基準の重大な制約を克服するために、革新的なベンチマークである「LiveBench」を発表しました。LiveBenchは、大規模言語モデル（LLM）の一般的な評価ツールとして機能し、従来のベンチマークが直面していた、繰り返し使用によるテストデータの汚染問題を解消したクリーンなテストデータセットを提供します。

ベンチマークとは？

ベンチマークとは、AIモデルの性能を一連のタスクや指標を通じて評価する標準化されたテストを指します。これにより、研究者や開発者は結果を比較し、進歩を追跡し、異なるモデルの能力を理解することができます。

LiveBenchは、Meta社の最高AI科学者であるヤン・ルカンやアバカス.AIの研究責任者コリン・ホワイトをはじめとする著名な研究者たちが貢献している点で特に注目に値します。ゴールドブルーム氏は、LLMのベンチマークの向上の必要性を強調し、このイニシアチブが新たに生成された多様な質問を必要としているとの意見を表明しました。

LiveBenchの主な特長

LLMの台頭は、従来の機械学習ベンチマークの不十分さを浮き彫りにしました。多くのベンチマークは公開されており、現代のLLMはトレーニング中にインターネットデータの膨大な部分を使用します。そのため、LLMがトレーニング中にベンチマークの質問に遭遇すると、そのパフォーマンスが人工的に高く見える可能性があり、評価の信頼性についての懸念が生じます。

LiveBenchは、最近のデータセット、数学コンペティション、arXivの論文、ニュース記事、IMDbの映画要約からの最新の質問を毎月公開することで、これらの短所に対処します。現在、960の質問が用意されており、それぞれの質問には確実で客観的な回答が用意されています。

タスクカテゴリー

LiveBenchには、質問の多様性と難易度を高めるために継続的に更新される情報源を使用した6つのカテゴリーで18のタスクがあります。以下にタスクカテゴリーを示します：

- 数学: 高校数学コンペや高度なAMPS問題からの質問。

- コーディング: コード生成や新しいコード完成タスクを含む。

- 推論: Big-Bench Hardの「Web of Lies」や位置推理に基づく挑戦的なシナリオ。

- 言語理解: 単語パズル、誤字の除去、映画要約の解読を含むタスク。

- 指示の実行: 最近の記事に基づいた言い換え、要約、ストーリー生成の4つのタスク。

- データ分析: テーブルの再フォーマットや結合可能な列の特定、最近のデータセットを使用した列タイプの予測を行うタスク。

モデルは成功率に基づいて評価され、その範囲は30%から70%に設定され、タスクの難易度を反映しています。

LiveBench LLMリーダーボード

2024年6月12日現在、LiveBenchは多くの著名なLLMを評価しており、上位モデルの精度が60%未満であることを明らかにしました。具体的には、OpenAIのGPT-4oが平均スコア53.79でリードしており、GPT-4 Turboが53.34で続いています。

ビジネスリーダーへの示唆

AIの領域をナビゲートする際、ビジネスリーダーには適切なLLMの選定が特に難しい課題となります。ベンチマークはモデルのパフォーマンスに関する安心感を提供しますが、完全な全体像を示すことができないことが多いです。ゴールドブルーム氏は、LiveBenchがデータの汚染や人間の評価のバイアスに関する懸念を軽減し、モデル比較を簡素化することを強調しています。

既存のベンチマークとの比較

LiveBenchチームは、LMSYSのチャットボットアリーナやArena-Hardなど、確立されたベンチマークと並行して分析を行っています。LiveBenchの傾向は他のベンチマークと一般的に一致しますが、特定の不一致はLLMの採点に内在するバイアスを示唆しています。

LiveBenchはオープンソースツールとして設計されており、誰でも使用し、貢献し、その機能を拡張することができます。ホワイト氏は、効果的なベンチマークが高性能のLLM開発に不可欠であり、これがモデルの革新を加速することを指摘しています。開発者は、GitHubを通じてLiveBenchのコードにアクセスし、Hugging Faceでデータセットを利用できます。

元Metaエンジニアが発表した自己完結型AIエージェント「Jace」

Lumaの夢のマシン登場：『もうSoraはいらない』— 新AI動画生成器がトラフィック急増!

Most people like

AI Picasso

19.4K

魅力的なAIピカソの世界を発見しよう！顔写真を魅惑的なダンスパフォーマンスに変換し、楽しませ、インスパイアします。

AIダンス AI Art Generator

Typli.Ai - AI Writer & SEO Writing Assistant

302.4K

Typli.AIは、デジタルマーケターやコンテンツクリエイター向けに特化した革新的なAI駆動のプラットフォームです。コンテンツ生成を簡素化し、最適化を強化することで、ユーザーが手間なく高品質な素材を作成できるようにします。

AIライター AI Content Generator

Maket

184.3K

Maketは、生成的AIを活用し、建築デザインを革新するソフトウェアであり、間取りの作成を自動化し、多様なスタイルの探求を可能にします。

生成デザイン AI Design Generator

XspaceGPT

44.9K

Twitterスペースをテキストに変換するために特別に設計されたAIツールの力を発見してください。Twitterスペースからの会話、講義、ディスカッションを簡単に文字起こしし、すべての洞察に満ちた瞬間を手軽にキャプチャします。高度な技術を活用することで、アクセシビリティを向上させたり、メモを取ったり、ブログや記事のためにコンテンツを再利用したりできます。AIを活用してTwitterスペースの体験を効率化している成長するコミュニティに参加しましょう！

AIテキスト変換 Summarizer

Find AI tools in YBX