人工知能ベンチマークがオープンソースモデルの性能向上を示す
人工知能スタートアップのGalileoは、オープンソースの言語モデルが独自モデルとの性能差を急速に縮めていることを示す重要なベンチマーク報告を発表しました。この進展は、高度なAI技術の民主化を促進し、さまざまな業界での革新を支える可能性があります。
Galileoの第二回「幻覚インデックス」では、22の主要な大規模言語モデルの不正確な情報生成の傾向を評価しました。閉鎖型のモデルが依然として上位に位置付けられていますが、わずか8か月でその性能差は大幅に縮小しました。
「オープンソースモデルの驚異的な進化には目を見張るものがあります」とGalileoの共同創業者でCEOのVikram Chatterjiは語りました。「2023年10月には、上位5モデルは主にOpenAIの閉鎖型APIでしたが、今やオープンソースモデルが追い上げています。」
この流れは、スタートアップや研究者の参入障壁を下げる一方で、既存の企業に迅速なイノベーションを促し、競争力を失うリスクを伴います。
AnthropicのClaude 3.5 Sonnetが首位に
AnthropicのClaude 3.5 Sonnetは、全体のベストパフォーマンスモデルとして登場し、昨年のランキングを支配していたOpenAIの製品を上回りました。この変化はAI市場の様相が変わっていることを示し、新興企業が確立されたリーダーに挑戦しています。
「私たちはAnthropicの最新モデルに非常に感銘を受けました」とChatterjiはコメントしました。「Sonnetは短文、中程度、長文の全てのコンテクストで優れた性能を示し、それぞれの平均スコアは0.97、1、1でした。また、200kのコンテクストウィンドウをサポートしているため、より大規模なデータセットも扱えることが示唆されています。」
インデックスでは、コスト対性能の評価が重要であることも強調されています。GoogleのGemini 1.5 Flashは、トップモデルに比べて非常に低コストで強力な結果を提供し、最も効率的なモデルとして浮上しました。
「Flashのコストは百万トークンあたり0.35ドルで、Sonnetの3ドルに比べて大幅に安価です」とChatterjiは説明します。「出力に関しては、Flashは百万レスポンストークンあたり約1ドルで、Sonnetは15ドルかかります。この価格差は、Sonnetを選択するにはかなりの予算が必要であることを意味し、Flashは同様の性能をより低価格で提供しています。」
このコストの違いは、AI展開を拡大しようとする企業が、トップパフォーマンスを求める中でもより効率的なモデルを選ぶ要因となる可能性があります。
グローバルAI競争: アリババの進展
アリババのQwen2-72B-Instructは、オープンソースモデルの中で優れた成績を収め、短文や中程度の長さの入力に対して高スコアを達成しました。この成功は、アメリカ以外の企業がAI分野で重要な進展を遂げているトレンドを反映しています。
Chatterjiは、これがAIの民主化の一環であると捉えています。「Llama 3やQwenを使用することで、世界中のチームが経済的背景に関係なく革新的な製品を構築できるようになった」と彼は述べ、これらのモデルがエッジやモバイルデバイスに最適化されることで、モバイルやウェブ環境でのアプリケーションに素晴らしい成果をもたらすことを期待しています。
インデックスでは、モデルが短い情報から長文まで異なるコンテクストの長さをどのように管理するかにも重点が置かれています。これは、広範なレポートの要約や大規模データセットの分析など、AIを用いたタスクが増加していることを反映しており、企業がAI導入を評価する上で重要なモデルの能力を明らかにしています。
「私たちは、小、中、大といったコンテクストの長さで性能を評価することを目指しました」とChatterjiは共有します。「また、コスト対性能の焦点は、意思決定者にとって非常に重要です。」
発見の結果、より大きなモデルが常に優れているわけではなく、場合によっては小型モデルがその大きさを上回ることすらあることが示され、設計および効率がサイズを超えることがあることを示唆しています。
「Gemini 1.5 Flashモデルは驚異的で、より大きなモデルよりも優れた性能を発揮しました」とChatterjiは指摘しました。「これは、AI開発において設計の効率性が規模を凌駕する可能性を示しています。」
言語モデルの未来を見据えて
Galileoの洞察は、企業のAI採用を大きく左右する可能性があります。オープンソースモデルが進化し、より手頃な価格で提供されるようになると、企業は高価な独自サービスに頼ることなく、強力なAIツールにアクセスできるようになり、業界全体でのAI統合と生産性向上が期待されます。
同社はAIシステムの監視および改善に特化したツールに注力しており、急速に進化する言語モデルの中で企業をサポートすることを目指しています。定期的なベンチマークを提供することで、Galileoは技術的な意思決定者にとって重要なリソースとなることを志しています。
「私たちは、企業顧客やAIチームのユーザーが、このツールを使ってAIアプリケーション開発に最も効果的な方法を理解してくれることを望んでいます」とChatterjiは述べました。
競争が激化する中、新しいモデルがほぼ毎週登場している現状において、Galileoのベンチマークは業界の急速な変化を示すスナップショットを提供します。同社は、オープンソースと独自AI技術のバランスが進化していることを反映するために、四半期ごとにインデックスを更新する意向を示しています。
Chatterjiはさらなるイノベーションを期待しています。「私たちは、高度な推論のためのオペレーティングシステムとして機能する大規模モデルの出現を見ています。これらは、コンテクストの長さが拡大し、コストが低下するにつれて、今後の1〜2年でより一般化していくでしょう。」
また、彼はマルチモーダルモデルやエージェントベースのシステムの台頭を予測しており、新たな評価方法が求められると共に、AI革新の新たな波を引き起こす可能性があると考えています。
企業がAIの急速な進化に直面する中で、Galileoの「幻覚インデックス」のようなツールが戦略的意思決定を支援する重要な役割を果たすでしょう。AI能力の民主化とコスト効率の向上が相まって、先進的なAIがより強力で、より多くの組織にとってアクセス可能な未来を示しています。
この進化する環境は、機会と課題を提供します。高性能でコスト効果の高いAIモデルの台頭は革新と効率を推進する一方で、企業はどの技術を採用し、どのように効果的に統合するかを慎重に考慮しなければなりません。
オープンソースと独自AIの区別が曖昧になる中で、企業は情報を維持し、適応し続ける必要があります。Galileoのベンチマークは、次々と変化する新たな技術に対して戦略を調整するための道筋を示すだけでなく、AIトレンドの現状を映し出す役割も果たします。