S&Pグローバルは、複雑な金融アプリケーションにおける大規模言語モデル(LLM)の評価基準を確立することを目的とした新しいソリューション「S&P AI Benchmarks by Kensho」の導入を発表しました。これは、同社のAI専門部門であるKenshoによって開発されました。
このベンチマークツールは、LLMが定量的推論や金融文書からのデータ抽出、特定分野に関する知識の提示などのタスクをどれだけうまく実行できるかを測定します。その結果はリーダーボード上に表示され、各モデルのパフォーマンスを透明に示します。
S&P AI Benchmarksは、ドメイン知識、データ抽出量、プログラム合成などの重要な金融および定量的指標に基づいてLLMを評価します。S&Pグローバルの最高AI責任者でありKenshoのCEOであるバベシュ・ダヤルジは、「S&P AI Benchmarksは、Kenshoの最先端のAI研究とS&Pグローバルの金融知識を融合させています。このソリューションが複雑な金融推論におけるLLM評価の業界標準となることを目指しています」と述べています。
この発表のタイミングは、金融サービス業界にとって重要です。企業は生成AIやLLMを活用して業務を強化し、競争力を向上させる可能性を追求していますが、標準化されたベンチマークの欠如により、自社に最適なモデルを評価することは困難でした。
ダヤルジ氏は、「このようなベンチマークソリューションは、各機関が特定のアプリケーションで使用すべきLLMを決定するために不可欠です。S&P AI Benchmarksは、モデルがどこで優れているか、どのように最大の価値を提供できるかを金融専門家に示すことで、イノベーションを促進します」と説明しました。
S&P AI Benchmarksの評価方法論は、エンジニア、研究者、学者、金融専門家など多様な専門家チームによって策定され、検証されています。この評価は、LLMのパフォーマンスを厳密にテストするために設計された600問の質問で構成されています。
業界アナリストは、S&P AI Benchmarksの導入を金融業界におけるAI採用の重要なマイルストーンと見なしています。高度なAI技術が金融に統合される中、信頼できる透明なベンチマークツールが、情報に基づいた導入決定を行う企業にとって不可欠となるでしょう。このS&Pグローバルのソリューションは、LLMの責任ある採用を加速し、FinAI分野のイノベーションを促進する可能性があります。
今後、S&Pグローバルは、S&P AI Benchmarksが金融サービスにおけるAIの未来で重要な役割を果たすと考えています。ダヤルジ氏は、「私たちのビジョンは、LLMが私たちの業界のニーズにより効果的に適応することです。そのために、私たちのようなソリューションが役立ちます。全てのモデルプロバイダーにも参加を呼びかけ、私たちのフレームワークの進化を共に目指したいです」と述べました。
金融業界がAIおよび生成AIの急速に変化する風景を乗り越える中、KenshoによるS&P AI Benchmarksのようなツールは、精度、透明性、責任ある導入を確保しつつ、企業がこれらのテクノロジーを活用するための重要な資源となるでしょう。