標準普爾全球(S&P Global),作為金融智慧的領導者,宣布推出由Kensho研發的S&P AI基準,這是一項創新解決方案,旨在為複雜金融應用中的大型語言模型(LLMs)評估建立新標準。
該基準工具由S&P Global的AI專注部門Kensho開發,測量LLM在進行定量推理、從金融文件中提取數據及展示專業知識等任務的能力。結果會顯示在排行榜上,提供每個模型性能的透明視圖。
S&P AI基準根據關鍵金融和定量指標對LLMs進行排名,包括專業知識、數據提取和程序合成。S&P Global的首席AI官兼Kensho執行長Bhavesh Dayalji指出:“S&P AI基準將Kensho的尖端AI研究與S&P Global的金融智慧相結合。我們希望這一解決方案成為業界評估複雜金融推理中LLMs的標準,進而促進FinAI領域的創新。”
這次推出的時機對金融服務行業至關重要,因為機構越來越多地探尋生成性AI和LLMs的潛力,以提升運營並獲取競爭優勢。缺乏標準化基準使組織難以評估適合其特定需求的模型。
Dayalji解釋道:“像這樣的基準解決方案對幫助機構確定應用於特定應用的LLMs至關重要。S&P AI基準將進一步推動創新,指導金融專業人士了解每個模型的優勢及其能提供的最大價值。”
S&P AI基準的方法論由來自S&P Global的工程師、研究人員、學者和金融專業人士等多元專家團隊開發和驗證。評估包含600個問題,旨在嚴格測試LLM在三個關鍵類別中的表現。
行業分析師認為,S&P AI基準的推出是金融領域內AI應用的一個重要里程碑。隨著先進AI技術越來越多地融入金融領域,可靠且透明的基準工具將是幫助公司做出明智部署決策的關鍵。S&P Global的解決方案可能會促進LLMs的負責任採用,並激發FinAI領域的創新。
展望未來,S&P Global預見S&P AI基準在金融服務中的AI未來中將發揮關鍵作用。Dayalji表示:“我們的願景是LLMs能更有效地滿足行業需求,像我們這樣的解決方案將促使這一過程的實現。我們也鼓勵所有模型提供者參與,幫助我們不斷完善框架。”
隨著金融行業在快速變化的AI和生成性AI環境中探索進展,S&P AI基準將成為必不可少的資源,讓組織能夠運用這些技術,同時確保準確性、透明度和負責任的部署。