人工智慧基準顯示開源模型性能飆升
人工智慧創業公司 Galileo 於週一發佈了一份重要的基準報告,指出開源語言模型迅速縮小了與專有模型的性能差距。這一變化有潛力使先進的 AI 能力更普及,並促進各行各業的創新。
在其第二屆年度「幻覺指數」中,Galileo 評估了 22 款領先的大型語言模型在生成不準確資訊方面的傾向。儘管專有模型仍名列前茅,但僅在八個月內,性能差距已大幅縮小。
Galileo 的共同創辦人兼 CEO Vikram Chatterji 表示:「開源模型的飛速進展令人驚訝。到 2023 年 10 月,前五名模型主要是來自 OpenAI 的閉源 API。然而,現在開源模型正在迎頭趕上。」
這一趨勢可能降低初創企業和研究者的進入門檻,同時迫使既有企業必須加速創新,否則有失競爭優勢。
Anthropic 的 Claude 3.5 Sonnet 脫穎而出
Anthropic 的 Claude 3.5 Sonnet 成為整體最佳表現模型,超越了去年的擁有者 OpenAI,為 AI 市場帶來了變革,新進者挑戰既有領導者。
Chatterji 評價道:「我們對 Anthropic 最新的模型印象深刻。Sonnet 在短、中、長文檔中表現卓越,分別達到平均分 0.97、1 及 1。其支援最多 20 萬字元的上下文窗口顯示它能處理更大的數據集。」
報告強調了評估成本效益和性能的必要性。Google 的 Gemini 1.5 Flash 成為最具成本效益的模型,提供強勁的性能,價格卻顯著低於頂尖模型。
Chatterji 解釋道:「Flash 每百萬個提示標記的成本為 0.35 美元,而 Sonnet 為 3 美元。在輸出方面,Flash 每百萬個回應標記約 1 美元,Sonnet 則為 15 美元。這一定價差異讓選擇 Sonnet 的用戶需要考慮較高的預算,而 Flash 在更低成本下提供類似性能。」
這一成本差異可能影響企業尋求擴大 AI 部署時的選擇,促使他們轉向更高效的模型,儘管這些模型可能不是性能最佳的。
全球 AI 競爭:阿里巴巴取得進展
阿里巴巴的 Qwen2-72B-Instruct 在開源模型中表現卓越,在短文和中長文輸入上獲得高分。這一成功反映了非美國公司的 AI 技術大幅進步,挑戰了美國在該領域的主導地位。
Chatterji 認為這是 AI 更加民主化的助推力。「使用 Llama 3 和 Qwen,全球團隊現在能夠根據經濟背景構建創新產品。」他指出,未來這些模型亦會針對邊緣和移動設備進行優化,預示著在移動和網絡環境中將出現令人驚豔的應用。
報告也高亮模型如何管理不同的上下文長度,從短片段到長文檔,反映了 AI 對於總結龐大報告或分析大數據集的需求,為企業評估 AI 部署提供了必要的深度見解。
Chatterji 分享道:「我們旨在根據上下文長度將性能進行細分——小型、中型和大型。此外,關注成本與性能對決策者至關重要。」
研究結果顯示,較大的模型並不總是優越;在某些情況下,較小模型的表現超過其大兄弟,這表明設計效能在某些情境中可超越單純的規模。
Chatterji 指出:「Gemini 1.5 Flash 模型的表現讓人耳目一新,它超越了更大的同類模型。這顯示了設計效率在 AI 開發中的重要性。」
展望語言模型的未來
Galileo 的洞見可能會深刻影響企業的 AI 採用。隨著開源模型逐步提升性能並降低成本,企業將有機會接觸到強大的 AI 工具,而無需依賴昂貴的專有服務,為廣泛的 AI 整合與提升生產力鋪平道路。
這家專注於監控和增強 AI 系統的創業公司旨在支持企業在快速變化的語言模型中導航。通過提供定期基準,Galileo 力求成為技術決策者的重要資源。
Chatterji 表示:「我們希望企業客戶和 AI 團隊用戶將此作為理解開發 AI 應用的最有效方式的動態工具。」
隨著競爭的加劇,新模型幾乎每週都在出現,Galileo 的基準為這一迅速變化的行業提供了快照。該公司計劃每季度更新指數,以反映開源與專有 AI 技術之間不斷演變的平衡。
Chatterji 預測更多創新:「我們看到大型模型作為高階推理的作業系統逐步崛起。這些模型在未來一到兩年將變得越來越通用,尤其是在上下文長度擴大、成本下降的背景下。」
他還預測多模態模型和基於代理的系統將興起,這需要新的評估方法,並可能催生下一波 AI 創新。
隨著企業面對 AI 快速發展,Galileo 的幻覺指數等工具將在指導戰略決策中發揮關鍵作用。AI 能力的民主化,結合對成本效益的日益重視,預示著未來的先進 AI 將不僅更強大,同時也將對更廣泛的組織更具可及性。
這一不斷演變的環境既帶來機遇也挑戰。雖然高性能、具成本效益的 AI 模型的興起可以推動創新和效率,但企業必須謹慎考慮如何有效採用和整合這些技術。
隨著開源與專有 AI 之間的界限模糊,企業必須保持資訊靈通和適應性,隨時調整他們的策略以應對技術變化。Galileo 的基準既是當前 AI 趨勢的快照,也是導航複雜且快速變化的人工智慧世界的指南。