開源人工智慧追趕專有技術領導者,根據最新的基準報告

人工智慧基準顯示開源模型性能飆升

人工智慧創業公司 Galileo 於週一發佈了一份重要的基準報告,指出開源語言模型迅速縮小了與專有模型的性能差距。這一變化有潛力使先進的 AI 能力更普及,並促進各行各業的創新。

在其第二屆年度「幻覺指數」中,Galileo 評估了 22 款領先的大型語言模型在生成不準確資訊方面的傾向。儘管專有模型仍名列前茅,但僅在八個月內,性能差距已大幅縮小。

Galileo 的共同創辦人兼 CEO Vikram Chatterji 表示:「開源模型的飛速進展令人驚訝。到 2023 年 10 月,前五名模型主要是來自 OpenAI 的閉源 API。然而,現在開源模型正在迎頭趕上。」

這一趨勢可能降低初創企業和研究者的進入門檻,同時迫使既有企業必須加速創新,否則有失競爭優勢。

Anthropic 的 Claude 3.5 Sonnet 脫穎而出

Anthropic 的 Claude 3.5 Sonnet 成為整體最佳表現模型,超越了去年的擁有者 OpenAI,為 AI 市場帶來了變革,新進者挑戰既有領導者。

Chatterji 評價道:「我們對 Anthropic 最新的模型印象深刻。Sonnet 在短、中、長文檔中表現卓越,分別達到平均分 0.97、1 及 1。其支援最多 20 萬字元的上下文窗口顯示它能處理更大的數據集。」

報告強調了評估成本效益和性能的必要性。Google 的 Gemini 1.5 Flash 成為最具成本效益的模型,提供強勁的性能,價格卻顯著低於頂尖模型。

Chatterji 解釋道:「Flash 每百萬個提示標記的成本為 0.35 美元,而 Sonnet 為 3 美元。在輸出方面,Flash 每百萬個回應標記約 1 美元,Sonnet 則為 15 美元。這一定價差異讓選擇 Sonnet 的用戶需要考慮較高的預算,而 Flash 在更低成本下提供類似性能。」

這一成本差異可能影響企業尋求擴大 AI 部署時的選擇,促使他們轉向更高效的模型,儘管這些模型可能不是性能最佳的。

全球 AI 競爭:阿里巴巴取得進展

阿里巴巴的 Qwen2-72B-Instruct 在開源模型中表現卓越,在短文和中長文輸入上獲得高分。這一成功反映了非美國公司的 AI 技術大幅進步,挑戰了美國在該領域的主導地位。

Chatterji 認為這是 AI 更加民主化的助推力。「使用 Llama 3 和 Qwen,全球團隊現在能夠根據經濟背景構建創新產品。」他指出,未來這些模型亦會針對邊緣和移動設備進行優化,預示著在移動和網絡環境中將出現令人驚豔的應用。

報告也高亮模型如何管理不同的上下文長度,從短片段到長文檔,反映了 AI 對於總結龐大報告或分析大數據集的需求,為企業評估 AI 部署提供了必要的深度見解。

Chatterji 分享道:「我們旨在根據上下文長度將性能進行細分——小型、中型和大型。此外,關注成本與性能對決策者至關重要。」

研究結果顯示,較大的模型並不總是優越;在某些情況下,較小模型的表現超過其大兄弟,這表明設計效能在某些情境中可超越單純的規模。

Chatterji 指出:「Gemini 1.5 Flash 模型的表現讓人耳目一新,它超越了更大的同類模型。這顯示了設計效率在 AI 開發中的重要性。」

展望語言模型的未來

Galileo 的洞見可能會深刻影響企業的 AI 採用。隨著開源模型逐步提升性能並降低成本,企業將有機會接觸到強大的 AI 工具,而無需依賴昂貴的專有服務,為廣泛的 AI 整合與提升生產力鋪平道路。

這家專注於監控和增強 AI 系統的創業公司旨在支持企業在快速變化的語言模型中導航。通過提供定期基準,Galileo 力求成為技術決策者的重要資源。

Chatterji 表示:「我們希望企業客戶和 AI 團隊用戶將此作為理解開發 AI 應用的最有效方式的動態工具。」

隨著競爭的加劇,新模型幾乎每週都在出現,Galileo 的基準為這一迅速變化的行業提供了快照。該公司計劃每季度更新指數,以反映開源與專有 AI 技術之間不斷演變的平衡。

Chatterji 預測更多創新:「我們看到大型模型作為高階推理的作業系統逐步崛起。這些模型在未來一到兩年將變得越來越通用,尤其是在上下文長度擴大、成本下降的背景下。」

他還預測多模態模型和基於代理的系統將興起,這需要新的評估方法,並可能催生下一波 AI 創新。

隨著企業面對 AI 快速發展,Galileo 的幻覺指數等工具將在指導戰略決策中發揮關鍵作用。AI 能力的民主化,結合對成本效益的日益重視,預示著未來的先進 AI 將不僅更強大,同時也將對更廣泛的組織更具可及性。

這一不斷演變的環境既帶來機遇也挑戰。雖然高性能、具成本效益的 AI 模型的興起可以推動創新和效率,但企業必須謹慎考慮如何有效採用和整合這些技術。

隨著開源與專有 AI 之間的界限模糊,企業必須保持資訊靈通和適應性,隨時調整他們的策略以應對技術變化。Galileo 的基準既是當前 AI 趨勢的快照,也是導航複雜且快速變化的人工智慧世界的指南。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles