目前尚無單一的速度計量能全面評估生成性人工智慧模型的性能,但每秒處理的標記數是一項關鍵指標。今天,SambaNova Systems 宣布在生成性 AI 性能上取得重大突破,Llama 3 8B 參數指令模型達到每秒處理 1,000 個標記的驚人成就。此前,Llama 3 的最快基準由 Groq 保持,為每秒 800 個標記。這一新里程碑經過測試公司 Artificial Analysis 獨立驗證。處理速度的提升對企業意義重大,可能導致更快的響應時間、更高的硬體利用率及降低運營成本。
AI 性能賽跑
“我們見證了超出預期的 AI 晶片競賽加速。我們很高興能用獨立基準對 SambaNova 的主張進行驗證,聚焦於實際性能,”Artificial Analysis 的聯合創始人 George Cameron 說道。“AI 開發者現在擁有更廣泛的硬體選擇,這對依賴速度的應用如 AI 代理和需要快速響應及高效文檔處理的消費者 AI 解決方案尤為重要。”
SambaNova 如何加速 Llama 3 和生成性 AI
SambaNova 專注於開發企業導向的生成性 AI 解決方案,包括硬體和軟體能力。在硬體方面,公司設計了一種獨特的 AI 晶片,稱為可重構數據流單元(RDU)。與 Nvidia 的 AI 加速器類似,RDU 在訓練和推理上都表現出色,特別針對企業工作負載和模型微調進行增強。最新的型號 SN40L 於 2023 年 9 月推出。
此外,SambaNova 還提供一套專有軟體堆疊,包括於 2 月 28 日推出的 Samba-1 模型。該模型擁有 1 兆個參數,被稱為 Samba-CoE(專家組合),允許企業根據其數據需求分開或組合使用多個模型。
為了實現每秒 1,000 個標記的速度,SambaNova 使用了其 Samba-1 Turbo 模型,這是一個可供測試的 API 版本。該公司計畫將這些速度提升整合進其主要企業模型中。然而,Cameron 指出,Groq 的 800 個標記每秒的測量是針對其公共 API 端點,而 SambaNova 的結果來自專用的私有端點,使得直接比較變得更為複雜。
“儘管如此,這一速度超過了我們基準的其他 API 供應商的中位數輸出達 8 倍,並且比 Nvidia H100 的典型輸出速度快數倍,”Cameron 表示。
可重構數據流以提升性能
SambaNova 的性能受到其可重構數據流架構的驅動,該架構是 RDU 技術的核心。這種架構允許通過編譯器映射在神經網絡層和核心之間實現最佳化資源分配。
“借助數據流技術,我們能夠不斷優化模型映射,因為它是完全可重構的,”SambaNova 的 CEO 和創始人 Rodrigo Liang 說。“這不僅帶來了增量改進,還在軟體演進過程中實現了顯著的效率和性能提升。”
最初,Llama 3 上市時,Liang 的團隊在 Samba-1 上實現了每秒 330 個標記的性能。經過最近幾個月的大量優化,這個速度現在已經提高到每秒 1,000 個標記。Liang 解釋說,優化涉及在核心之間平衡資源分佈,防止瓶頸,並最大化神經網絡管道中的總吞吐量,這是 SambaNova 的軟體堆疊所採取的方式之一,以幫助企業進行微調。
企業質量和更高的速度
Liang 強調,SambaNova 利用 16 位精度來實現這一速度里程碑,這一標準確保了企業所需的質量。他表示:“我們始終對客戶使用 16 位精度,因為他們重視質量並最小化輸出的幻覺。”
隨著組織越來越多地採用 AI 代理驅動的工作流程,企業用戶對速度的重視程度日益提高。此外,更快的生成時間也帶來了經濟優勢。
“我們生成回應的速度越快,越能釋放更多可用資源供他人使用,”他指出。“最終,這將導致基礎設施更為緊湊和成本的節省。”