在一項重要的基準揭示中,初創芯片公司 Groq 透過轉發消息指出,其系統在 Meta 新發布的 LLaMA 3 大語言模型下每秒交流超過 800 個 tokens。工程師 Dan Jakaitis 在 X(前身為 Twitter)上提到:「我們正在測試他們的 API,服務的速度確實不如硬體演示那麼快。這很可能是軟體問題——對 Groq 的更廣泛採用仍然感到興奮。」另一方面,OthersideAI 的共同創辦人兼 CEO Matt Shumer 及其他顯著用戶報告顯示,Groq 的系統確實以每秒超過 800 個 tokens 的速度提供快速推理。如果這一表現得到驗證,將大幅超越現有的雲端 AI 服務,初步測試顯示 Shumer 的聲明可行。
專為 AI 優化的嶄新處理器架構
Groq 這家資金充足的硅谷初創公司正在開創一種獨特的處理器架構,旨在優化深度學習中矩陣乘法操作。其 Tensor Streaming Processor 避免了 CPU 和 GPU 中傳統的快取和複雜控制邏輯,偏向為 AI 任務量身打造的簡化執行模型。
透過減少一般處理器中的開銷和記憶體瓶頸,Groq 堅信能為 AI 推理提供卓越的性能和效率。如果證實 LLaMA 3 每秒 800 個 tokens 的驚人成果,將支持這一說法。
Groq 的架構與 Nvidia 和其他成熟芯片製造商有顯著不同。Groq 不僅是對通用芯片進行改良,而是專為滿足深度學習的計算需求而設計其 Tensor Streaming Processor。
這種創新方式使 Groq 能夠消除不必要的電路,並優化數據流,以應對 AI 推理中固有的重複和可平行化任務。最終結果是,與主流替代品相比,延遲、能耗和運行大型神經網絡的成本均顯著降低。
快速高效的 AI 推理需求
每秒 800 個 tokens 相當於每分鐘約 48,000 個 tokens——這足夠在一秒內生成約 500 字文本。這一速度幾乎是今天雲端大型語言模型在傳統 GPU 上的十倍快。
隨著語言模型不斷增大,參數達到數十億,對快速且高效的 AI 推理需求愈加迫切。雖然訓練這些大型模型需高度計算能力,但具成本效益的部署依賴於能快速處理而又不耗費過多電力的硬體。這對於如聊天機器人、虛擬助手和互動平台等對延遲敏感的應用至關重要。
隨著技術的擴展,AI 推理的能耗效率愈加受到重視。數據中心本身已是巨大的能源消耗者,而大規模 AI 的高計算需求可能會加劇這一問題。在可持續擴展 AI 方面,平衡高性能與低能源消耗的硬體顯得尤為重要,Groq 的 Tensor Streaming Processor 旨在應對這一效率挑戰。
挑戰 Nvidia 的主導地位
Nvidia 目前在 AI 處理器市場中領先,其 A100 和 H100 GPU 是大多數雲端 AI 服務的基礎。然而,以 Groq、Cerebras、SambaNova 和 Graphcore 等為代表的新興初創企業正在推出專為 AI 設計的創新架構。
在這些挑戰者中,Groq 對於推理和訓練的專注尤為明顯。CEO Jonathan Ross 自信地預測,到 2024 年底,大多數 AI 初創公司將採用 Groq 的低精度張量流處理器進行推理。
Meta 的 LLaMA 3 正被譽為最強大的開源語言模型之一,這為 Groq 展示其硬體推理能力提供了理想機會。如果 Groq 的技術能在運行 LLaMA 3 時超越主流替代品,將證實該初創公司的聲明並加速市場採用。該公司還成立了一個新業務單位,以通過雲服務和戰略合作伙伴關係提升其芯片的可及性。
強大的開放模型如 LLaMA 與 Groq 高效的 AI 首先推理硬體的融合,將使先進的語言 AI 更加可及且具成本效益,吸引更廣泛的企業和開發者。然而,Nvidia 仍然是強勁的競爭對手,其他挑戰者也準備把握新機會。
隨著建設能夠跟上 AI 模型開發快速進展的基礎設施的競賽加劇,實現近實時的 AI 推理而成本可負擔,將為電子商務、教育、金融和醫療等多個領域帶來革命性變化。
一位用戶在 X.com 上簡潔地概括了這一時刻:“速度 + 低成本 + 質量 = 現在用其他的似乎不合理。”未來幾個月將決定這一說法是否成立,突顯 AI 硬體的格局在挑戰傳統規範中不斷演變。