AI晶片競賽:Groq執行長挑戰Nvidia,預測大多數創業公司將在2024年底前採用快速LPU

每個人都在熱議英偉達(Nvidia)驚人的收益年增265%。然而,不要忽視位於硅谷的初創公司Groq,它正在為大型語言模型(LLM)推理創新AI晶片——這一過程涉及使用現有模型進行預測,而非訓練新的模型。上週末,Groq吸引了很多初創公司夢寐以求的關注。

雖然這並不如伊隆·馬斯克(Elon Musk)關於無關的語言模型Grok的帖子那樣轟動,但英偉達無疑注意到了HyperWrite的首席執行官Matt Shumer在社交媒體上分享的Groq的“瘋狂技術”。Shumer強調,Groq能以近500個token每秒(tok/s)的速度為Mixtral提供幾乎瞬時的回答。

Shumer還在X上展示了一個“閃電快速回答引擎”,能在不到一秒的時間內提供“事實性、引用的回答,字數達數百”。這引發了人們對Groq聊天應用的廣泛興趣,使用者可以選擇由Llama和Mistral LLMs生成的輸出。隨著Groq首席執行官Jonathan Ross在一次訪談中展示Groq如何推動一個“打破速度紀錄”的音訊聊天界面,這股熱潮更加高漲。

目前,沒有任何公司可以匹敵英偉達的市場主導地位,後者在高端晶片市場佔有超過80%的份額。其他如SambaNova和Cerebras等AI晶片初創公司在進入AI推理領域後始終難以立足。英偉達第四季度報告的220億美元收入讓Ross強調,Groq提供了一個“超快速”的成本效益選擇,專門針對LLMs,解決推理過程中的高昂費用。

Ross大膽表示,“我們可能會成為年底前大多數初創公司的基礎設施”,並鼓勵初創公司主動聯繫以尋求具競爭力的價格。

Groq LPUs 與 Nvidia GPUs 的比較

Groq的語言處理單元(LPU)被描述為一種突破性的端到端處理單元系統,專為AI語言應用的快速推理而優化。不同於專注於並行圖形處理的Nvidia GPUs,Groq的LPUs有效地管理數據序列——包括代碼和自然語言——通過克服傳統GPU和CPU在計算密度與記憶體帶寬上的限制來實現更快的輸出。

此外,Ross指出Groq與OpenAI等公司的不同之處在於“不訓練模型”,這意味著它可以維持用戶隱私,避免記錄聊天查詢。

據預測,使用Groq晶片的ChatGPT速度可達13倍。那麼,未來是否有可能與OpenAI合作?雖然Ross並未確認任何具體的合作,但他提到如果雙方目標一致,合作將是有益的。

Groq的LPU真的能在AI推理中改變遊戲規則嗎?

自去年12月以來,我一直想與Ross交談,當時Groq被譽為“美國晶片製造商,有望贏得AI競賽”。如今,我急於了解Groq的LPU是否真能在AI推理中實現突破,還是只是一時的PR熱潮。

Ross將Shumer的帖子形容為“點燃火藥的火柴”,並透露在24小時內,有超過3000人要求API訪問。“目前我們讓人們免費使用”,他補充道。

Ross對初創公司並不陌生,他在2016年創立Groq之前曾共同設計谷歌的張量處理單元(TPU)。他解釋說Groq的做法獨特:“如果你在造車,你可以先設計引擎或駕駛體驗。我們是從駕駛體驗開始的,前六個月專注於開發精密編譯器。”

AI行業對英偉達GPU的需求激增,創造了豐厚的市場。新的GPU雲服務不斷湧現,前GitHub首席執行官Nat Friedman最近提到關於GPU叢集的市場平台。報導指出,OpenAI首席執行官Sam Altman計劃通過一個價格驚人且涉及複雜地緣政治的項目解決AI晶片需求。

Ross相信當前GPU的環境部分是對Groq倡議的回應。他提到:“這是一個良性循環”,指的是英偉達與主權國家的交易與他即將進行的全球談判。

當被詢問到Altman對7000億美元AI晶片計劃的雄心時,Ross自信地聲稱,“我們可以用7000億美元實現。我們的產品真是便宜。”

Groq同時也希望增強AI晶片的供應能力。他說:“到年底,我們肯定會擁有每秒2500萬個token的產能,這是我們估算的OpenAI在2023年底的水平。”他強調正在與多個國家進行討論以擴展這一能力。

然而,Groq還必須解決實際挑戰,例如在最近興起的興趣下實施API計費。當我詢問他們的計費計劃時,Ross回答:“我們會研究的。”而他的公關代表則確認道:“是的,這將是我們的首要業務之一。”

Most people like

Find AI tools in YBX