在開源Grok-1僅數週後,Elon Musk的xAI將於下週推出其專有大型語言模型(LLM)的升級版本Grok-1.5。Grok-1.5旨在提升推理和解決問題的能力,讓其性能更接近已建立的模型,如OpenAI的GPT-4和Anthropic的Claude 3。儘管其能處理長文本,但仍落後於支持高達100萬個標記的Gemini 1.5 Pro。
Grok-1.5的新特性
Grok-1最初於去年11月宣布,靈感來自《銀河便車指南》,旨在幫助用戶在追求知識的過程中無論背景或政治立場如何都能獲得支援。在之前的基準測試中,Grok-1的表現超過了Llama-2-70B和GPT-3.5。
xAI表示,Grok-1.5在關鍵指標上有顯著改善。在測試中,Grok-1.5在MATH基準測試中取得50.6%的分數,在GSM8K基準中達到90%的分數,在HumanEval基準中獲得74.1%的分數,顯示出在編程和數學相關任務上的顯著進步。此外,Grok-1.5在MMLU基準測試中獲得81.3%的分數,顯示出對Grok-1的73%有明顯提升。Grok-1.5的上下文窗口可達128,000個標記,能處理比前任多16倍的信息,擅長分析和總結長文檔,同時保持出色的指令遵循能力。
與領先模型競爭
Grok-1.5不僅超越了Grok-1,還縮小了與領先模型如Gemini 1.5 Pro、GPT-4和Claude 3之間的性能差距。例如,Grok-1.5在MMLU基準測試中達到81.3%的分數,略高於最近推出的Mistral Large,但仍落後於Gemini 1.5 Pro的83.7%、GPT-4的86.4%和Claude 3 Opus的86.8%。在GSM8K基準中,Grok-1.5的表現也略低於Google、OpenAI和Anthropic的產品。值得注意的是,Grok-1.5在HumanEval中表現卓越,超過了除了Claude 3 Opus外的所有模型。
技術顧問Brian Roemmele預期,正在訓練中的Grok-2在發布後可能會成為最強大的LLM AI平台之一,在多項指標上超越OpenAI。
Grok-1.5的可用性
xAI計劃在下週部署Grok-1.5,首批將是早期測試者和X平台(前身為Twitter)的Grok聊天機器人用戶。推出將是分階段的,逐步引入新功能,包括潛在的「娛樂模式」,同時逐步擴大更多用戶的訪問權限。
Musk首次在X平台釋出Grok,旨在促進Grok和X平台的採用。目前,Grok可透過平台的“Premium+”訂閱以每月16美元的價格使用,而Musk最近宣布,所有每月8美元的Premium訂閱者也將能獲得Grok的訪問權。此外,某些訂閱級別的驗證用戶將獲得Premium福利,包括免費使用Grok。