埃隆·马斯克发布Grok-1.5:接近GPT-4性能里程碑

仅在开放源代码Grok-1几周后,埃隆·马斯克的xAI宣布将于下周推出其升级版的大型语言模型(LLM)——Grok-1.5。Grok-1.5旨在提升推理与解决问题的能力,使其在性能上更接近OpenAI的GPT-4和Anthropic的Claude 3。尽管Grok-1.5能够处理较长的上下文信息,但在对比Gemini 1.5 Pro时,仍有差距,后者支持高达100万字节的上下文窗口。

Grok-1.5的新特性

Grok-1最初于去年11月发布,灵感来源于《银河系漫游指南》,旨在帮助用户追求知识,无论其背景或政治立场如何。在先前的基准测试中,Grok-1的表现超越了Llama-2-70B和GPT-3.5。

关于Grok-1.5,xAI称在多个关键指标上有显著的进步。在测试中,Grok-1.5在MATH基准测试中获得50.6%的分数,在GSM8K基准测试中达到了90%,以及在HumanEval基准测试中获得了74.1%,显示出其在编程和数学相关任务上的重要提升。

此外,Grok-1.5在MMLU基准测试中获得81.3%的分数,明显高于Grok-1的73%。Grok-1.5支持高达128,000个字节的上下文窗口,使其能够处理更大量的信息,达到其前身的16倍。这使得它在分析和总结长篇文档时更为高效,同时保持出色的指令执行能力。

与领先模型的竞争

Grok-1.5不仅在自身性能上超越了Grok-1,还缩短了与Gemini 1.5 Pro、GPT-4和Claude 3等领先模型的差距。例如,在MMLU基准测试中,Grok-1.5的81.3%稍微超越了最近发布的Mistral Large,但仍不及Gemini 1.5 Pro的83.7%、GPT-4的86.4%和Claude 3 Opus的86.8%。在GSM8K基准测试中,它也略低于Google、OpenAI和Anthropic的产品。特别是在HumanEval测试中,Grok-1.5超越了除Claude 3 Opus之外的所有模型。

科技顾问布莱恩·罗梅尔预计,正在训练中的Grok-2将在发布后成为最强大的LLM AI平台之一,许多指标将超过OpenAI。

Grok-1.5的可用性

xAI计划下周逐步推出Grok-1.5,首先面向早期测试者和Grok聊天机器人的用户(在X平台,即前身为Twitter)。更新将分阶段进行,推出包括潜在“趣味模式”等新功能,同时逐步扩大用户访问权限。

马斯克最初在X平台上发布Grok是为了促进Grok和X平台的采用。Grok目前通过‘Premium+’订阅,每月需支付16美元,但马斯克最近宣布,所有8美元/月的Premium订阅用户也将可以访问Grok。此外,某些订阅级别的认证用户将享受Premium福利,包括免费访问Grok。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles