每个人都在热议英伟达(Nvidia)惊人的财报,年增长率高达265%。但我们也不能忽视硅谷初创企业Groq,它正在为大型语言模型(LLM)推理开发AI芯片——即利用现有模型进行预测的过程。上周末,Groq引发的关注是许多初创企业难以想象的。
虽然Groq的消息没有像埃隆·马斯克(Elon Musk)关于无关的大型语言模型Grok的帖子那样轰动,但HyperWrite的CEO马特·舒默(Matt Shumer)在平台X上分享了Groq的“疯狂科技”,可能会引起英伟达的注意。舒默强调,Groq能够以近每秒500个标记(tok/s)的速度服务Mixtral,几乎实现即时响应。
他在X上展示了一个“闪电般快速的答案引擎”,可以在不到一秒内提供“带有数百字的事实引用答案”。这引发了广泛对Groq聊天应用的兴趣,用户可以选择由Llama和Mistral LLM生成的输出。这一热潮出现在Groq CEO乔纳森·罗斯(Jonathan Ross)展示如何利用Groq实现“破纪录速度”的音频聊天界面后。
目前,英伟达在高端芯片市场的主导地位无人能敌,市场份额超过80%。尽管其他AI芯片初创企业如SambaNova和Cerebras已涉足AI推理领域,但仍然难以获得关注。英伟达报告第四季度收入达到220亿美元,罗斯强调Groq提供“超快速”且具有成本效益的选择,解决了与推理相关的高昂费用。
罗斯大胆表示:“到年底,我们可能会成为大多数初创企业的基础设施。”并鼓励初创企业联系以获取竞争价格。
Groq LPU与英伟达GPU的对比
Groq将其语言处理单元(LPU)称为一种开创性的端到端处理系统,专为AI语言应用的快速推理而优化。与专注于并行图形处理的英伟达GPU不同,Groq的LPU有效管理数据序列——包括代码和自然语言——通过克服传统GPU和CPU在计算密度和内存带宽方面的限制,实现更快速的输出。
此外,罗斯提到,Groq通过不训练模型与OpenAI等公司区分开,这意味着可以避免记录聊天查询,从而保护用户隐私。
据估计,使用Groq芯片的ChatGPT运行速度可能快13倍,那么OpenAI会成为未来的合作伙伴吗?虽然罗斯并没有确认任何具体合作,但他提到如果双方目标一致,合作将是有益的。
Groq的LPU是否真正改变AI推理游戏?
自去年12月以来,我一直渴望与罗斯对话,因为Groq被称为“准备赢得AI竞赛的美国芯片制造商”。我迫切想知道Groq的LPU是否真正突破了AI推理,还是仅仅是公关炒作的又一短暂趋势。
罗斯表示,舒默的帖子是“点燃火药的导火索”,在24小时内超过3000人请求API接入。“目前我们允许用户免费使用,”他补充道。
罗斯并非初创界的新手;他在2016年创办Groq之前,曾共同发明谷歌的张量处理单元(TPU)。他解释说,Groq的方法独特:“如果你在造车,可以从发动机或驾驶体验开始。我们从驾驶体验入手,前六个月专注于开发复杂的编译器。”
随着AI行业对英伟达GPU的需求激增,创建了一个诱人的市场。新的GPU云服务不断涌现,前GitHub CEO纳特·弗里德曼(Nat Friedman)最近提到GPU集群市场。据报道称,OpenAI的CEO山姆·奧特曼(Sam Altman)计划通过一个庞大的项目来应对AI芯片需求,这个项目的价格令人瞩目,涉及复杂的地缘政治。
罗斯认为,当前的GPU市场环境在某种程度上是对Groq举措的响应。“这是一种良性循环,”他说,他提到英伟达与主权国家的合作是他自己即将进行的全球谈判的一部分。
在被问及奥特曼对70万亿美元AI芯片计划的野心时,罗斯自信回应:“我们只需7000亿美元。我们性价比高。”
Groq还旨在提升AI芯片的供应能力。“到年底,[我们将]拥有每秒2500万标记的能力,这是我们估计OpenAI在2023年底的水平,”他表示,强调与多个国家进行的讨论以扩大这一能力。
不过,伴随最近激增的兴趣,Groq还需处理实际挑战,例如实施API计费。当我询问计费计划时,罗斯回答:“我们会考虑的。”而他的公关代表则确认:“是的,这将是我们的首要任务之一。”