没有单一的标准来衡量生成型人工智能模型的性能,但每秒处理的令牌数量是一个关键指标。今天,SambaNova Systems宣布在生成型人工智能性能方面取得了显著成就,其Llama 3 8B参数指令模型达到了每秒处理1,000个令牌的惊人速度。此前,Llama 3的最快基准保持者是Groq,速度为每秒800个令牌。这个新里程碑经过测试公司Artificial Analysis的独立验证。处理速度的提升对企业具有重要意义,可能导致更快的响应时间、提高硬件利用率,并降低运营成本。
人工智能性能的竞赛
“我们正在见证人工智能芯片竞赛的加速,远超预期。我们非常高兴通过关注实际性能的独立基准验证了SambaNova的声明,”Artificial Analysis的联合创始人乔治·卡梅伦(George Cameron)表示。“如今,AI开发者有了更广泛的硬件选择,这对依赖速度的应用程序,尤其是需要快速响应和高效文档处理的AI代理和消费级AI解决方案,极为重要。”
SambaNova如何加速Llama 3和生成型人工智能
SambaNova专注于开发面向企业的生成型人工智能解决方案,结合硬件和软件的能力。在硬件方面,公司设计了一种独特的AI芯片,称为可重构数据流单元(RDU)。这种芯片类似于Nvidia的AI加速器,既能进行训练,又能进行推理,同时特别增强企业工作负载和模型微调。最新型号SN40L于2023年9月发布。
SambaNova还提供一套专有软件栈,其中包括于2月28日推出的Samba-1模型。该模型拥有1万亿个参数,被称为Samba-CoE(专家组合),允许企业根据数据需求单独或结合使用多个模型。为了达成每秒处理1,000个令牌的速度,SambaNova采用了其测试版的Samba-1 Turbo模型。公司计划很快将这些速度提升集成到其主要企业模型中。不过,卡梅伦指出,Groq的每秒800个令牌的数据来自其公共API端点,而SambaNova的结果则来自专用私人端点,使得直接比较变得复杂。
“尽管如此,这一速度是我们基准测试的其他API提供商中间输出的8倍以上,且远超Nvidia H100的典型输出速度,”卡梅伦表示。
通过可重构数据流提升性能
SambaNova的性能得益于其可重构数据流架构,这是RDU技术的核心。这一架构支持通过编译器映射在神经网络层和内核之间优化资源配置。
“通过数据流,我们可以不断优化模型映射,因为它是完全可重构的,”SambaNova的首席执行官兼创始人罗德里戈·梁(Rodrigo Liang)表示。“这不仅带来了增量收益,还在软件演变过程中极大地提升了效率与性能。”
最初,Llama 3发布时,梁的团队在Samba-1上实现了每秒330个令牌的性能。经过几个月的广泛优化,这一速度已经提升至1,000个令牌每秒。梁解释说,优化涉及在内核之间平衡资源分配,防止瓶颈,并最大化神经网络管道的整体吞吐量,这与SambaNova软件栈中协助企业进行微调的策略类似。
企业级质量与更高速度
梁强调,SambaNova在实现这一速度里程碑时采用了16位精度,这一标准确保了企业所需的质量。“我们始终为客户使用16位精度,因为他们重视质量,并希望减少输出中的幻觉。”
随着越来越多的企业采用基于AI代理的工作流程,速度对企业用户的重要性日益增长。此外,更快的生成时间带来了经济优势。“我们生成响应的速度越快,就越能为其他人释放更多可用资源,”梁指出。“最终,这能导致更紧凑的基础设施和成本节约。”