SambaNova Systems 近日推出了迄今为止可能是最大的大型语言模型(LLM)——一万亿参数的 Samba-1。这并不是一个单一的模型,而是通过一种称为“专家组合”架构,将50多个高质量的AI模型整合在一起,从而为特定的企业应用提供定制化和优化。
在九月份,SambaNova 发布了 SN40L AI 芯片,旨在提供高效的训练和推理解决方案,与英伟达展开竞争。Samba-1 模型将纳入 SambaNova 套件,使组织能够有效地调整和部署模型。
SambaNova 的联合创始人兼首席执行官 Rodrigo Liang 强调,提供预组合、预训练和预优化模型的价值这一功能,使企业能够在无需进行广泛微调的情况下实现高性能的部署。
Samba-1 如何利用专家组合构建大规模 LLM
Samba-1 包含50多个经过单独训练并优化以确保协调性的AI模型。这些模型包括 SambaNova 自有模型和适合特定任务的精选开源模型,如 Llama 2、Mistral、DeepSeek Coder、Falcon、DePlot、CLIP 和 Llava。
“我们将最佳模型优化并整合成一个一万亿参数的模型,”Liang 说。Samba-1 中的模型能够无缝互动,使得一个模型的输出可以作为其他模型的输入。
将 LLM 连接起来以生成结果并不新鲜;许多流行的开源技术,如 LangChain,也在实现这一功能。然而,Liang 坚持认为,Samba-1 的专家组合方法具有显著优势。与需要用户预先定义模型链的 LangChain 不同,Samba-1 的专家可以根据提示和响应动态连接,提高了灵活性。
此外,Samba-1 使用户能够通过不同数据集训练的模型获得多样化的视角。“它可以动态创建50个 LangChain 的等效模型,以探索不同的结果,”他指出。
专家组合与专家混合的区别
理解专家组合与一些 LLM(如 Mistral)使用的专家混合方法之间的区别很重要。Liang 解释说,专家混合使用一个在多个数据集上训练的单一模型,可能会面临数据隐私风险。
而专家组合则通过在独立且安全的数据集上训练各模型,确保了每个模型的安全性。这种方法确保在训练过程中实施的安全协议同样适用于部署和推理。
针对一万亿参数的定制解决方案
尽管 Samba-1 拥有一万亿的参数,组织在部署时并不总是需要如此大的规模。Samba-1 通过利用多个专门模型,更高效地提供广泛的能力。
“并非每个提示都需要一次激活全部一万亿参数,”Liang 解释道。这提高了效率,减少了电力和带宽的使用,同时减轻了操作负担,因为只使用必要的专家。
SambaNova 还使客户能够在其专有数据上训练模型,从而帮助企业开发独特的 optimized 资产。“使用 Samba-1,您可以拥有自己的私有一万亿参数模型,一旦在您的数据上训练完成,它将无限期归您所有,”Liang 表示。