Zyphra推出Zamba:颠覆性的SSM-混合基础模型,让更多设备轻松接入AI技术

Zyphra Technologies即将推出一款开创性的基础模型,旨在进一步去中心化人工智能(AI)。Zamba是一款开放源代码的AI模型,拥有70亿个参数,利用了公司的Mamba模块和全球共享注意力层。这一创新模型旨在提升多种设备的智能水平,同时显著降低推理成本。

适用于每一台设备的AI

Zyphra Technologies首席执行官Krithik Puthalath表示:“我们的愿景是打造个人化的AI。”他进一步指出:“我们的使命是促进人与人之间更好的连接。虽然科技和社交媒体曾承诺实现一个更紧密、更充实的世界,但我们未能实现这一目标。我们希望改变AI的未来。”

Puthalath强调,大型公司的AI集中化是一个严重问题。“在追求通用人工智能的过程中,像OpenAI和Anthropic这样的公司开发了单一的云端模型,试图为所有人提供服务。这种方法有其局限性,导致人们对这些系统缺乏信任,使得AI变得冷漠。尽管ChatGPT提供了有价值的回答,但缺乏真正的记忆、个性化体验和随时间的适应能力。”

小型语言模型的价值

Zyphra的70亿参数模型与OpenAI、Anthropic或Meta的数百亿参数模型相比似乎有限。然而,Zyphra的策略是将小型语言模型(SML)应用于日常设备,以优化AI的融合。Zyphra的联合创始人兼首席科学家Beren Millidge表示,虽然他们的首款模型BlackMamba(10亿个参数)是一个概念验证,但70亿参数是实现有意义互动的理想选择。“这个规模几乎可以在所有设备上本地运行,”他解释道。相比之下,更大的模型通常需要强大的GPU集群,普通用户难以接触,这进一步体现了Zyphra的去中心化承诺。

“让AI更贴近用户是我们的目标,”Puthalath补充道。“通过开发针对特定用例的小型高效模型,我们能够实现实时响应,而无需依赖云基础设施。这种方法不仅提升了用户体验,还降低了运营成本,使得在创新上投入更多成为可能。”

与已建立模型竞争

Zyphra自信地表示,Zamba在与LLaMA 1、LLaMA 2 7B和OLMo-7B等其他开源模型的比较中表现优越,同时训练数据使用量不到一半。虽然初步测试在内部进行,Zyphra计划将模型的权重公开,以供公众评估。

谈及Zamba架构的发展,Millidge分享道,他们的方法是基于对现有模型挑战和潜在解决方案的实践直觉。此外,他们还受到了神经科学的启发,创建了一个仿生结构,模拟大脑的功能。Zamba采用一个全球记忆块,由Mamba模块构成,促进类似于人脑皮层和海马体之间的信息共享。

“仅靠直觉是不够的,”Millidge指出。“我们必须进行实验,探索什么有效,什么无效,然后进行迭代。”

开放源代码的Zamba基础模型现已在Hugging Face平台上线,邀请用户来探索其强大功能。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles