麻省理工学院衍生公司Liquid推出最先进的非变压器AI模型

Liquid AI是一家由前麻省理工学院计算机科学与人工智能实验室(CSAIL)研究人员共同创办的初创公司,最近推出了其首个多模态人工智能模型——Liquid Foundation Models(LFM)。

与许多当前依赖变换器架构的生成性人工智能模型不同,Liquid AI旨在探索替代生成预训练变换器(GPTs)的方法。LFMs采用“原理基础”构建,类似于工程师设计发动机和飞机的方式。与Meta的Llama 3.1-8B和微软的Phi-3.5 3.8B等可比的变换器模型相比,这些创新的LFM展现出卓越的性能。LFMs分为三种规格:LFM 1.3B(小型)、LFM 3B和大型的LFM 40B MoE(混合专家模型),其参数量分别以“B”表示十亿。通常,参数量越大,模型在多种任务上的能力也越强。

LFM 1.3B在多个第三方基准测试中已经超越了Meta的Llama 3.2-1.2B和微软的Phi-1.5,尤其是在大规模多任务语言理解(MMLU)测试中,这标志着非GPT架构的显著成就。这三种模型在性能和内存效率之间实现了良好的平衡;例如,Liquid的LFM-3B仅需16GB内存,而Meta的Llama-3.2-3B则需超过48GB。

Liquid AI的后训练负责人Maxime Labonne通过社交媒体表达了对LFMs的自豪,强调它们在使用显著较少内存的情况下超越了变换器模型的性能基准。这些模型适用于金融、生物技术和消费电子等多个行业的企业解决方案,并能够在边缘设备上部署。

值得注意的是,LFMs并非开源,用户必须通过Liquid的推理平台,例如Lambda Chat或Perplexity AI访问它们。Liquid开发LFMs时综合了基于动力系统理论、信号处理和数值线性代数的计算单元。这使得这些通用人工智能模型能够处理多种顺序数据类型,包括视频、音频、文本和时间序列数据。

去年,有报告指出Liquid AI专注于液态神经网络(LNNs),这是一种CSAIL开发的架构,旨在提高人工神经元的效率和适应性。与需要大量神经元的传统深度学习模型不同,LNNs显示出在结合创新数学技术的情况下,较少的神经元也能取得相似效果。

LFMs利用这种适应性,使推理过程中能够进行实时调整,且计算开销极小。例如,LFM-3B模型在处理长上下文时表现优异,同时内存占用较小,优于谷歌的Gemma-2、微软的Phi-3和Meta的Llama-3.2等模型。

通过其多模态能力,Liquid AI能够应对金融服务、生物技术和消费电子等行业的多样化挑战。目前,该公司正处于预览阶段,鼓励早期用户测试模型并提供反馈。完整的发布活动定于2024年10月23日在麻省理工学院Kresge礼堂举行,现已开始接受RSVP。为此,Liquid AI计划发布一系列技术博客,并鼓励用户对模型进行压力测试,以便在未来的改进中得到参考。

凭借Liquid Foundation Models的发布,Liquid AI旨在巩固其在基础模型领域的重要地位,结合卓越的性能与无与伦比的内存效率。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles