埃伦人工智能研究所(AI2)与Contextual AI合作推出了一款创新的开源大型语言模型(LLM)——OLMoE。该模型旨在提供强大的性能与成本效益的平衡。
OLMoE采用稀疏专家混合(MoE)架构,拥有70亿参数,但每次输入仅使用10亿参数。它有两个版本:适用于一般用途的OLMoE-1B-7B,以及用于指令调整的OLMoE-1B-7B-Instruct。与许多其他MoE模型不同,OLMoE是完全开源的。AI2强调,其他MoE模型通常在训练数据、代码和构建方法上缺乏透明度,限制了研究人员的访问。“大多数MoE模型都是闭源的,提供的训练数据或方法论的见解有限,这阻碍了成本高效的开源MoE模型的发展,无法与闭源模型竞争,”AI2在其论文中表示。这种缺乏可及性对研究人员和学术界构成了重大障碍。
AI2研究科学家纳森·兰伯特在X(前身为Twitter)上指出,OLMoE可以支持政策制定,作为学术H100集群可用时的重要工具。他强调AI2致力于推出具有竞争力的开源模型,表示:“我们在不改变核心目标的前提下改进了基础设施和数据。这个模型是真正的前沿技术,不仅仅在几个评估中表现最佳。”
OLMoE的构建
在开发OLMoE时,AI2采用了细粒度路由方法,利用64个小型专家,每次只激活八个。这种配置在性能上与其他模型相当,但大大降低了推理成本和内存需求。
OLMoE基于AI2之前的开源模型OLMO 1.7-7B,该模型支持4,096个token的上下文窗口,使用的训练数据集为Dolma 1.7。在训练过程中,OLMoE结合了来自Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、古腾堡计划和维基百科的多样化数据集。
AI2声称,OLMoE在与类似活跃参数的所有现有模型的比较中表现优越,甚至超过了更大的模型,如Llama2-13B-Chat和DeepSeekMoE-16B。基准测试结果表明,OLMoE-1B-7B与参数为70亿或更多的模型,如Mistral-7B、Llama 3.1-B和Gemma 2,竞争密切。在与10亿参数模型的测试中,OLMoE-1B-7B显著超越了包括Pythia、TinyLlama甚至AI2自己的OLMO在内的其他开源模型。
开源MoE的必要性
AI2的使命是提升完全开源AI模型的可获得性,尤其是在越来越受欢迎的MoE架构中。许多开发者正在转向MoE系统,正如Mistral的Mixtral 8x22B和X.ai的Grok所展示的那样,甚至有关于在GPT-4中潜在使用MoE的猜测。然而,AI2和Contextual AI指出,许多现有AI模型在训练数据和代码库透明性方面存在不足。
AI2强调在MoE模型中保持开放的重要性,因为这些模型引入了独特的设计挑战,如确定总参数与活跃参数的比例、选择多个小型专家还是较少的大型专家、共享专家以及选择合适的路由算法。此外,开源倡议正积极探讨AI模型开放性的定义,强调透明性对推动该领域进步的重要性。