AI2新模型：开放且强大的经济高效解决方案，人人可用

Home AI News CN AI2新模型：开放且强大的经济高效解决方案，人人可用

埃伦人工智能研究所（AI2）与Contextual AI合作推出了一款创新的开源大型语言模型（LLM）——OLMoE。该模型旨在提供强大的性能与成本效益的平衡。

OLMoE采用稀疏专家混合（MoE）架构，拥有70亿参数，但每次输入仅使用10亿参数。它有两个版本：适用于一般用途的OLMoE-1B-7B，以及用于指令调整的OLMoE-1B-7B-Instruct。与许多其他MoE模型不同，OLMoE是完全开源的。AI2强调，其他MoE模型通常在训练数据、代码和构建方法上缺乏透明度，限制了研究人员的访问。“大多数MoE模型都是闭源的，提供的训练数据或方法论的见解有限，这阻碍了成本高效的开源MoE模型的发展，无法与闭源模型竞争，”AI2在其论文中表示。这种缺乏可及性对研究人员和学术界构成了重大障碍。

AI2研究科学家纳森·兰伯特在X（前身为Twitter）上指出，OLMoE可以支持政策制定，作为学术H100集群可用时的重要工具。他强调AI2致力于推出具有竞争力的开源模型，表示：“我们在不改变核心目标的前提下改进了基础设施和数据。这个模型是真正的前沿技术，不仅仅在几个评估中表现最佳。”

OLMoE的构建

在开发OLMoE时，AI2采用了细粒度路由方法，利用64个小型专家，每次只激活八个。这种配置在性能上与其他模型相当，但大大降低了推理成本和内存需求。

OLMoE基于AI2之前的开源模型OLMO 1.7-7B，该模型支持4,096个token的上下文窗口，使用的训练数据集为Dolma 1.7。在训练过程中，OLMoE结合了来自Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、古腾堡计划和维基百科的多样化数据集。

AI2声称，OLMoE在与类似活跃参数的所有现有模型的比较中表现优越，甚至超过了更大的模型，如Llama2-13B-Chat和DeepSeekMoE-16B。基准测试结果表明，OLMoE-1B-7B与参数为70亿或更多的模型，如Mistral-7B、Llama 3.1-B和Gemma 2，竞争密切。在与10亿参数模型的测试中，OLMoE-1B-7B显著超越了包括Pythia、TinyLlama甚至AI2自己的OLMO在内的其他开源模型。

开源MoE的必要性

AI2的使命是提升完全开源AI模型的可获得性，尤其是在越来越受欢迎的MoE架构中。许多开发者正在转向MoE系统，正如Mistral的Mixtral 8x22B和X.ai的Grok所展示的那样，甚至有关于在GPT-4中潜在使用MoE的猜测。然而，AI2和Contextual AI指出，许多现有AI模型在训练数据和代码库透明性方面存在不足。

AI2强调在MoE模型中保持开放的重要性，因为这些模型引入了独特的设计挑战，如确定总参数与活跃参数的比例、选择多个小型专家还是较少的大型专家、共享专家以及选择合适的路由算法。此外，开源倡议正积极探讨AI模型开放性的定义，强调透明性对推动该领域进步的重要性。

ServiceNow推出可定制的企业AI代理库，专为您的工作流程需求量身打造

LightEval：来自Hugging Face的开源工具，提升人工智能的责任性