AI2通过多样化数据集和双阶段课程增强开源OLMo模型，以提升性能

Home AI News CN AI2通过多样化数据集和双阶段课程增强开源OLMo模型，以提升性能

在周三，艾伦人工智能研究所（AI2）发布了其7亿参数模型OLMo 1.7-7B的更新版本。此次增强版本利用了更为广泛和多样化的Dolma数据集，并采用了先进的训练流程。

OLMo于二月首次推出，被定位为“真正开放源码的最先进大型语言模型”，配备了全面的预训练数据、训练代码、模型权重和评估指标。此次更新使OLMo 1.7-7B支持更长的上下文长度，从2048个标记扩展至4096个标记，得益于精细的训练技术和架构提升，这显著提高了模型性能。

Dolma 1.7数据集包含了来自多元材料的2300亿个标记，数据来源包括Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、古腾堡计划以及维基百科等。新的Dolma 1.7版本取代了主要依赖网络数据的Dolma 1.5，提升了模型处理需要专业知识、复杂推理和编程任务的能力，实现数据源的多样化。

AI2还实施了更好的去重方法，以确保内容质量，移除重复得分超过设定阈值的文档，该得分来自段落级的重复评分。同时，Dolma 1.7引入了精细化的质量过滤系统。FastText分类器根据文档质量进行评估，区分结构良好的内容与低质量材料。高质量来源包括维基百科、小型网络RSS源和语义学者，而低质量文档则包括成人内容和虚假信息网站。该分类器的训练数据约为25GB。

此外，OLMo 1.7采用了两阶段的训练课程。首先，研究人员从头开始训练模型。在第二阶段，模型将利用Dolma 1.7的经过挑选的子集进行进一步训练，使用额外的500亿个标记，同时逐步将学习率降至零。经过挑选的高质量子集包含了所有可能的维基百科、OpenWebMath和Flan数据，排除了某些来源，并平衡了剩余数据集的比例。

AI2表示，这些增强使OLMo 1.7-7B在大规模多任务语言理解（MMLU）基准测试中超越了Llama 2-7B，并在GSM8K数据集中优于Llama-2-13B。

更新后的OLMo模型采用Apache 2.0许可证，Dolma 1.7则在ODC-BY下提供。两者现已在Hugging Face平台上可供访问。

推出思科超盾：引领人工智能时代的安全革命

关注波士顿动力！Mentee Robotics发布下一代“以AI为核心”的机器人