在周三,艾伦人工智能研究所(AI2)发布了其7亿参数模型OLMo 1.7-7B的更新版本。此次增强版本利用了更为广泛和多样化的Dolma数据集,并采用了先进的训练流程。
OLMo于二月首次推出,被定位为“真正开放源码的最先进大型语言模型”,配备了全面的预训练数据、训练代码、模型权重和评估指标。此次更新使OLMo 1.7-7B支持更长的上下文长度,从2048个标记扩展至4096个标记,得益于精细的训练技术和架构提升,这显著提高了模型性能。
Dolma 1.7数据集包含了来自多元材料的2300亿个标记,数据来源包括Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、古腾堡计划以及维基百科等。新的Dolma 1.7版本取代了主要依赖网络数据的Dolma 1.5,提升了模型处理需要专业知识、复杂推理和编程任务的能力,实现数据源的多样化。
AI2还实施了更好的去重方法,以确保内容质量,移除重复得分超过设定阈值的文档,该得分来自段落级的重复评分。同时,Dolma 1.7引入了精细化的质量过滤系统。FastText分类器根据文档质量进行评估,区分结构良好的内容与低质量材料。高质量来源包括维基百科、小型网络RSS源和语义学者,而低质量文档则包括成人内容和虚假信息网站。该分类器的训练数据约为25GB。
此外,OLMo 1.7采用了两阶段的训练课程。首先,研究人员从头开始训练模型。在第二阶段,模型将利用Dolma 1.7的经过挑选的子集进行进一步训练,使用额外的500亿个标记,同时逐步将学习率降至零。经过挑选的高质量子集包含了所有可能的维基百科、OpenWebMath和Flan数据,排除了某些来源,并平衡了剩余数据集的比例。
AI2表示,这些增强使OLMo 1.7-7B在大规模多任务语言理解(MMLU)基准测试中超越了Llama 2-7B,并在GSM8K数据集中优于Llama-2-13B。
更新后的OLMo模型采用Apache 2.0许可证,Dolma 1.7则在ODC-BY下提供。两者现已在Hugging Face平台上可供访问。