随着对新款 GPT-4o-mini 功能的热切期待,苹果公司在 Hugging Face 上发布了多个开放的语言模型数据竞争(DCLM)模型,进一步丰富了其紧凑型 AI 模型系列。
这次发布的两款显著模型分别具有 70 亿和 14 亿个参数。两者在基准测试中表现优异,尤其是较大的模型,其表现超过了 Mistral-7B,并迅速接近其他主要开放模型如 Llama 3 和 Gemma。苹果机器学习团队的 Vaishaal Shankar 称这些模型为“最佳表现”的开源选择。值得注意的是,该项目完全采纳了开源原则,发布了模型权重、训练代码和预训练数据集。
苹果 DCLM 模型概览
数据竞争项目是苹果、华盛顿大学、特拉维夫大学和丰田研究院等研究人员的合作项目,旨在为 AI 模型训练创造高质量数据集,尤其是在多模态领域。团队采用标准化框架,使用固定的模型架构、训练代码、超参数以及评估方法,测试不同数据整理策略,以优化模型性能。
早期实验表明,基于模型的数据过滤 —— 利用机器学习模型从大数据集中筛选并选择高质量数据 —— 在组建优质训练集方面起着关键作用。通过这种整理技术,团队开发了 DCLM-Baseline 数据集,这对从头训练 70 亿和 14 亿参数的解码器单一变换器模型至关重要。
70 亿参数模型基于 2.5 万亿个标记使用 OpenLM 预训练方案进行了训练,具有 2K 上下文窗口,并在 MMLU 基准测试中取得了 63.7% 的 5 次测评准确率。与之前开放数据语言模型领导者 MAP-Neo 相比,提升了 6.6 个百分点,同时训练所需计算能力减少了 40%。
其 MMLU 性能与众多开放权重但闭合数据的领先模型如 Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、谷歌的 Gemma(64.3%)和微软的 Phi-3(69.9%)相近。
此外,当研究人员将模型上下文扩展到 8K,并使用数据集分解技术进行了 1000 亿次额外训练迭代时,在核心和扩展基准测试中观察到更进一步的性能提升,尽管 MMLU 的结果保持不变。“我们的研究强调了数据集设计在语言模型训练中的重要性,并为数据整理的持续研究奠定了基础,”研究团队在 DataComp-LM 的论文中表示。
小型模型的出色表现
与 DCLM-7B 类似,小型 14 亿参数模型是与丰田研究院合作开发的,也是基于 2.6 万亿个标记进行训练,在 MMLU、核心和扩展测试中表现卓越。在 5 次测评的 MMLU 评估中达到了 41.9%,超过了同类其他模型,如 Hugging Face 的 SmolLM(得分 39.97%),Qwen-1.5B 和 Phi-1.5B 分别得分 37.87% 和 35.90%。
目前,70 亿模型在苹果的示例代码许可证下可用,而 14 亿模型则在 Apache 2.0 下发布,允许商业使用、分发和修改。此外,7B 模型的指令调优版本也可在 Hugging Face 库中获取。
需要强调的是,这一发布代表了强调数据整理有效性的早期研究。这些模型并不适用于苹果设备,可能会受到训练数据集的偏差影响,或产生潜在的有害响应。