苹果展示AI能力：新模型超越Mistral和Hugging Face表现

Home AI News CN 苹果展示AI能力：新模型超越Mistral和Hugging Face表现

随着对新款 GPT-4o-mini 功能的热切期待，苹果公司在 Hugging Face 上发布了多个开放的语言模型数据竞争（DCLM）模型，进一步丰富了其紧凑型 AI 模型系列。

这次发布的两款显著模型分别具有 70 亿和 14 亿个参数。两者在基准测试中表现优异，尤其是较大的模型，其表现超过了 Mistral-7B，并迅速接近其他主要开放模型如 Llama 3 和 Gemma。苹果机器学习团队的 Vaishaal Shankar 称这些模型为“最佳表现”的开源选择。值得注意的是，该项目完全采纳了开源原则，发布了模型权重、训练代码和预训练数据集。

苹果 DCLM 模型概览

数据竞争项目是苹果、华盛顿大学、特拉维夫大学和丰田研究院等研究人员的合作项目，旨在为 AI 模型训练创造高质量数据集，尤其是在多模态领域。团队采用标准化框架，使用固定的模型架构、训练代码、超参数以及评估方法，测试不同数据整理策略，以优化模型性能。

早期实验表明，基于模型的数据过滤 —— 利用机器学习模型从大数据集中筛选并选择高质量数据 —— 在组建优质训练集方面起着关键作用。通过这种整理技术，团队开发了 DCLM-Baseline 数据集，这对从头训练 70 亿和 14 亿参数的解码器单一变换器模型至关重要。

70 亿参数模型基于 2.5 万亿个标记使用 OpenLM 预训练方案进行了训练，具有 2K 上下文窗口，并在 MMLU 基准测试中取得了 63.7% 的 5 次测评准确率。与之前开放数据语言模型领导者 MAP-Neo 相比，提升了 6.6 个百分点，同时训练所需计算能力减少了 40%。

其 MMLU 性能与众多开放权重但闭合数据的领先模型如 Mistral-7B-v0.3（62.7%）、Llama3 8B（66.2%）、谷歌的 Gemma（64.3%）和微软的 Phi-3（69.9%）相近。

此外，当研究人员将模型上下文扩展到 8K，并使用数据集分解技术进行了 1000 亿次额外训练迭代时，在核心和扩展基准测试中观察到更进一步的性能提升，尽管 MMLU 的结果保持不变。“我们的研究强调了数据集设计在语言模型训练中的重要性，并为数据整理的持续研究奠定了基础，”研究团队在 DataComp-LM 的论文中表示。

小型模型的出色表现

与 DCLM-7B 类似，小型 14 亿参数模型是与丰田研究院合作开发的，也是基于 2.6 万亿个标记进行训练，在 MMLU、核心和扩展测试中表现卓越。在 5 次测评的 MMLU 评估中达到了 41.9%，超过了同类其他模型，如 Hugging Face 的 SmolLM（得分 39.97%），Qwen-1.5B 和 Phi-1.5B 分别得分 37.87% 和 35.90%。

目前，70 亿模型在苹果的示例代码许可证下可用，而 14 亿模型则在 Apache 2.0 下发布，允许商业使用、分发和修改。此外，7B 模型的指令调优版本也可在 Hugging Face 库中获取。

需要强调的是，这一发布代表了强调数据整理有效性的早期研究。这些模型并不适用于苹果设备，可能会受到训练数据集的偏差影响，或产生潜在的有害响应。

网络韧性的重要性：从CrowdStrike近期IT故障中获得的启示

Groq的开源Llama AI模型在函数调用方面超越GPT-4o和Claude，夺得排行榜第一名