苹果最近推出了最新的多模态人工智能模型MM1.5,参数规模达到300亿。这一新版本在前一代MM1模型的基础上进行了显著改进。
MM1.5遵循数据驱动的训练原则,深入研究混合数据对模型性能在不同训练周期的影响。新模型的文档已在Hugging Face平台上发布,提供从10亿到300亿的多种参数配置,展示了其在图像识别和自然语言推理方面的强大能力。
此次更新中,苹果的研究团队优化了数据混合策略,显著提升了模型在多文本图像理解、视觉参考与定位以及多图像推理等领域的表现。研究表明,在MM1.5的预训练阶段,融入高质量的光学字符识别(OCR)数据和合成图像描述显著增强了模型对含有大量文本的图像的理解能力。此外,在监督微调阶段,团队分析了不同数据类型对模型性能的影响,优化了视觉指令调优数据配置,使得即便是1亿和3亿参数的小型模型也能取得良好效果。
苹果还推出了专门的模型,如MM1.5-Video用于视频理解,MM1.5-UI用于移动设备的用户界面(UI)理解。MM1.5-UI模型将成为苹果iOS生态系统中AI的核心,能够高效处理视觉参考与定位任务,还能总结屏幕功能或通过用户对话进行互动。
尽管MM1.5模型在多个基准测试中表现出色,苹果团队仍致力于通过整合文本、图像和用户交互数据,不断提升AI的能力,开发更复杂的架构。这一持续努力旨在增强“苹果品牌”AI的有效性,使其在理解移动设备UI方面日益强大。