苹果发布OpenELM:针对设备性能优化的紧凑型开源AI模型

随着谷歌、三星和微软等科技巨头在个人电脑和移动设备上增强他们的生成式人工智能能力,苹果公司也推出了OpenELM,一个新套件的开源大型语言模型(LLM),旨在完全在独立设备上运行,无需云连接。OpenELM最近在AI代码社区Hugging Face上线,包含为高效文本生成任务优化的小型模型。

OpenELM概述

OpenELM系列包含八个模型——四个预训练模型和四个经过指令调整的模型,参数规模从2.7亿到30亿不等。这些参数代表LLM内人工神经元之间的连接,通常参数越多,性能越好。

预训练使模型能够生成连贯的文本,但主要集中在根据提示预测文本。相比之下,指令调整则帮助模型提供更相关和具体的响应。例如,当被问到“教我如何烤面包”时,预训练模型可能简单地回答“在家用烤箱里”,而指令调整后的模型则会提供详细的步骤。

苹果公司将其OpenELM模型的权重在“样本代码许可”下发布,允许商业使用和修改,前提是任何未修改的再分发都保留附带的声明和免责声明。然而,苹果提醒用户,这些模型可能会生成不准确、有害、偏见或令人反感的输出。

此发布标志着苹果的一大转变,苹果长期以来以其保密和封闭的技术生态系统著称。此前,公司还推出了Ferret,一个具有多模态能力的开源语言模型,强调其对开源AI社区的承诺。

OpenELM的主要特点

OpenELM(开源高效语言模型)专注于设备内应用,展现出与谷歌、三星和微软等竞争对手的相似策略。例如,微软的Phi-3 Mini模型完全在智能手机上运行,展示了便携式AI解决方案的趋势。

OpenELM的开发由Sachin Mehta主导,Mohammad Rastegari和Peter Zatloukal也做出了重要贡献。模型有四种规格:2.7亿、4.5亿、11亿和30亿参数,全部小于许多领先模型,后者通常超过70亿参数。它们在来自Reddit、维基百科和arXiv.org等平台的大规模数据集(共计1.8万亿标记)上进行了训练,确保了语言理解的多样性。

性能洞察

OpenELM的性能基准显示出良好的结果,特别是450百万参数的指令变体。值得注意的是,11亿的OpenELM模型在效果上优于最近的Allen Institute for AI发布的OLMo,同时在预训练时所需的标记数量显著更少。

在多个基准测试中,预训练的OpenELM-3B达到了以下准确率:

- ARC-C: 42.24%

- MMLU: 26.76%

- HellaSwag: 73.28%

初步用户反馈表明,OpenELM生成的输出虽然可靠且一致,但缺乏创意,不太可能探索非常规或成人内容。相比之下,微软的Phi-3 Mini由于参数数量和上下文长度更大,在性能指标上表现更佳。

结语

随着OpenELM模型的测试和不断改进,它有潜力增强设备内AI应用。值得关注的是,社区将如何利用这一开源倡议,尤其是在苹果公司对AI领域透明度和合作承诺的热切期待下。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles