尽管OpenAI面临权力斗争和大规模辞职,微软却在积极推进其人工智能的雄心。今天,微软发布了Orca 2,这是一对小型语言模型,在复杂推理任务的零样本条件下,其性能与五至十倍于自身规模的更大型模型相匹配,甚至超越包括Meta的Llama-2 Chat-70B在内的竞争对手。
Orca 2模型有两个版本:70亿和130亿参数。这些模型基于之前的130亿参数Orca模型,该模型展示了通过模仿更大型、高级模型逐步推理的出色能力。
微软研究人员在博客中表示:“通过Orca 2,我们表明,增强的训练信号和方法使得小型语言模型具备了通常仅限于更大型模型的推理能力。”
这两个模型均已开源,以便进一步研究,允许评估能够在性能上与大型模型相媲美的小型模型。这一举措为企业,尤其是资源有限的企业,提供了一个更易获得的选项,以满足特定需求,而无需大量计算资源。
教小型模型推理
尽管像GPT-4这样的大型语言模型在推理和复杂问答能力方面表现出色,但小型模型历来表现不足。为了弥补这一差距,微软研究团队使用特制的合成数据集对Llama 2基础模型进行了微调。
研究人员没有仅仅依赖常见的模仿学习技术,而是采用了不同的方法来训练小型模型,使其采用适应不同任务的多种解决策略。例如,尽管GPT-4能够直接回答复杂的问题,但小型模型可能更适合将任务分解为可管理的步骤。
研究团队在最新论文中表示:“在Orca 2中,我们教模型多种推理技巧(逐步推理、回忆再生成、回忆-推理-生成、直接回答等),并重点帮助模型识别每个任务的最佳策略。”训练数据来自更强大的教师模型,使学生模型能够学习何时以及如何应用不同的推理方法。
Orca 2超越大型模型
在零样本设置中,Orca 2模型在15个多样化基准测试上表现出色,包括语言理解、常识推理、多步骤推理、数学问题解决、阅读理解、总结和真实性检测,其性能往往与五到十倍更大型的模型持平或超越。
平均基准结果表明,Orca 2模型在除GSM8K基准(一个涵盖超过8500个年级数学问题的数据集)外,均超越了Llama-2-Chat-13B、Llama-2-Chat-70B、WizardLM-13B和WizardLM-70B,其中WizardLM-70B在GSM8K基准中表现优于Orca。
企业实施的考虑因素
尽管这些性能提升对寻求高效、高性能、低成本应用的企业团队颇具吸引力,但必须认识到,Orca 2模型可能仍存在语言模型普遍存在的局限性,以及其基础模型的局限性。
微软强调,创造Orca模型所采用的技术也可以应用于其他现有模型。“虽然Orca 2有一些局限性,但它在推进小型模型的推理、专业化、控制和安全性方面的潜力是显而易见的。战略性地使用经过严格筛选的合成数据是实现这些改进的关键。随着大型模型的不断进步,我们在Orca 2上的工作代表着多样化语言模型应用的重要一步,”研究团队总结道。
小型语言模型的未来
随着开源Orca 2模型的问世及该领域持续研究的深入,显然更多高性能的小型语言模型即将问世。
最近,中国创业公司01.AI由人工智能老将李开复创立,推出了一款具有340亿参数的模型,能在中文和英文中表现卓越,甚至超越70亿的Llama 2和180亿的Falcon模型。该创业公司还提供了一款训练参数为60亿的小型版本,该版本在已有的人工智能/机器学习基准测试中表现良好。
此外,总部位于巴黎的新兴创业公司Mistral AI以其独特的Word Art标识和创纪录的1.18亿美元种子轮融资引起了人们的关注,推出了一款超过Meta的Llama 2 13B的大型对手,参数达到70亿的模型。