大语言模型(LLMs)的规模影响
在大语言模型(LLMs)中,模型的规模至关重要,因为它直接影响模型的有效性。著名的生成性AI技术公司Stability AI最近推出了其最新的小型模型——Stable LM 2 1.6B。该文本生成模型于2023年4月首次发布,包含3亿和7亿参数版本。1.6B模型是该公司2024年的第二个发布,继Stability AI之前推出的Stable Code 3B之后。
介绍紧凑型Stable LM 2模型
新发布的Stable LM 2 1.6B旨在降低开发者的使用门槛,促进生成AI生态系统的参与。这款小巧强大的模型支持英文、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语的多语言文本生成,利用了最新的算法语言建模技术,以实现速度与性能的最佳平衡。
Stability AI语言团队负责人卡洛斯·里奎尔梅表示:“一般而言,在类似数据上训练的大型模型表现更优,但随着模型算法的改进和对优质数据的训练,我们常常看到更小的模型超越其更大更旧的版本。”
更小模型如何能超越大模型
根据Stability AI的数据,Stable LM 2 1.6B在多个基准测试中超过了许多参数低于20亿的小型语言模型,包括微软的Phi-2(2.7B)、TinyLlama(1.1B)和Falcon(1B)。值得注意的是,它也超越了Stability AI自己早期的Stable LM 3B模型。
里奎尔梅指出:“Stable LM 2 1.6B的表现优于一些几个月前才训练的大型模型。正如计算技术一样,我们看到模型在变得更小、更薄的同时,还不断提升性能。”
认识到局限性
尽管小型的Stable LM 2 1.6B具有令人印象深刻的能力,但其规模也带来了一些限制。Stability AI警告说:“由于小型低容量语言模型的固有特性,Stable LM 2 1.6B可能会出现较高的幻觉率或潜在的有害语言。”
透明度与强化数据训练
Stability AI在过去几个月中一直专注于提供更小、更强大的LLM选项。2023年12月,他们推出了StableLM Zephyr 3B模型,提升了性能,构建在比其早期版本更小的框架上。
里奎尔梅解释说,新Stable LM 2模型使用了更多的数据,包含了除英文外的六种语言的多语言文档。他强调数据在训练时展示顺序的重要性,认为不同阶段的数据类型的多样性可能改善结果。
为了进一步促进开发,Stability AI提供了预训练和微调版本的模型,以及研究人员所称的“预训练冷却前最后的模型检查点”。
“我们的目标是为开发者提供创新工具,”里奎尔梅表示。“我们提供了一个半成品模型供实验使用。”
他进一步详细说明了训练过程,指出随着模型的顺序更新,性能会逐步改善。初始模型缺乏知识,而后续版本则从数据中积累见解。然而,里奎尔梅也注意到模型在训练后期可能变得不够灵活。
“我们决定以其接近最终训练状态的形式提供模型,以便用户更轻松地进行不同任务或数据集的专门化。虽然我们不能保证成功,但我们相信人们会创造性地运用新工具。”