在当前的人工智能竞争中,科技巨头们纷纷争相开发越来越大的语言模型(LLM),一项重要趋势正在浮现:小型语言模型(SLM)正在崛起。当LLM的发展显露出停滞的迹象时,研究人员和开发者开始将注意力转向SLM。这些紧凑、高效且灵活的模型正在重新定义人工智能领域,挑战“大即是好”的传统观点。
LLM是否正在停滞不前?
Vellum和HuggingFace近期的性能比较显示,LLM之间的差距正在缩小。在多项选择题、推理和数学问题等任务中,顶级模型之间的性能差异微乎其微。比如,在多项选择题中,Claude 3 Opus、GPT-4和Gemini Ultra的得分均超过83%;在推理任务中,Claude 3 Opus、GPT-4和Gemini 1.5 Pro的准确率也均超过92%。有趣的是,一些较小的模型如Mixtral 8x7B和Llama 2 – 70B在特定领域的表现优于一些大型模型,这表明模型架构、训练数据和微调技术可能在模型性能中起着重要作用,挑战了“规模即性能”的观念。
前Uber AI负责人暨《Rebooting AI》作者Gary Marcus指出,近期研究显示模型性能趋于收敛。“尽管一些新模型可能略微超越GPT-4,但过去一年并没有显著进展,”Marcus说道。这一趋势抛出一个问题:LLM是否真的停滞不前?如果这种趋势持续下去,未来的人工智能发展可能会从单纯增加模型规模转向探索更高效、专业的架构。
LLM方法的缺陷
尽管LLM功能强大,但也存在重大缺陷。训练这些模型需要海量数据集和巨大的计算资源,过程极为消耗资源。例如,OpenAI首席执行官Sam Altman透露,训练GPT-4的成本至少为亿万美元。LLM的复杂性使开发者面临陡峭的学习曲线,增加了可及性的障碍。公司往往需要90天以上的时间才能部署一个机器学习模型,这在一定程度上减缓了创新速度。
此外,LLM还容易生成“幻觉”——即生成似是而非的输出,这种情况的发生源于LLM基于训练模式预测单词,缺乏真正的理解能力。因此,错误或不合逻辑的输出可能在高风险应用(如医疗和自动驾驶)中带来风险。LLM的大规模和不透明性给输出的解释和调试带来了复杂性,这对于确保输出的可信性至关重要。此外,存在偏见的训练数据可能导致有害结果,而在试图提高LLM可靠性的过程中,可能无意中降低其效能。
小型语言模型(SLM)的崛起
SLM为许多LLM面临的挑战提供了有效解决方案。由于参数较少、设计更简单,SLM所需的数据和训练时间显著降低——通常只需几分钟或几个小时,而LLM则需数天。这种高效性使得SLM易于在小型设备上实施。
SLM的一个重要优势在于其特定应用的适应性。它们可以针对情感分析或特定领域的问答进行微调,取得的性能往往优于通用模型。这样的专业化提高了在目标任务中的效率。此外,SLM在隐私和安全方面也表现出色。其简单的架构使得审计更容易,同时降低了系统存在漏洞的可能性,这在医疗和金融等行业至关重要。减少的计算需求还意味着SLM可以在本地设备上运行,提高数据安全性,降低数据转移过程中的泄露风险。
SLM对幻觉的产生也不那么敏感,因为它们通常是在与其应用相关的较窄数据集上训练的。这种关注减少了生成无关输出的可能性,从而提高了模型的可靠性。
HuggingFace首席执行官Clem Delangue预测,未来99%的使用案例都可以通过SLM有效解决,并预计在2024年SLM的采用将大幅增加。HuggingFace已与谷歌合作,将其平台集成到谷歌的Vertex AI中,从而实现数千个模型的快速部署。
谷歌的Gemma计划
在与OpenAI的LLM竞争中,谷歌最初略显落后,但现在正积极追求SLM的发展。今年2月,谷歌推出了Gemma系列小型语言模型,旨在提高效率和用户友好性。这些模型可在智能手机和笔记本电脑等标准设备上运行,且不需大量资源支持。
自发布以来,Gemma模型在HuggingFace上的下载量已超过40万次,推动了创新项目的发展。其中一个显著的项目是Cerule,它将Gemma 2B与谷歌的SigLIP结合,能够在没有大量数据的情况下表现出色。另一个例子是针对编码和数学推理的专用版本CodeGemma,为各种编码活动提供定制模型。
SLM的变革潜力
随着人工智能社区深入探讨SLM的优势,快速开发周期、提高效率和针对解决方案的优势变得愈加明显。SLM有望通过支持更具成本效益和具体应用来促进各行业的创新。
在边缘部署SLM为金融、娱乐、汽车、教育、电子商务和医疗等领域的实时、个性化和安全应用打开了可能性。通过在本地处理数据并减少对云基础设施的依赖,SLM提升了数据隐私和用户体验。
在LLM面临计算需求和潜在性能停滞的挑战时,SLM的崛起预计将以令人瞩目的速度推动人工智能生态系统的发展。