2022年末,ChatGPT的出现引发了AI公司和科技巨头之间的竞争,大家争相抢占快速发展的大型语言模型(LLM)市场。面对激烈竞争,许多企业选择将其语言模型作为专有服务提供,提供API访问,但隐藏了底层模型权重和训练数据集、方法的细节。
与专有模型的趋势相反,2023年开源LLM生态系统实现了显著增长,发布了可下载和定制的模型,巩固了开源在LLM领域的重要地位,有效跟上了专有解决方案的步伐。
是大模型更好?
在2023年以前,人们普遍认为增大LLM的规模是提升性能的关键。例如,像BLOOM和OPT这样的开源模型,其参数量与OpenAI的GPT-3相当,有1750亿参数。然而,这些大型模型需要大量计算资源和专业知识才能有效运行。
这一理念在2023年2月发生了剧变,Meta推出了Llama系列模型,参数范围从70亿到650亿。Llama证明了较小的模型同样可以与大型模型媲美,从而支持了模型大小并非唯一决定有效性的论点。
Llama的成功关键在于其训练所用的庞大数据集。GPT-3使用约3000亿个标记,而Llama则吸收了多达1.4万亿个标记,证明在更广泛的标记数据集上训练较小模型,可能是一个有效的方法。
开源模型的优势
Llama的流行主要源于两个优势:能够在单个GPU上运行和开源发布。这一开放性使研究者能迅速在其架构和发现的基础上进行构建,促生了多款显著的开源LLM,包括Cerebras的Cerebras-GPT、EleutherAI的Pythia、MosaicML的MPT、Salesforce的X-GEN和TIIUAE的Falcon。
2023年7月,Meta发布了Llama 2,迅速成为多个派生模型的基础。Mistral.AI也推出了其两款模型——Mistral和Mixtral,以其出色的性能和性价比赢得赞誉。
Hugging Face的产品与增长负责人Jeff Boudier指出:“自Llama发布以来,开源LLM的发展速度加快,Mixtral目前被评为人类评估中第三个最有帮助的模型,仅次于GPT-4和Claude。”
基于这些基础模型,开发者还开发了Alpaca、Vicuna、Dolly和Koala等专门应用。Hugging Face的数据表明,开发者们已经创建了数千个分支和专业版本。“Llama”的相关结果超过14500个,“Mistral”有3500个,而“Falcon”则有2400个。尽管Mixtral在2023年12月才发布,已为150个项目提供基础。
这些模型的开源特性促进了创新,使开发者能够创建新模型并结合现有模型,提升LLM的实用性。
开源模型的未来
随着专有模型的不断发展,开源社区依然是一个强有力的竞争者。科技巨头们越来越多地将开源模型融入其产品,意识到它们的价值。作为OpenAI的重要支持者,微软发布了两个开源模型Orca和Phi-2,并在Azure AI Studio平台上改进了对开源模型的整合。同样,亚马逊推出了Bedrock云服务,旨在支持专有和开源模型。
Boudier指出:“2023年,企业对LLM的能力感到惊讶,特别是在ChatGPT取得成功之后。首席执行官们要求团队定义生成式AI的应用案例,迅速进行实验和概念验证。”
然而,依赖外部API进行关键技术存在风险,包括敏感源代码和客户数据的潜在泄露,这对关注数据隐私和安全的企业来说是一种不可持续的长期战略。
新兴的开源生态系统为希望实施生成式AI并满足隐私和合规需求的企业提供了有前景的路径。
Boudier总结道:“随着AI改变技术开发,像过去的创新一样,组织需要在内部创建和管理AI解决方案,以确保客户信息的隐私、安全和合规性。根据历史趋势,这很可能意味着 embracing open-source。”