2023：开源语言模型（LLMs）的里程碑年

Home AI News CN 2023：开源语言模型（LLMs）的里程碑年

Updated on 十二月 26 2023

2022年末，ChatGPT的出现引发了AI公司和科技巨头之间的竞争，大家争相抢占快速发展的大型语言模型（LLM）市场。面对激烈竞争，许多企业选择将其语言模型作为专有服务提供，提供API访问，但隐藏了底层模型权重和训练数据集、方法的细节。

与专有模型的趋势相反，2023年开源LLM生态系统实现了显著增长，发布了可下载和定制的模型，巩固了开源在LLM领域的重要地位，有效跟上了专有解决方案的步伐。

是大模型更好？

在2023年以前，人们普遍认为增大LLM的规模是提升性能的关键。例如，像BLOOM和OPT这样的开源模型，其参数量与OpenAI的GPT-3相当，有1750亿参数。然而，这些大型模型需要大量计算资源和专业知识才能有效运行。

这一理念在2023年2月发生了剧变，Meta推出了Llama系列模型，参数范围从70亿到650亿。Llama证明了较小的模型同样可以与大型模型媲美，从而支持了模型大小并非唯一决定有效性的论点。

Llama的成功关键在于其训练所用的庞大数据集。GPT-3使用约3000亿个标记，而Llama则吸收了多达1.4万亿个标记，证明在更广泛的标记数据集上训练较小模型，可能是一个有效的方法。

开源模型的优势

Llama的流行主要源于两个优势：能够在单个GPU上运行和开源发布。这一开放性使研究者能迅速在其架构和发现的基础上进行构建，促生了多款显著的开源LLM，包括Cerebras的Cerebras-GPT、EleutherAI的Pythia、MosaicML的MPT、Salesforce的X-GEN和TIIUAE的Falcon。

2023年7月，Meta发布了Llama 2，迅速成为多个派生模型的基础。Mistral.AI也推出了其两款模型——Mistral和Mixtral，以其出色的性能和性价比赢得赞誉。

Hugging Face的产品与增长负责人Jeff Boudier指出：“自Llama发布以来，开源LLM的发展速度加快，Mixtral目前被评为人类评估中第三个最有帮助的模型，仅次于GPT-4和Claude。”

基于这些基础模型，开发者还开发了Alpaca、Vicuna、Dolly和Koala等专门应用。Hugging Face的数据表明，开发者们已经创建了数千个分支和专业版本。“Llama”的相关结果超过14500个，“Mistral”有3500个，而“Falcon”则有2400个。尽管Mixtral在2023年12月才发布，已为150个项目提供基础。

这些模型的开源特性促进了创新，使开发者能够创建新模型并结合现有模型，提升LLM的实用性。

开源模型的未来

随着专有模型的不断发展，开源社区依然是一个强有力的竞争者。科技巨头们越来越多地将开源模型融入其产品，意识到它们的价值。作为OpenAI的重要支持者，微软发布了两个开源模型Orca和Phi-2，并在Azure AI Studio平台上改进了对开源模型的整合。同样，亚马逊推出了Bedrock云服务，旨在支持专有和开源模型。

Boudier指出：“2023年，企业对LLM的能力感到惊讶，特别是在ChatGPT取得成功之后。首席执行官们要求团队定义生成式AI的应用案例，迅速进行实验和概念验证。”

然而，依赖外部API进行关键技术存在风险，包括敏感源代码和客户数据的潜在泄露，这对关注数据隐私和安全的企业来说是一种不可持续的长期战略。

新兴的开源生态系统为希望实施生成式AI并满足隐私和合规需求的企业提供了有前景的路径。

Boudier总结道：“随着AI改变技术开发，像过去的创新一样，组织需要在内部创建和管理AI解决方案，以确保客户信息的隐私、安全和合规性。根据历史趋势，这很可能意味着 embracing open-source。”

解锁Pika Labs文本转视频AI：全面入门指南

2024年五大大胆网络安全预测：未来网络环境的趋势与展望