今天,加拿大企业AI初创公司Cohere的非营利研究部门Cohere for AI(C4AI)宣布开放了其前沿多语种语言模型Aya 23的权重。Aya 23提供两个版本:8B和35B参数。在这里,参数代表人工神经元之间连接的强度,较大的数字意味着模型更强大、更高效。这次发布是C4AI的Aya计划的一部分,旨在增强多语种能力。
C4AI将Aya 23的权重开源,允许第三方研究人员根据自己的需求进行微调。虽然这并不构成完全的开源发布(因为缺少训练数据和架构细节),但它提供了与Meta的Llama模型类似的灵活性。
Aya 23支持23种语言:阿拉伯语、中文(简体和繁体)、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。Cohere for AI声称,这些模型将最新的语言建模能力扩展到了几乎一半的世界人口。此外,Aya 23的表现超过了Aya 101以及其他开源模型,如谷歌的Gemma和Mistral,提供跨语言的更高质量响应。
打破语言障碍
尽管大型语言模型(LLMs)近年来受到了广泛关注,但大多数模型主要集中于英语,导致许多模式在资源较少的语言上表现不佳。C4AI的研究人员识别出两个关键问题:缺乏强大的多语种预训练模型和多样化的指令式训练数据。因此,C4AI发起了Aya计划,并与来自119个国家的3000多位独立研究人员建立了合作关系。首个成果是Aya Collection,一个包含5.13亿个提示和完成项的庞大多语种指令式数据集,随后用于训练覆盖101种语言的指令调优LLM。
2024年2月发布的Aya 101标志着多语种语言建模的重大进展。然而,它建立在现在已经过时的mT5上,广泛的设计使得各个语言的性能稀释。随着Aya 23的推出,Cohere for AI采用了更为均衡的方法,集中于23种语言以提高性能。这些模型基于Cohere的Command系列和Aya Collection,通过将资源集中于较少的语言,提高了生成质量。
评估结果表明,Aya 23在各种判别性和生成性任务中超越了Aya 101及其他广泛使用的模型如Gemma和Mistral。在判别性任务上,性能提升达到14%,生成性任务提升20%,多语言MMLU提升41.6%。值得注意的是,Aya 23在多语言数学推理方面相比Aya 101实现了6.6倍的提升。
现已开放获取
Cohere for AI在高性能多语种模型的开发上又向前迈出了重要一步。8B和35B模型的开放权重现在已在Hugging Face上发布,采用创作共享署名-非商业性使用4.0国际公共许可证。
“通过发布Aya 23模型系列的权重,我们希望赋能研究人员和从业者,推进多语种模型和应用的发展,”研究人员表示。用户还可以在Cohere Playground上免费试验这些新模型。