今天,由Cohere于2022年成立的非营利研究实验室Cohere for AI推出了Aya,这是一个支持101种语言的开源大型语言模型(LLM),其语言数量是现有开源模型的两倍多。与此发布一同推出的还有Aya数据集,数据集中包含对不常见语言进行人类注释的内容,这对于训练模型至关重要。Cohere for AI的研究人员还开发了在有限训练数据下提升模型性能的方法。
Aya项目于2023年1月启动,涉及来自119个国家的3000多名合作者,显著超出了最初的预期,拥有超过5.13亿条经过指令微调的注释。Cohere研究副总裁兼Cohere for AI负责人Sara Hooker表示,这一关键数据被视为“金子”,对于在基本网络数据基础上进一步优化LLM训练至关重要。
Cohere的联合创始人兼CTO Ivan Zhang在X平台上分享,团队正在发布涵盖100多种语言的人类演示,以增强LLM的可及性,确保其服务于全球受众,而不仅仅是英语用户。他对此表示赞赏,认为这是Hooker及Cohere for AI团队在科学和运营上的卓越成就。
挖掘被忽视语言与文化的LLM潜力
Cohere在一篇博客中表示,Aya模型和数据集旨在帮助研究人员发掘大量被现有模型所忽视的语言和文化的LLM潜力。Cohere for AI的基准测试显示,Aya模型的表现明显优于mT0和Bloomz等最佳开源多语言模型,同时还扩大了对50多种之前未服务语言的覆盖,包括索马里语和乌兹别克语。
Hooker强调,支持超过六种语言的模型被视为“极端”,而只有少数模型能够真正实现“超级多语言”性能,覆盖约25种语言。
聚焦英语以外的数据不足问题
Hooker解释说,除了英语微调数据外,存在数据“悬崖”,使得Aya的数据集格外稀缺。她相信,研究人员会选择数据集中的语言,以为特定语言社区开发模型,这是迫切的需求。然而,她指出,主要的技术挑战在于精确性,因为全球用户期待定制的语言模型。
曾在Google DeepMind工作、创建了YugoGPT的Aleksa Gordic强调了像Aya这样的多语言数据集的重要性。他表示,为非英语语言开发高质量的LLM必须依赖于高质量和丰富的数据源。
虽然Gordic认为这一努力朝着正确的方向迈出了一步,但他指出,需要一个全球研究社区和政府支持,来创造和维护大量高质量的数据集,以在不断发展的人工智能环境中保护语言和文化。
Cohere for AI的Aya模型和数据集现已在Hugging Face上线。