Cohere推出开放源码LLM：支持101种语言，助力全球AI交流

Home AI News CN Cohere推出开放源码LLM：支持101种语言，助力全球AI交流

今天，由Cohere于2022年成立的非营利研究实验室Cohere for AI推出了Aya，这是一个支持101种语言的开源大型语言模型（LLM），其语言数量是现有开源模型的两倍多。与此发布一同推出的还有Aya数据集，数据集中包含对不常见语言进行人类注释的内容，这对于训练模型至关重要。Cohere for AI的研究人员还开发了在有限训练数据下提升模型性能的方法。

Aya项目于2023年1月启动，涉及来自119个国家的3000多名合作者，显著超出了最初的预期，拥有超过5.13亿条经过指令微调的注释。Cohere研究副总裁兼Cohere for AI负责人Sara Hooker表示，这一关键数据被视为“金子”，对于在基本网络数据基础上进一步优化LLM训练至关重要。

Cohere的联合创始人兼CTO Ivan Zhang在X平台上分享，团队正在发布涵盖100多种语言的人类演示，以增强LLM的可及性，确保其服务于全球受众，而不仅仅是英语用户。他对此表示赞赏，认为这是Hooker及Cohere for AI团队在科学和运营上的卓越成就。

挖掘被忽视语言与文化的LLM潜力

Cohere在一篇博客中表示，Aya模型和数据集旨在帮助研究人员发掘大量被现有模型所忽视的语言和文化的LLM潜力。Cohere for AI的基准测试显示，Aya模型的表现明显优于mT0和Bloomz等最佳开源多语言模型，同时还扩大了对50多种之前未服务语言的覆盖，包括索马里语和乌兹别克语。

Hooker强调，支持超过六种语言的模型被视为“极端”，而只有少数模型能够真正实现“超级多语言”性能，覆盖约25种语言。

聚焦英语以外的数据不足问题

Hooker解释说，除了英语微调数据外，存在数据“悬崖”，使得Aya的数据集格外稀缺。她相信，研究人员会选择数据集中的语言，以为特定语言社区开发模型，这是迫切的需求。然而，她指出，主要的技术挑战在于精确性，因为全球用户期待定制的语言模型。

曾在Google DeepMind工作、创建了YugoGPT的Aleksa Gordic强调了像Aya这样的多语言数据集的重要性。他表示，为非英语语言开发高质量的LLM必须依赖于高质量和丰富的数据源。

虽然Gordic认为这一努力朝着正确的方向迈出了一步，但他指出，需要一个全球研究社区和政府支持，来创造和维护大量高质量的数据集，以在不断发展的人工智能环境中保护语言和文化。

Cohere for AI的Aya模型和数据集现已在Hugging Face上线。

解锁会议洞察：Otter.ai的创新“会议生成AI”改变你捕捉对话智能的方式

有效的广告策略：利用生成式人工智能、跨界内容与游戏化 | AppLovin

Most people like

Julius AI | Your AI Data Analyst

1.4M

AI数据分析师：提升数据可视化与分析的智能助手在当今数据驱动的世界中，AI数据分析师成为了企业和个人进行数据可视化和分析的重要工具。通过智能算法和深度学习技术，这些分析师帮助用户更有效地理解和呈现复杂的数据，从而为决策提供支持。无论是在商业、科研还是日常操作中，AI数据分析师都能显著提升数据处理的效率与准确性。

人工智能 AI Analytics助手

Cramly.ai

338.8K

Cramly.ai是一款利用人工智能技术的教育工具，旨在帮助学生提高学习效率和成果。

教育工具 AI教育助手

MusicAI

48.9K

在当今数字时代，AI音乐创作平台正迅速改变音乐制作的方式。这些创新平台利用人工智能技术，帮助艺术家和创作者生成独特的音乐作品。无论你是专业音乐人还是业余爱好者，这些平台都为你提供了无限的创作可能性和灵感。借助AI音乐创作工具，你可以轻松探索不同风格和旋律，提升音乐创作的效率与灵活性。

AI音乐生成器 AI音乐生成器

Sparkpages AI

1.1M

引入公正可信的AI搜索引擎，是为用户提供更准确、可靠的信息来源。这个系统旨在打破传统搜索引擎的局限，确保用户获得的搜索结果不仅快速，而且公正。通过前沿的人工智能技术，我们致力于创建一个透明、可信赖的平台，让用户在信息获取时感受到公平性和安全感。

AI代理引擎其他

Find AI tools in YBX