Cohere for AI dévoile un LLM open source prenant en charge 101 langues : dynamiser la communication mondiale en intelligence artificielle.

Aujourd'hui, Cohere for AI, le laboratoire de recherche à but non lucratif fondé par Cohere en 2022, a lancé Aya, un modèle de langage à grande échelle open-source qui prend en charge 101 langues, soit plus du double des modèles open-source existants.

Cette mise à jour s'accompagne de l'ensemble de données Aya, qui inclut des annotations humaines essentielles pour entraîner des modèles dans des langues moins courantes. Les chercheurs de Cohere for AI ont également développé des méthodes pour améliorer les performances des modèles avec des données d'entraînement limitées.

Lancé en janvier 2023, le projet Aya a constitué un effort significatif impliquant plus de 3 000 collaborateurs issus de 119 pays. Sara Hooker, VP de la recherche chez Cohere et responsable de Cohere for AI, a déclaré que le projet s'est avéré beaucoup plus ambitieux que prévu, avec plus de 513 millions d'annotations affinées. Ces données sont considérées comme de "l'or" pour affiner l'entraînement des LLM au-delà des données de base extraites d'internet.

Ivan Zhang, co-fondateur et CTO de Cohere, a partagé sur X que l'équipe publie des démonstrations humaines dans plus de 100 langues pour élargir l'accès aux LLM, garantissant que cela bénéficie à un public mondial et non seulement aux anglophones. Il a salué cet accomplissement comme une réalisation scientifique et opérationnelle remarquable de Hooker et de l'équipe de Cohere for AI.

Déverrouiller le potentiel des LLM pour les langues et cultures sous-représentées

Selon un article de blog de Cohere, le modèle et l'ensemble de données Aya visent à aider les chercheurs à exploiter le potentiel des LLM pour de nombreuses langues et cultures souvent négligées par les modèles existants. Les benchmarks de Cohere for AI montrent que le modèle Aya surpasse de manière significative les meilleurs modèles multilingues open-source, tels que mT0 et Bloomz, tout en élargissant sa couverture à plus de 50 langues précédemment non desservies, comme le somalien et l'ouzbek.

Hooker a souligné que les modèles soutenant plus de six langues sont considérés comme "extrêmes", et seuls quelques-uns atteignent de véritables performances "massivement multilingues" avec environ 25 langues.

S'attaquer à la pénurie de données en dehors de l'anglais

Hooker a expliqué qu'un "ravin" de données existe en dehors des données d'ajustement de l'anglais, rendant l'ensemble de données Aya exceptionnellement rare. Elle pense que les chercheurs choisiront des langues de l'ensemble de données pour développer des modèles pour des communautés linguistiques spécifiques, un besoin essentiel. Cependant, elle a noté que le principal défi technique réside dans la précision, les utilisateurs du monde entier s'attendant à des modèles personnalisés adaptés à leurs langues.

Aleksa Gordic, ancien chercheur chez Google DeepMind et créateur de YugoGPT, qui a surpassé Mistral et Llama 2 pour le serbe, le bosniaque, le croate et le monténégrin, a souligné l'importance des ensembles de données multilingues comme Aya. Il a déclaré que pour développer des LLM de haute qualité pour les langues non anglaises, des sources de données abondantes et de qualité sont essentielles.

Bien qu'il considère cet effort comme un pas dans la bonne direction, Gordic a noté qu'une communauté de recherche mondiale et le soutien gouvernemental sont nécessaires pour créer et maintenir d'importants ensembles de données de haute qualité afin de préserver les langues et les cultures dans le paysage en évolution de l'IA.

Le modèle et les ensembles de données Aya de Cohere for AI sont désormais disponibles sur Hugging Face.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles