Cohere dévoile Aya 23 : un modèle IA open weights prenant en charge plus de 20 langues.

Aujourd'hui, Cohere for AI (C4AI), la division de recherche à but non lucratif de la startup canadienne d'IA Cohere, a annoncé la publication des poids ouverts d'Aya 23, une famille de modèles linguistiques multilingues de pointe.

Aya 23 est disponible en deux variantes : 8B et 35B paramètres. Ici, les paramètres représentent la force des connexions entre les neurones artificiels, des valeurs plus élevées indiquant un modèle plus puissant et performant. Cette publication s'inscrit dans le cadre de l'initiative Aya de C4AI, visant à améliorer les capacités multilingues.

C4AI a rendu les poids d'Aya 23 open source, permettant aux chercheurs tiers d'affiner le modèle selon leurs besoins spécifiques. Bien que cela ne constitue pas une publication open source complète (qui inclurait les données d'entraînement et les détails d'architecture), cela offre une flexibilité significative, comparable aux modèles Llama de Meta.

S'appuyant sur son prédécesseur, Aya 101, Aya 23 prend en charge 23 langues : arabe, chinois (simplifié et traditionnel), tchèque, néerlandais, anglais, français, allemand, grec, hébreu, hindi, indonésien, italien, japonais, coréen, persan, polonais, portugais, roumain, russe, espagnol, turc, ukrainien, et vietnamien.

Cohere for AI affirme que ces modèles étendent les capacités de modélisation linguistique de pointe à près de la moitié de la population mondiale. De plus, Aya 23 surpasse non seulement Aya 101 mais également d'autres modèles ouverts comme Gemma de Google et l'offre de Mistral, fournissant des réponses de qualité supérieure dans les langues prises en charge.

Briser les Barrières Linguistiques avec Aya

Bien que les grands modèles linguistiques (LLMs) aient gagné du terrain ces dernières années, la majorité se concentrent principalement sur l'anglais, ce qui entraîne des difficultés pour les langues moins dotées.

Les chercheurs de C4AI ont identifié deux problèmes clés : une pénurie de modèles préentraînés multilingues robustes et un manque de données d'entraînement diversifiées en style d'instruction. Pour relever ces défis, C4AI a lancé l'initiative Aya, en collaborant avec plus de 3 000 chercheurs indépendants dans 119 pays. Leur première réalisation fut l'Aya Collection, un vaste ensemble de données d'instructions multilingues comprenant 513 millions de prompts et de complétions, utilisé ensuite pour créer le LLM ajusté aux instructions couvrant 101 langues.

Lancé en février 2024, Aya 101 a marqué une avancée significative dans la modélisation linguistique multilingue. Cependant, il était fondé sur mT5, désormais obsolète, et sa conception large diluait ses performances dans chaque langue.

Avec l'introduction d'Aya 23, Cohere for AI a adopté une approche équilibrée, en se concentrant sur 23 langues pour améliorer la performance. Ces modèles, basés sur la série Command de Cohere et l'Aya Collection, améliorent la qualité de génération en concentrant les ressources sur moins de langues.

Les résultats d'évaluation montrent qu'Aya 23 surpasse Aya 101 et d'autres modèles largement utilisés comme Gemma et Mistral dans diverses tâches discriminatives et génératives. Les améliorations incluent une progression allant jusqu'à 14 % dans les tâches discriminatives, 20 % dans les tâches génératives, et une augmentation de 41,6 % sur le MMLU multilingue. Notamment, Aya 23 obtient une augmentation de 6,6 fois dans le raisonnement mathématique multilingue par rapport à Aya 101.

Accessible Maintenant

Cohere for AI a franchi une étape importante vers des modèles multilingues haute performance. Les poids ouverts des modèles 8B et 35B sont désormais disponibles sur Hugging Face sous la licence Creative Commons attribution-noncommercial 4.0 internationale.

« En publiant les poids de la famille de modèles Aya 23, nous visons à autonomiser les chercheurs et les praticiens pour faire avancer les modèles et applications multilingues », ont déclaré les chercheurs. Les utilisateurs peuvent également expérimenter les nouveaux modèles gratuitement sur le Cohere Playground.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles