Hoy, Cohere for AI (C4AI), la división de investigación sin fines de lucro de la startup canadiense de inteligencia artificial Cohere, anunció la liberación de pesos abiertos de Aya 23, una avanzada familia de modelos de lenguaje multilingües.
Aya 23 está disponible en dos variantes: con 8B y 35B de parámetros. En este contexto, los parámetros representan la fuerza de las conexiones entre neuronas artificiales, siendo números mayores indicativos de un modelo más potente y capaz. Esta liberación es parte de la iniciativa Aya de C4AI, que busca mejorar las capacidades multilingües.
C4AI ha hecho los pesos de Aya 23 de código abierto, permitiendo a investigadores de terceros ajustar el modelo según sus necesidades específicas. Aunque esto no constituye una liberación de código completamente abierto (que incluiría datos de entrenamiento y detalles de arquitectura), ofrece una flexibilidad significativa, similar a los modelos Llama de Meta.
Construido sobre su predecesor, Aya 101, Aya 23 soporta 23 idiomas: árabe, chino (simplificado y tradicional), checo, holandés, inglés, francés, alemán, griego, hebreo, hindi, indonesio, italiano, japonés, coreano, persa, polaco, portugués, rumano, ruso, español, turco, ucraniano y vietnamita.
Cohere for AI afirma que estos modelos extienden las capacidades de modelado de lenguaje de vanguardia a casi la mitad de la población mundial. Además, Aya 23 supera no solo a Aya 101, sino también a otros modelos abiertos como Gemma de Google y las ofertas de Mistral, proporcionando respuestas de mayor calidad en los idiomas soportados.
Rompiendo Barreras Lingüísticas con Aya
Aunque los modelos de lenguaje grandes (LLMs) han ganado popularidad en los últimos años, la mayoría se ha centrado principalmente en el inglés, lo que ha llevado a que muchos modelos enfrenten dificultades con idiomas menos favorecidos.
Los investigadores de C4AI identificaron dos problemas clave: la escasez de modelos preentrenados multilingües robustos y la falta de datos de entrenamiento variados en estilo de instrucción. Para abordar estos desafíos, C4AI lanzó la iniciativa Aya, colaborando con más de 3,000 investigadores independientes de 119 países. Su primer logro fue la Colección Aya, un vasto conjunto de datos en estilo de instrucción multilingüe con 513 millones de palabras y completaciones, que se utilizó posteriormente para crear el LLM ajustado por instrucciones que cubre 101 idiomas.
Lanzado en febrero de 2024, Aya 101 representó un avance significativo en el modelado de lenguaje multilingüe. Sin embargo, se basaba en mT5, que ahora está desactualizado, y su diseño amplio diluía el rendimiento en cada idioma individual.
Con la introducción de Aya 23, Cohere for AI ha adoptado un enfoque más equilibrado, concentrándose en 23 idiomas para mejorar el rendimiento. Estos modelos, basados en la serie Command de Cohere y la Colección Aya, mejoran la calidad de generación al concentrar recursos en menos idiomas.
Los resultados de evaluación indican que Aya 23 supera a Aya 101 y otros modelos ampliamente utilizados como Gemma y Mistral en diversas tareas discriminativas y generativas. Las mejoras incluyen hasta un 14% en tareas discriminativas, un 20% en tareas generativas y un aumento del 41.6% en MMLU multilingüe. Notablemente, Aya 23 logra un incremento de 6.6 veces en razonamiento matemático multilingüe en comparación con Aya 101.
Accesible Ahora
Cohere for AI ha dado otro importante paso hacia modelos multilingües de alto rendimiento. Los pesos abiertos para los modelos de 8B y 35B ya están disponibles en Hugging Face bajo la licencia pública de atribución no comercial Creative Commons 4.0 internacional.
“Al liberar los pesos de la familia de modelos Aya 23, nuestro objetivo es empoderar a investigadores y profesionales para avanzar en modelos y aplicaciones multilingües,” afirmaron los investigadores. Los usuarios también pueden experimentar con los nuevos modelos de forma gratuita en el Cohere Playground.