Cohere for AI Revela LLM de Código Abierto que Soporta 101 Idiomas: Potenciando la Comunicación Global en IA

Hoy, Cohere for AI, el laboratorio de investigación sin fines de lucro fundado por Cohere en 2022, presentó Aya, un modelo de lenguaje grande (LLM) de código abierto que admite 101 idiomas, más del doble que los modelos de código abierto existentes.

Junto con este lanzamiento, se presenta el conjunto de datos de Aya, que incluye anotaciones humanas esenciales para entrenar modelos en idiomas menos comunes. Los investigadores de Cohere for AI han desarrollado métodos para mejorar el rendimiento del modelo utilizando datos de entrenamiento limitados.

Lanzado en enero de 2023, el proyecto Aya fue un esfuerzo significativo que involucró a más de 3,000 colaboradores de 119 países. Sara Hooker, VP de Investigación en Cohere y líder de Cohere for AI, comentó que el proyecto resultó ser mucho más extenso de lo que se había anticipado, con más de 513 millones de anotaciones afinadas. Estos datos cruciales son considerados "oro puro", vitales para refinar el entrenamiento de LLM más allá de los datos básicos extraídos de internet.

Ivan Zhang, cofundador y CTO de Cohere, compartió en X que el equipo está lanzando demostraciones humanas en más de 100 idiomas para aumentar la accesibilidad de LLM, garantizando que sirva a una audiencia global y no solo a hablantes de inglés. Calificó esto como un logro científico y operativo notable de Hooker y el equipo de Cohere for AI.

Desbloqueando el Potencial de LLM para Idiomas y Culturas Subrepresentadas

Según un blog de Cohere, el modelo y conjunto de datos de Aya buscan ayudar a los investigadores a aprovechar el potencial de los LLM para numerosos idiomas y culturas que han sido en gran parte ignoradas por los modelos existentes. Los estándares de Cohere for AI revelan que el modelo Aya supera significativamente a los mejores modelos multilingües de código abierto, como mT0 y Bloomz, mientras amplía la cobertura a más de 50 idiomas previamente desatendidos, incluyendo somalí y uzbeko.

Hooker enfatizó que los modelos que soportan más de seis idiomas se consideran "extremos", y solo un puñado logra un rendimiento verdaderamente "multilingüe masivo" con alrededor de 25 idiomas.

Abordando el Déficit de Datos Más Allá del Inglés

Hooker explicó que existe un "precipicio" de datos fuera del ámbito de los datos de afinación en inglés, lo que hace que el conjunto de datos de Aya sea excepcionalmente raro. Ella cree que los investigadores seleccionarán idiomas del conjunto de datos para desarrollar modelos para comunidades lingüísticas específicas, una necesidad crucial. Sin embargo, destacó que el principal desafío técnico radica en la precisión, ya que los usuarios de todo el mundo esperan modelos personalizados adaptados a sus idiomas.

Aleksa Gordic, exinvestigador de Google DeepMind y creador de YugoGPT, que superó a Mistral y Llama 2 en serbio, bosnio, croata y montenegrino, destacó la importancia de conjuntos de datos multilingües como Aya. Afirmó que para desarrollar LLM de alta calidad para idiomas no ingleses, se requieren fuentes de datos abundantes y de calidad.

Si bien considera que este esfuerzo es un paso en la dirección correcta, Gordic señaló que es necesario contar con una comunidad de investigación global y apoyo gubernamental para crear y mantener conjuntos de datos grandes y de alta calidad que preserven idiomas y culturas en el cambiante panorama de la IA.

El modelo y conjuntos de datos Aya de Cohere for AI ya están disponibles en Hugging Face.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles