El nuevo modelo rentable de AI2: soluciones abiertas y poderosas para todos.

El Allen Institute for AI (AI2), en colaboración con Contextual AI, ha lanzado un innovador modelo de lenguaje de código abierto llamado OLMoE. Este modelo busca equilibrar un rendimiento sólido con una economía de costos.

OLMoE presenta una arquitectura de mezcla dispersa de expertos (MoE), compuesta por 7 mil millones de parámetros, utilizando solo 1 mil millones de parámetros por cada token de entrada. Se ofrece en dos versiones: OLMoE-1B-7B para uso general y OLMoE-1B-7B-Instruct para entrenamiento de instrucciones.

A diferencia de muchos otros modelos MoE, OLMoE es completamente de código abierto. AI2 resalta los desafíos de acceso a otros modelos MoE, ya que a menudo carecen de transparencia sobre los datos de entrenamiento, el código o los métodos de construcción. “La mayoría de los modelos MoE son de código cerrado, ofreciendo información limitada sobre sus datos de entrenamiento o metodologías, lo que dificulta el desarrollo de MoEs de código abierto que puedan competir con modelos de código cerrado”, señala AI2 en su estudio. Esta falta de accesibilidad representa una barrera significativa para investigadores y académicos.

Nathan Lambert, un científico de investigación de AI2, comentó en X (anteriormente Twitter) que OLMoE podría respaldar el desarrollo de políticas, sirviendo como una herramienta fundamental a medida que las clusters académicas H100 estén disponibles. Enfatizó el compromiso de AI2 con la publicación de modelos de código abierto competitivos, afirmando: “Hemos mejorado nuestra infraestructura y datos sin alterar nuestros objetivos centrales. Este modelo es verdaderamente de vanguardia, no solo el mejor en un par de evaluaciones”.

Desarrollo de OLMoE

En el desarrollo de OLMoE, AI2 adoptó un enfoque de enrutamiento detallado utilizando 64 pequeños expertos, activando solo ocho al mismo tiempo. Esta configuración generó un rendimiento comparable al de otros modelos, pero redujo significativamente los costos de inferencia y los requisitos de memoria.

OLMoE se basa en el modelo de código abierto anterior de AI2, OLMO 1.7-7B, que admitía una ventana de contexto de 4,096 tokens, utilizando un conjunto de datos de entrenamiento llamado Dolma 1.7. Para su entrenamiento, OLMoE incorporó un conjunto de datos diverso que incluye subconjuntos de Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg y Wikipedia.

AI2 afirma que OLMoE “supera a todos los modelos existentes con parámetros activos similares, incluso a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B”. Los resultados de las pruebas indican que OLMoE-1B-7B a menudo compite de cerca con modelos que tienen 7 mil millones de parámetros o más, como Mistral-7B, Llama 3.1-B y Gemma 2. En pruebas contra modelos de 1 mil millones de parámetros, OLMoE-1B-7B superó significativamente a otros modelos de código abierto, incluyendo Pythia, TinyLlama e incluso el propio OLMO de AI2.

La necesidad de MoEs de código abierto

La misión de AI2 incluye mejorar el acceso a modelos de IA completamente de código abierto, especialmente dentro de la cada vez más popular arquitectura MoE. Muchos desarrolladores están optando por sistemas MoE, como se observa en Mixtral 8x22B de Mistral y Grok de X.ai, con especulaciones sobre el uso potencial de MoE en GPT-4. Sin embargo, AI2 y Contextual AI señalan que muchos modelos de IA existentes carecen de transparencia integral respecto a sus datos de entrenamiento y bases de código.

AI2 subraya la necesidad de apertura en los modelos MoE, que introducen desafíos de diseño únicos, como determinar la proporción de parámetros totales a activos, decidir entre numerosos expertos pequeños o menos expertos grandes, compartir expertos y elegir algoritmos de enrutamiento adecuados.

Además, la Open Source Initiative está abordando activamente qué constituye la apertura para los modelos de IA, destacando la importancia de la transparencia para avanzar en el campo.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles