El nuevo modelo rentable de AI2: soluciones abiertas y poderosas para todos.

Home Noticias de IA El nuevo modelo rentable de AI2: soluciones abiertas y poderosas para todos.

Updated on septiembre 9 2024

El Allen Institute for AI (AI2), en colaboración con Contextual AI, ha lanzado un innovador modelo de lenguaje de código abierto llamado OLMoE. Este modelo busca equilibrar un rendimiento sólido con una economía de costos.

OLMoE presenta una arquitectura de mezcla dispersa de expertos (MoE), compuesta por 7 mil millones de parámetros, utilizando solo 1 mil millones de parámetros por cada token de entrada. Se ofrece en dos versiones: OLMoE-1B-7B para uso general y OLMoE-1B-7B-Instruct para entrenamiento de instrucciones.

A diferencia de muchos otros modelos MoE, OLMoE es completamente de código abierto. AI2 resalta los desafíos de acceso a otros modelos MoE, ya que a menudo carecen de transparencia sobre los datos de entrenamiento, el código o los métodos de construcción. “La mayoría de los modelos MoE son de código cerrado, ofreciendo información limitada sobre sus datos de entrenamiento o metodologías, lo que dificulta el desarrollo de MoEs de código abierto que puedan competir con modelos de código cerrado”, señala AI2 en su estudio. Esta falta de accesibilidad representa una barrera significativa para investigadores y académicos.

Nathan Lambert, un científico de investigación de AI2, comentó en X (anteriormente Twitter) que OLMoE podría respaldar el desarrollo de políticas, sirviendo como una herramienta fundamental a medida que las clusters académicas H100 estén disponibles. Enfatizó el compromiso de AI2 con la publicación de modelos de código abierto competitivos, afirmando: “Hemos mejorado nuestra infraestructura y datos sin alterar nuestros objetivos centrales. Este modelo es verdaderamente de vanguardia, no solo el mejor en un par de evaluaciones”.

Desarrollo de OLMoE

En el desarrollo de OLMoE, AI2 adoptó un enfoque de enrutamiento detallado utilizando 64 pequeños expertos, activando solo ocho al mismo tiempo. Esta configuración generó un rendimiento comparable al de otros modelos, pero redujo significativamente los costos de inferencia y los requisitos de memoria.

OLMoE se basa en el modelo de código abierto anterior de AI2, OLMO 1.7-7B, que admitía una ventana de contexto de 4,096 tokens, utilizando un conjunto de datos de entrenamiento llamado Dolma 1.7. Para su entrenamiento, OLMoE incorporó un conjunto de datos diverso que incluye subconjuntos de Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg y Wikipedia.

AI2 afirma que OLMoE “supera a todos los modelos existentes con parámetros activos similares, incluso a modelos más grandes como Llama2-13B-Chat y DeepSeekMoE-16B”. Los resultados de las pruebas indican que OLMoE-1B-7B a menudo compite de cerca con modelos que tienen 7 mil millones de parámetros o más, como Mistral-7B, Llama 3.1-B y Gemma 2. En pruebas contra modelos de 1 mil millones de parámetros, OLMoE-1B-7B superó significativamente a otros modelos de código abierto, incluyendo Pythia, TinyLlama e incluso el propio OLMO de AI2.

La necesidad de MoEs de código abierto

La misión de AI2 incluye mejorar el acceso a modelos de IA completamente de código abierto, especialmente dentro de la cada vez más popular arquitectura MoE. Muchos desarrolladores están optando por sistemas MoE, como se observa en Mixtral 8x22B de Mistral y Grok de X.ai, con especulaciones sobre el uso potencial de MoE en GPT-4. Sin embargo, AI2 y Contextual AI señalan que muchos modelos de IA existentes carecen de transparencia integral respecto a sus datos de entrenamiento y bases de código.

AI2 subraya la necesidad de apertura en los modelos MoE, que introducen desafíos de diseño únicos, como determinar la proporción de parámetros totales a activos, decidir entre numerosos expertos pequeños o menos expertos grandes, compartir expertos y elegir algoritmos de enrutamiento adecuados.

Además, la Open Source Initiative está abordando activamente qué constituye la apertura para los modelos de IA, destacando la importancia de la transparencia para avanzar en el campo.

ServiceNow lanza una biblioteca de agentes de IA empresarial personalizables, adaptada a las necesidades de tu flujo de trabajo.

LightEval: Una Herramienta de Código Abierto de Hugging Face para Mejorar la Responsabilidad en la IA

Most people like

Autify

40.1K

Presentamos nuestra plataforma de automatización de pruebas de software impulsada por inteligencia artificial, diseñada para revolucionar la forma en que gestionas y ejecutas pruebas de software. Al aprovechar el poder de la inteligencia artificial, nuestra plataforma optimiza el proceso de pruebas, garantizando una mayor precisión y eficiencia mientras reduce el esfuerzo manual. Desbloquea el potencial de unas pruebas de software sin interrupciones y eleva tus ciclos de desarrollo con nuestra solución innovadora. Experimenta lanzamientos más rápidos, una mejora en la calidad del producto y un significativo aumento en la productividad con nuestra avanzada tecnología de automatización.

Plataforma de pruebas impulsada por inteligencia artificial Other

Verbalate™

18.8K

Presentamos nuestra herramienta universal de traducción de videos y sincronización de labios: tu solución integral para contenido multilingüe sin interrupciones. Traduce y sincroniza fácilmente el diálogo hablado en videos para cautivar audiencias globales. Experimenta un mayor compromiso y accesibilidad para todos los espectadores, sin importar las barreras lingüísticas. ¡Transforma tus proyectos multimedia con nuestra tecnología de vanguardia hoy mismo!

traducción de video Translate

MealPractice

45.2K

Simplifica tu experiencia culinaria con un seguimiento fácil de recetas y planificación de comidas, que incluye recetas personalizadas generadas por IA, diseñadas especialmente para ti.

planificación de comidas AI Recipe Assistant

Abacus.AI

1.3M

Presentamos una plataforma innovadora de inteligencia artificial diseñada para crear sin esfuerzo agentes avanzados y sistemas robustos. Descubre cómo esta plataforma permite a los usuarios aprovechar la inteligencia artificial, optimizar procesos y aumentar la productividad con facilidad. ¡Desbloquea el potencial de la automatización y el aprendizaje automático hoy mismo!

plataforma de IA Large Language Models (LLMs)

Find AI tools in YBX