A medida que aumenta la emoción por las capacidades del nuevo GPT-4o-mini, Apple ha ampliado su colección de modelos de IA compactos con el lanzamiento de varios modelos de DataComp para Modelos de Lenguaje (DCLM) en Hugging Face. El paquete incluye dos modelos significativos: uno con 7 mil millones de parámetros y otro con 1.4 mil millones. Ambos modelos sobresalen en pruebas de referencia, especialmente el modelo más grande, que supera a Mistral-7B y se aproxima rápidamente al rendimiento de otros modelos abiertos líderes como Llama 3 y Gemma.
Vaishaal Shankar, del equipo de Apple ML, destaca que estos modelos son las "mejores opciones" de código abierto disponibles. Cabe mencionar que el proyecto ha adoptado plenamente los principios del código abierto al liberar los pesos del modelo, el código de entrenamiento y el conjunto de datos de preentrenamiento.
Visión General de los Modelos DCLM de Apple
El proyecto DataComp es una iniciativa colaborativa que involucra a investigadores de Apple, la Universidad de Washington, la Universidad de Tel Aviv y el Instituto de Investigación Toyota. Su objetivo es crear conjuntos de datos de alta calidad para el entrenamiento de modelos de IA, especialmente en el ámbito multimodal. El equipo utiliza un marco estandarizado con arquitecturas de modelo fijas, código de entrenamiento, hiperparámetros y evaluaciones para probar diversas estrategias de curación de datos y optimizar el rendimiento del modelo.
Experimentos iniciales revelaron que el filtrado basado en modelos, donde los modelos de aprendizaje automático seleccionan datos de alta calidad de conjuntos más grandes, juega un papel crucial en la formación de conjuntos de entrenamiento superiores. Usando esta técnica, el equipo desarrolló el conjunto de datos DCLM-Baseline, que fue fundamental para entrenar los modelos de transformador de decodificador de 7 mil millones y 1.4 mil millones de parámetros desde cero.
El modelo de 7B, entrenado con 2.5 billones de tokens siguiendo recetas de preentrenamiento de OpenLM, cuenta con una ventana de contexto de 2K y logra una precisión del 63.7% en la evaluación MMLU. Esto marca una mejora de 6.6 puntos porcentuales sobre MAP-Neo, el anterior líder en modelos de lenguaje de datos abiertos, utilizando además un 40% menos de potencia computacional durante el entrenamiento.
Es crucial mencionar que su rendimiento en MMLU se encuentra en un rango cercano a modelos líderes que tienen pesos abiertos pero datos cerrados, como Mistral-7B-v0.3 (62.7%), Llama3 8B (66.2%), Gemma de Google (64.3%) y Phi-3 de Microsoft (69.9%).
Adicionalmente, al extender el contexto del modelo a 8K y realizar 100 mil millones más de iteraciones de entrenamiento utilizando la técnica de Descomposición de Conjuntos de Datos, se observaron mejoras adicionales en las evaluaciones Core y Extended, aunque los resultados de MMLU permanecieron consistentes. "Nuestros hallazgos subrayan la importancia del diseño de conjuntos de datos en el entrenamiento de modelos de lenguaje y sirven como base para investigaciones continuas en curación de datos", afirmaron los investigadores en un artículo sobre DataComp-LM.
Rendimiento Impresionante del Modelo Más Pequeño
De manera similar al DCLM-7B, el modelo más pequeño de 1.4B—desarrollado en colaboración con el Instituto de Investigación Toyota utilizando 2.6 billones de tokens—también muestra un rendimiento notable en las pruebas MMLU, Core y Extended. En la evaluación MMLU de 5 disparos, logró un 41.9%, superando a otros modelos en su categoría, incluido SmolLM de Hugging Face, que tuvo una puntuación de MMLU del 39.97%. Qwen-1.5B y Phi-1.5B le siguieron con puntuaciones de 37.87% y 35.90%, respectivamente.
Actualmente, el modelo de 7B está disponible bajo la Licencia de Código de Muestra de Apple, mientras que el modelo de 1.4B ha sido lanzado bajo Apache 2.0, permitiendo el uso comercial, distribución y modificación. Además, está disponible una versión ajustada por instrucciones del modelo de 7B en la biblioteca de Hugging Face.
Es importante destacar que este lanzamiento representa una investigación inicial que enfatiza la efectividad en la curación de datos. Estos modelos no están destinados para dispositivos de Apple y pueden mostrar sesgos derivados de sus conjuntos de datos de entrenamiento o generar respuestas potencialmente dañinas.