AI2 Mejora el Modelo OLMo de Código Abierto con un Conjunto de Datos Diverso y un Currículum de Dos Etapas para Optimizar el Rendimiento

El miércoles, el Allen Institute for AI (AI2) presentó una actualización de su modelo de 7 mil millones de parámetros, OLMo 1.7-7B. Esta versión mejorada utiliza un conjunto de datos Dolma más amplio y variado, junto con un proceso de entrenamiento avanzado.

Presentado inicialmente en febrero, OLMo se define como un "modelo de lenguaje grande verdaderamente de código abierto y de última generación", que incluye datos completos de preentrenamiento, código de entrenamiento, pesos del modelo y métricas de evaluación.

La última actualización permite que OLMo 1.7-7B soporte una longitud de contexto más larga, expandiéndose de 2,048 a 4,096 tokens, lo que mejora su rendimiento gracias a técnicas de entrenamiento refinadas y mejoras arquitectónicas. El conjunto de datos Dolma 1.7 incluye impresionantes 2.3 billones de tokens provenientes de diversas fuentes, como Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg y Wikipedia.

Anteriormente dependiente de Dolma 1.5, que utilizaba principalmente datos de la web, el nuevo Dolma 1.7 mejora la capacidad del modelo para manejar tareas que requieren conocimientos especializados, razonamiento complejo y codificación al diversificar las fuentes de datos. AI2 implementó mejores métodos de desduplicación para asegurar la calidad del contenido, eliminando documentos con una puntuación de duplicación que superaba un umbral preestablecido, calculado a partir de puntuaciones de duplicación a nivel de párrafo.

Dolma 1.7 también introduce un sistema de filtrado de calidad refinado. Un clasificador de FastText evalúa los documentos según su calidad, distinguiendo entre contenido bien estructurado y material de menor calidad. Las fuentes de alta calidad incluyen Wikipedia, fuentes RSS de Small Web y Semantic Scholar, mientras que los documentos de baja calidad abarcan contenido para adultos y sitios de desinformación. Este clasificador fue entrenado con aproximadamente 25 GB de datos.

Además, OLMo 1.7 emplea un currículo de entrenamiento en dos etapas. Inicialmente, los investigadores entrenan el modelo desde cero. En la segunda etapa, se entrena el modelo con un subconjunto curado de Dolma 1.7, utilizando 50 mil millones de tokens adicionales mientras se reduce gradualmente la tasa de aprendizaje a cero. El subconjunto curado de alta calidad incluye todos los datos posibles de Wikipedia, OpenWebMath y Flan, excluyendo ciertas fuentes y equilibrando las proporciones de los conjuntos de datos restantes.

AI2 afirma que estas mejoras permiten que OLMo 1.7-7B supere tanto a Llama 2-7B en el benchmark de Comprensión de Lenguaje Multitarea Masiva (MMLU) como a Llama-2-13B en el conjunto de datos GSM8K.

El modelo OLMo actualizado está licenciado bajo Apache 2.0, mientras que Dolma 1.7 está disponible bajo ODC-BY. Ambos están accesibles en Hugging Face ahora.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles