AI2 Mejora el Modelo OLMo de Código Abierto con un Conjunto de Datos Diverso y un Currículum de Dos Etapas para Optimizar el Rendimiento

Home Noticias de IA AI2 Mejora el Modelo OLMo de Código Abierto con un Conjunto de Datos Diverso y un Currículum de Dos Etapas para Optimizar el Rendimiento

El miércoles, el Allen Institute for AI (AI2) presentó una actualización de su modelo de 7 mil millones de parámetros, OLMo 1.7-7B. Esta versión mejorada utiliza un conjunto de datos Dolma más amplio y variado, junto con un proceso de entrenamiento avanzado.

Presentado inicialmente en febrero, OLMo se define como un "modelo de lenguaje grande verdaderamente de código abierto y de última generación", que incluye datos completos de preentrenamiento, código de entrenamiento, pesos del modelo y métricas de evaluación.

La última actualización permite que OLMo 1.7-7B soporte una longitud de contexto más larga, expandiéndose de 2,048 a 4,096 tokens, lo que mejora su rendimiento gracias a técnicas de entrenamiento refinadas y mejoras arquitectónicas. El conjunto de datos Dolma 1.7 incluye impresionantes 2.3 billones de tokens provenientes de diversas fuentes, como Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg y Wikipedia.

Anteriormente dependiente de Dolma 1.5, que utilizaba principalmente datos de la web, el nuevo Dolma 1.7 mejora la capacidad del modelo para manejar tareas que requieren conocimientos especializados, razonamiento complejo y codificación al diversificar las fuentes de datos. AI2 implementó mejores métodos de desduplicación para asegurar la calidad del contenido, eliminando documentos con una puntuación de duplicación que superaba un umbral preestablecido, calculado a partir de puntuaciones de duplicación a nivel de párrafo.

Dolma 1.7 también introduce un sistema de filtrado de calidad refinado. Un clasificador de FastText evalúa los documentos según su calidad, distinguiendo entre contenido bien estructurado y material de menor calidad. Las fuentes de alta calidad incluyen Wikipedia, fuentes RSS de Small Web y Semantic Scholar, mientras que los documentos de baja calidad abarcan contenido para adultos y sitios de desinformación. Este clasificador fue entrenado con aproximadamente 25 GB de datos.

Además, OLMo 1.7 emplea un currículo de entrenamiento en dos etapas. Inicialmente, los investigadores entrenan el modelo desde cero. En la segunda etapa, se entrena el modelo con un subconjunto curado de Dolma 1.7, utilizando 50 mil millones de tokens adicionales mientras se reduce gradualmente la tasa de aprendizaje a cero. El subconjunto curado de alta calidad incluye todos los datos posibles de Wikipedia, OpenWebMath y Flan, excluyendo ciertas fuentes y equilibrando las proporciones de los conjuntos de datos restantes.

AI2 afirma que estas mejoras permiten que OLMo 1.7-7B supere tanto a Llama 2-7B en el benchmark de Comprensión de Lenguaje Multitarea Masiva (MMLU) como a Llama-2-13B en el conjunto de datos GSM8K.

El modelo OLMo actualizado está licenciado bajo Apache 2.0, mientras que Dolma 1.7 está disponible bajo ODC-BY. Ambos están accesibles en Hugging Face ahora.

Presentamos Cisco Hypershield: Un Enfoque Revolucionario de Seguridad para la Era de la IA

¡Atención, Boston Dynamics! Mentee Robotics lanza su robot de próxima generación ‘AI-First’

Most people like

LongShot AI

71.8K

Presentamos una plataforma de IA diseñada para satisfacer todas tus necesidades de creación de contenido. Ya seas un marketero, un blogger o un propietario de negocio, esta solución innovadora optimiza tu generación de contenido, garantizando calidad y eficiencia. Descubre cómo nuestras herramientas impulsadas por IA pueden potenciar tu creatividad y productividad, facilitando la producción de contenido atractivo e impactante adaptado a tu audiencia. ¡Abraza el futuro de la creación de contenido hoy mismo!

plataforma de IA Writing Assistants

StoryLab.ai

279K

Bienvenido al Kit de Herramientas para la Creación de Contenidos con IA, tu recurso esencial para aprovechar la inteligencia artificial de vanguardia en el arte de crear contenido. Este kit está diseñado para empoderar a escritores, mercadólogos y creadores a producir material de alta calidad y atractivo sin esfuerzo. Descubre herramientas y técnicas innovadoras que transformarán tu estrategia de contenido, aumentarán tu creatividad y maximizarán tu eficiencia. ¡Desata todo el potencial de la IA y eleva tu contenido a nuevas alturas!

Creación de Contenido con IA AI Content Generator

NSFW AI Chat

35.6K

Interactúa con una IA diseñada para crear imágenes NSFW, permitiéndote explorar tu sexualidad en un entorno seguro y privado.

Chat de IA NSFW AI Girlfriend

OffRobe

467.9K

En el paisaje en rápida evolución de la inteligencia artificial, los deepfakes realistas han surgido como un fenómeno fascinante pero complejo. Estas impresiones generadas por IA pueden imitar de cerca la apariencia y el comportamiento de personas reales, lo que plantea importantes preguntas éticas y sociales. A medida que la tecnología avanza, es fundamental comprender las implicaciones de la creación y el uso de deepfakes en nuestro entorno digital.

Generador de desnudos con IA NSFW

Find AI tools in YBX