Apple Muestra Sus Capacidades de IA: Nuevos Modelos Superan el Rendimiento de Mistral y Hugging Face

Home Noticias de IA Apple Muestra Sus Capacidades de IA: Nuevos Modelos Superan el Rendimiento de Mistral y Hugging Face

A medida que aumenta la emoción por las capacidades del nuevo GPT-4o-mini, Apple ha ampliado su colección de modelos de IA compactos con el lanzamiento de varios modelos de DataComp para Modelos de Lenguaje (DCLM) en Hugging Face. El paquete incluye dos modelos significativos: uno con 7 mil millones de parámetros y otro con 1.4 mil millones. Ambos modelos sobresalen en pruebas de referencia, especialmente el modelo más grande, que supera a Mistral-7B y se aproxima rápidamente al rendimiento de otros modelos abiertos líderes como Llama 3 y Gemma.

Vaishaal Shankar, del equipo de Apple ML, destaca que estos modelos son las "mejores opciones" de código abierto disponibles. Cabe mencionar que el proyecto ha adoptado plenamente los principios del código abierto al liberar los pesos del modelo, el código de entrenamiento y el conjunto de datos de preentrenamiento.

Visión General de los Modelos DCLM de Apple

El proyecto DataComp es una iniciativa colaborativa que involucra a investigadores de Apple, la Universidad de Washington, la Universidad de Tel Aviv y el Instituto de Investigación Toyota. Su objetivo es crear conjuntos de datos de alta calidad para el entrenamiento de modelos de IA, especialmente en el ámbito multimodal. El equipo utiliza un marco estandarizado con arquitecturas de modelo fijas, código de entrenamiento, hiperparámetros y evaluaciones para probar diversas estrategias de curación de datos y optimizar el rendimiento del modelo.

Experimentos iniciales revelaron que el filtrado basado en modelos, donde los modelos de aprendizaje automático seleccionan datos de alta calidad de conjuntos más grandes, juega un papel crucial en la formación de conjuntos de entrenamiento superiores. Usando esta técnica, el equipo desarrolló el conjunto de datos DCLM-Baseline, que fue fundamental para entrenar los modelos de transformador de decodificador de 7 mil millones y 1.4 mil millones de parámetros desde cero.

El modelo de 7B, entrenado con 2.5 billones de tokens siguiendo recetas de preentrenamiento de OpenLM, cuenta con una ventana de contexto de 2K y logra una precisión del 63.7% en la evaluación MMLU. Esto marca una mejora de 6.6 puntos porcentuales sobre MAP-Neo, el anterior líder en modelos de lenguaje de datos abiertos, utilizando además un 40% menos de potencia computacional durante el entrenamiento.

Es crucial mencionar que su rendimiento en MMLU se encuentra en un rango cercano a modelos líderes que tienen pesos abiertos pero datos cerrados, como Mistral-7B-v0.3 (62.7%), Llama3 8B (66.2%), Gemma de Google (64.3%) y Phi-3 de Microsoft (69.9%).

Adicionalmente, al extender el contexto del modelo a 8K y realizar 100 mil millones más de iteraciones de entrenamiento utilizando la técnica de Descomposición de Conjuntos de Datos, se observaron mejoras adicionales en las evaluaciones Core y Extended, aunque los resultados de MMLU permanecieron consistentes. "Nuestros hallazgos subrayan la importancia del diseño de conjuntos de datos en el entrenamiento de modelos de lenguaje y sirven como base para investigaciones continuas en curación de datos", afirmaron los investigadores en un artículo sobre DataComp-LM.

Rendimiento Impresionante del Modelo Más Pequeño

De manera similar al DCLM-7B, el modelo más pequeño de 1.4B—desarrollado en colaboración con el Instituto de Investigación Toyota utilizando 2.6 billones de tokens—también muestra un rendimiento notable en las pruebas MMLU, Core y Extended. En la evaluación MMLU de 5 disparos, logró un 41.9%, superando a otros modelos en su categoría, incluido SmolLM de Hugging Face, que tuvo una puntuación de MMLU del 39.97%. Qwen-1.5B y Phi-1.5B le siguieron con puntuaciones de 37.87% y 35.90%, respectivamente.

Actualmente, el modelo de 7B está disponible bajo la Licencia de Código de Muestra de Apple, mientras que el modelo de 1.4B ha sido lanzado bajo Apache 2.0, permitiendo el uso comercial, distribución y modificación. Además, está disponible una versión ajustada por instrucciones del modelo de 7B en la biblioteca de Hugging Face.

Es importante destacar que este lanzamiento representa una investigación inicial que enfatiza la efectividad en la curación de datos. Estos modelos no están destinados para dispositivos de Apple y pueden mostrar sesgos derivados de sus conjuntos de datos de entrenamiento o generar respuestas potencialmente dañinas.

Por qué la Ciberresiliencia es Vital: Lecciones del Reciente Corte de IT de CrowdStrike

El modelo de inteligencia artificial Llama de código abierto de Groq supera a GPT-4o y Claude en la ejecución de funciones, ocupando el primer lugar en la tabla de clasificación.

Most people like

EssayAI

29.3K

Presentamos el escritor de ensayos Fast & Smart AI: tu solución ideal para crear ensayos de alta calidad de manera rápida y sencilla. Ya seas un estudiante con plazos ajustados o un profesional que busca mejorar su escritura, nuestra herramienta impulsada por IA está diseñada para generar contenido atractivo en un abrir y cerrar de ojos. Descubre tu potencial de escritura y transforma tus ideas en ensayos bien estructurados sin esfuerzo.

Escritor de ensayos de IA AI Checker Essay

Reflect Notes

185K

Presentamos una aplicación de notas simplificada, diseñada para capturar tus pensamientos sin esfuerzo. Experimenta la simplicidad del minimalismo mientras aumentas tu productividad.

toma de notas AI Product Description Generator

MyShell AI

1.3M

Descubre la plataforma MyShell, donde puedes diseñar chatbots de IA personalizados integrados de manera fluida con tecnología Web3. ¡Comparte y personaliza fácilmente tus creaciones con amigos!

Impulsado por IA AI App Builder

AnythingLLM

256K

Descubre la aplicación de escritorio AI todo en uno diseñada para aumentar la productividad, proteger tu privacidad y ofrecer una flexibilidad sin igual.

Aplicación de IA para escritorio Large Language Models (LLMs)

Find AI tools in YBX