Llama-3.1-Minitron 4B de Nvidia: Un Potente Modelo de Lenguaje Pequeño que Supera las Expectativas

Home Noticias de IA Llama-3.1-Minitron 4B de Nvidia: Un Potente Modelo de Lenguaje Pequeño que Supera las Expectativas

A medida que las empresas tecnológicas compiten por implementar inteligencia artificial en dispositivos, la investigación sobre Modelos de Lenguaje Pequeños (SLMs) optimizados para dispositivos con recursos limitados está creciendo rápidamente. Un avance reciente de Nvidia ha presentado el Llama-3.1-Minitron 4B, una versión comprimida del modelo Llama 3, que utiliza técnicas avanzadas de poda y destilación. Este nuevo modelo no solo compite con versiones más grandes, sino que también ofrece un proceso de entrenamiento y despliegue más eficiente.

Entendiendo la Poda y la Destilación

La poda y la destilación son técnicas clave para desarrollar modelos de lenguaje más pequeños y eficientes. La poda elimina componentes menos críticos: la "poda de profundidad" elimina capas completas, mientras que la "poda de ancho" descarta elementos específicos como neuronas y cabezales de atención.

La destilación de modelo implica transferir conocimiento de un "modelo maestro" más grande a un "modelo estudiante" más simple. Existen dos enfoques principales:

1. Entrenamiento SGD: El modelo estudiante aprende de las entradas y respuestas del maestro.

2. Destilación de Conocimiento Clásica: En este método, el estudiante aprende no solo de las salidas finales, sino también de las activaciones intermedias del modelo maestro.

Un estudio previo de Nvidia combinó la poda con la destilación clásica, refinando el modelo Nemotron 15B a uno con 8 mil millones de parámetros. La posterior destilación del modelo original a la versión podada resultó en un modelo más pequeño de 4 mil millones, logrando una mejora del 16% en el rendimiento según el benchmark MMLU, utilizando 40 veces menos tokens de entrenamiento que comenzar desde cero.

Desarrollo del Llama 3.1-Minitron

Basándose en técnicas anteriores, Nvidia aplicó los mismos métodos al modelo Llama 3.1 de 8B para crear una versión de 4 mil millones de parámetros capaz de competir con modelos más grandes. El proceso comenzó ajustando finamente el modelo de 8B sin podar en un conjunto de datos completo de 94 mil millones de tokens para abordar cambios en la distribución que dificultaban su orientación durante la destilación.

A continuación, se emplearon dos formas de poda: poda de profundidad, que redujo las capas del modelo en un 50%, y poda de ancho, que eliminó el 50% de las neuronas en ciertas capas densas. Estas modificaciones produjeron dos versiones distintivas del modelo Llama-3.1-Minitron 4B.

Los modelos podados se ajustaron finamente utilizando NeMo-Aligner, un kit de herramientas que cuenta con varios algoritmos de alineación, incluidos el aprendizaje por refuerzo con retroalimentación humana (RLHF) y SteerLM de Nvidia.

Resultados de Rendimiento

Nvidia evaluó los modelos Llama-3.1-Minitron 4B en tareas relacionadas con seguimiento de instrucciones, juegos de rol, generación enriquecida con recuperación y llamadas a funciones. A pesar de contar con un conjunto de datos de entrenamiento más pequeño, el Llama-3.1-Minitron 4B demostró un rendimiento comparable a otros SLMs como Phi-2 2.7B y Gemma2 2.6B, siendo considerablemente más grande. Esto resalta un atractivo compromiso entre los costos de entrenamiento y la eficiencia en la inferencia.

La versión podada por ancho del modelo está disponible en Hugging Face bajo la Licencia de Modelo Abierto de Nvidia, promoviendo una mayor accesibilidad y uso comercial para los desarrolladores.

Nvidia enfatiza que "la poda y la destilación de conocimiento clásica son maneras rentables de crear modelos de lenguaje grandes y pequeños con alta precisión en comparación con métodos tradicionales". Este trabajo subraya el papel crucial de la comunidad de código abierto en el avance de la inteligencia artificial, mostrando cómo las estrategias de poda y destilación pueden optimizar los LLMs mientras minimizan costos. Otros esfuerzos innovadores, como el algoritmo de fusión de modelos evolutivos de Sakana AI, destacan aún más el potencial de soluciones de entrenamiento de bajo costo en el panorama de la inteligencia artificial.

Cómo India Aprovecha la Computación Acelerada de Nvidia para Optimizar la Gestión del Tráfico en Peajes

Desbloquea la Fine-Tuning para GPT-4o: ¡Disfruta de 1 Millón de Tokens Gratuitos Diarios hasta el 23 de Septiembre!

Most people like

Popwork

16.7K

Presentamos Popwork: el asistente inteligente diseñado para líderes de equipo, que ofrece una variedad de soluciones efectivas para mejorar la gestión del equipo y aumentar la productividad. Descubre cómo Popwork puede transformar tu enfoque de liderazgo y optimizar la colaboración.

gestión de equipos AI Product Description Generator

Wudpecker - Your AI Meeting Assistant

94.7K

Graba, transcribe y resume tus reuniones de manera sencilla con Wudpecker. Esta poderosa herramienta facilita la captura de discusiones valiosas, asegurando que nada importante se pase por alto. Con Wudpecker, mejora la productividad y optimiza la comunicación para una mejor colaboración.

IA AI Meeting Assistant

ModernMT

28.6K

Traducción automática adaptativa que evoluciona como la comprensión humana.

traducción automática Translate

Scale AI

364.8K

Scale AI proporciona datos de entrenamiento confiables y de alta calidad, adaptados a una amplia gama de aplicaciones de inteligencia artificial. Nuestras soluciones permiten a las empresas mejorar sus modelos de aprendizaje automático e impulsar la innovación en el dinámico panorama de la inteligencia artificial.

Datos de entrenamiento de IA AI Image Recognition

Find AI tools in YBX