Nvidia e Intel Establecen Nuevos Récords de Velocidad en el Entrenamiento de LLM en los Resultados de la Prueba MLPerf 3.1

El entrenamiento de modelos de inteligencia artificial (IA) ha avanzado de manera significativa en 2023, según el último benchmark MLPerf Training 3.1. El ritmo de innovación en el sector de la IA generativa es asombroso, siendo el entrenamiento rápido de modelos un factor crucial en este progreso. El benchmark MLCommons MLPerf sigue y cuantifica esta eficiencia de entrenamiento. MLCommons es un consorcio de ingeniería abierto dedicado a mejorar los benchmarks de aprendizaje automático (ML), los conjuntos de datos y las mejores prácticas para fomentar el desarrollo de IA.

El benchmark MLPerf Training 3.1 incluyó aportaciones de 19 proveedores y generó más de 200 resultados de rendimiento. Esta ronda presentó benchmarks para el entrenamiento de grandes modelos de lenguaje (LLM), incluyendo GPT-3, e introdujo un nuevo benchmark para el modelo de generación de texto a imagen de código abierto Stable Diffusion. "Con más de 200 resultados de rendimiento, observamos mejoras sustanciales entre un 50% y casi 3 veces mejor," comentó David Kanter, director ejecutivo de MLCommons, durante una reciente conferencia de prensa.

Avances en el Entrenamiento de LLM que Superan la Ley de Moore

Un aspecto destacado de los benchmarks MLPerf Training 3.1 es el aumento significativo en el rendimiento del entrenamiento de LLM. Desde junio, cuando se incluyeron por primera vez datos de entrenamiento de LLM, los benchmarks MLPerf 3.1 muestran un aumento de casi 3 veces en el rendimiento de entrenamiento. "Al comparar el benchmark de entrenamiento de LLM más rápido de la primera ronda en junio con el último, hemos logrado un rendimiento aproximadamente 2.8 veces más rápido," señaló Kanter. "Aunque no puedo predecir las próximas rondas, esta mejora es impresionante y muestra capacidades increíbles."

Kanter cree que estos recientes aumentos de rendimiento en el entrenamiento de IA superan lo que la Ley de Moore sugeriría, que predice un aumento del doble en el rendimiento computacional cada pocos años. Afirmó que el sector de IA está escalando arquitectura de hardware y software a un ritmo superior a estas predicciones. "MLPerf actúa como un barómetro del progreso de la industria," agregó.

Avances Significativos de Líderes de la Industria

Intel, Nvidia y Google han realizado avances notables en los resultados de entrenamiento de LLM en los benchmarks MLPerf Training 3.1. Intel informó que su acelerador Habana Gaudi 2 logró un aumento del 103% en la velocidad de entrenamiento en comparación con los resultados de junio, utilizando técnicas como tipos de datos de punto flotante de 8 bits (FP8). "Habilitamos FP8 con la misma plataforma de software, mejorando nuestros resultados en hardware existente," dijo Itay Hubara, investigador sénior de Intel. "Cumplimos con nuestra última promesa de envío."

El Cloud TPU v5e de Google, lanzado el 29 de agosto, también demostró avances en el entrenamiento, aprovechando de manera similar FP8 para un rendimiento optimizado. Vaibhav Singh, gerente de producto de aceleradores en la nube en Google, habló sobre las capacidades de escalado logradas a través de la tecnología multislice de Cloud TPU. "Cloud TPU multislice escala de manera efectiva a través de la red del centro de datos," explicó Singh. "Con esta tecnología, logramos un rendimiento de escalado excepcional de hasta 1,024 nodos utilizando 4,096 chips TPU v5e."

El Superordenador EOS de Nvidia Impulsa el Entrenamiento de LLM

Nvidia maximizó la eficiencia de su entrenamiento de LLM utilizando su superordenador EOS, que se introdujo en las discusiones en 2022. Los resultados mostraron un aumento de 2.8 veces en la velocidad de entrenamiento para modelos GPT-3 en comparación con los benchmarks de junio. Dave Salvator, director de productos de computación acelerada en Nvidia, destacó que EOS está equipado con 10,752 GPUs conectadas a través de Nvidia Quantum-2 InfiniBand, operando a 400 gigabits por segundo, y 860 terabytes de memoria HBM3. "Las métricas de velocidad que estamos viendo son extraordinarias," comentó Salvator. "En términos de computación de IA, estamos superando los 40 exaflops, lo cual es notable."

En general, el benchmark MLPerf Training 3.1 subraya los rápidos avances en el entrenamiento de IA, marcando un momento crucial en la evolución de la inteligencia artificial.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles