Innovación en el Entrenamiento de Aprendizaje Automático y AI Acelera
Los avances en el aprendizaje automático (ML) y el entrenamiento de inteligencia artificial (AI) están evolucionando rápidamente, especialmente con la aparición de tareas más sofisticadas de AI generativa. Hoy, MLCommons presentó el estándar de entrenamiento MLPerf 4.0, que destaca niveles de rendimiento récord. Este estándar neutral para proveedores es ampliamente reconocido en la industria, con contribuciones de 17 organizaciones y más de 205 resultados. Esta versión marca la primera actualización en el entrenamiento de MLPerf desde la versión 3.1 en noviembre de 2023.
Los benchmarks de MLPerf 4.0 abarcan desarrollos significativos, incluyendo la generación de imágenes mediante Stable Diffusion y el entrenamiento de Modelos de Lenguaje Grande (LLM) para GPT-3. Destacan resultados inéditos como un nuevo benchmark de LoRA que ajusta el modelo de lenguaje Llama 2 70B para la resumición de documentos con un enfoque en la eficiencia de parámetros.
Al comparar los resultados con el ciclo anterior, las mejoras son notables. "En relación con hace seis meses, algunos benchmarks han mostrado casi 2x de mejora en rendimiento, especialmente con Stable Diffusion," comentó David Kanter, fundador y director ejecutivo de MLCommons, durante una conferencia de prensa. "Es impresionante para solo medio año."
Específicamente, el entrenamiento de Stable Diffusion es 1.8x más rápido en comparación con noviembre de 2023, mientras que el entrenamiento de GPT-3 experimenta un aumento de velocidad de hasta 1.2x.
Rendimiento de Entrenamiento de AI: Más Allá del Hardware
Si bien el hardware desempeña un papel crucial en el entrenamiento de modelos de AI, el software y la conectividad de red dentro de los clústeres son igualmente importantes. "El rendimiento del entrenamiento de AI depende de diversos factores que mejoran la eficiencia," observó Kanter. "La distribución de tareas y la comunicación entre múltiples procesadores o aceleradores son vitales."
Los proveedores no solo capitalizan el silicio superior, sino que también aprovechan algoritmos avanzados y escalado para mejorar el rendimiento a lo largo del tiempo.
Liderazgo de Nvidia en el Entrenamiento con Arquitectura Hopper
Nvidia ha destacado notablemente en los benchmarks de MLPerf 4.0, logrando nuevos récords de rendimiento en cinco de las nueve cargas de trabajo evaluadas. Impresionantemente, estos benchmarks se establecieron principalmente utilizando las mismas plataformas de hardware centrales que en junio de 2023.
David Salvator, director de AI en Nvidia, subrayó el continuo valor de la arquitectura H100 Hopper. "A lo largo de la historia de Nvidia, típicamente logramos mejoras de rendimiento de 2x a 2.5x gracias a innovaciones de software durante el ciclo de vida de un producto," afirmó.
Nvidia ha implementado múltiples estrategias para aumentar el rendimiento en MLPerf 4.0, incluyendo optimización de pila completa, núcleos FP8 finamente ajustados y un cuDNN FlashAttention optimizado.
Importancia de los Benchmarks de Entrenamiento de MLPerf para Empresas
Los benchmarks de MLPerf ofrecen a las organizaciones métricas estandarizadas sobre el rendimiento de entrenamiento, pero su valor va más allá de simples cifras. Salvator resaltó que las mejoras en el rendimiento se logran con hardware existente, demostrando que Nvidia puede obtener beneficios sostenidos de arquitecturas establecidas. A medida que las organizaciones planean nuevas implementaciones, especialmente en local, el potencial de mejoras continuas tras la inversión inicial es crucial.
"En términos de la importancia del rendimiento, la respuesta simple es que impulsa el retorno de inversión para los negocios," concluyó.