MLCommons Lanza MLPerf 4.0: Un Estándar para la Inferencia de IA
MLCommons ha presentado sus benchmarks MLPerf 4.0 para la inferencia de IA, destacando los rápidos avances en software y hardware.
A medida que la IA generativa evoluciona y gana popularidad, la necesidad de un marco de benchmarking de rendimiento neutral ante proveedores se hace más crítica. MLCommons satisface esta demanda a través de sus benchmarks MLPerf, que ofrecen valiosos conocimientos sobre las capacidades de entrenamiento e inferencia. Los resultados de inferencia de MLPerf 4.0 marcan la primera actualización desde que se publicaron los resultados de MLPerf 3.1 en septiembre de 2023.
El desarrollo en IA ha avanzado significativamente en los últimos seis meses, con grandes empresas de hardware como Nvidia e Intel mejorando sus productos para optimizar el rendimiento de inferencia. Los nuevos resultados de MLPerf 4.0 demuestran mejoras sustanciales en las tecnologías de ambas compañías.
Entre las novedades, los benchmarks de inferencia de MLPerf han cambiado. Mientras que MLPerf 3.1 utilizó el modelo GPT-J de 6 mil millones de parámetros para la resumición de textos, la versión 4.0 se centra en el popular modelo Llama 2 de 70 mil millones de parámetros para respuestas a preguntas (Q&A). Además, por primera vez, MLPerf 4.0 introduce un benchmark para la creación de imágenes generativas utilizando Stable Diffusion.
"MLPerf establece el estándar de la industria para mejorar la velocidad, eficiencia y precisión en IA," declaró David Kanter, fundador y director ejecutivo de MLCommons, durante una rueda de prensa.
La Importancia de los Benchmarks de IA
El último benchmark de MLCommons incluye más de 8,500 resultados de rendimiento, evaluando diversas combinaciones de hardware, software y casos de uso de inferencia de IA. Kanter destacó la importancia de establecer métricas significativas para el rendimiento en IA.
“El objetivo es crear métricas robustas que midan las capacidades de IA, permitiendo mejoras adicionales,” explicó.
MLCommons busca unificar la industria mediante pruebas estandarizadas con conjuntos de datos y configuraciones consistentes en diferentes sistemas. Todos los resultados se comparten con los participantes, fomentando la transparencia y la mejora colaborativa.
Este enfoque estandarizado permite a las empresas tomar decisiones informadas al seleccionar soluciones de IA.
“Esto ayuda a los compradores a evaluar sistemas—ya sean locales, en la nube o integrados—basándose en cargas de trabajo relevantes,” observó Kanter. “Si busca un sistema para ejecutar inferencia de modelos de lenguaje grande, los benchmarks pueden guiar sus elecciones."
Nvidia Lidera el Rendimiento en Inferencia de IA
Nvidia una vez más demuestra su dominio en los benchmarks MLPerf con resultados sorprendentes.
Si bien el nuevo hardware generalmente mejora el rendimiento, Nvidia ha logrado aumentar las capacidades de inferencia en su tecnología existente. Al utilizar la tecnología de inferencia de código abierto TensorRT-LLM de Nvidia, la compañía casi triplicó el rendimiento de inferencia de su GPU H100 Hopper para la resumición de textos con el modelo GPT-J.
Dave Salvator, director de Productos de Computación Acelerada de Nvidia, expresó su entusiasmo por las ganancias de rendimiento logradas en seis meses. “Hemos mejorado significativamente el rendimiento, gracias a los esfuerzos de nuestro equipo de ingeniería para optimizar la arquitectura Hopper,” dijo.
La semana pasada en GTC, Nvidia anunció la GPU Blackwell, sucesora de la arquitectura Hopper. Aunque el cronograma para evaluar Blackwell en MLPerf no está confirmado, Salvator espera que ocurra pronto.
Incluso antes de la evaluación de Blackwell, los resultados de MLPerf 4.0 incluyen la nueva GPU H200, que ofrece un rendimiento de inferencia hasta un 45% más rápido en comparación con la H100 al evaluarse con Llama 2.
Intel Refuerza la Importancia de las CPU en la Inferencia de IA
Intel participó activamente en los benchmarks de MLPerf 4.0, mostrando su acelerador de IA Habana y las tecnologías de CPU Xeon.
Aunque los resultados de rendimiento de Gaudi están por detrás del H100 de Nvidia, Intel afirma que ofrece una mejor relación calidad-precio. Más significativamente, el nuevo procesador Intel Xeon de 5ª generación demuestra mejoras impresionantes en tareas de inferencia.
Durante una rueda de prensa, Ronak Shah, director de Producto de IA para Xeon en Intel, destacó que el Xeon de 5ª generación es 1.42 veces más rápido en inferencia en comparación con la generación anterior. En particular, para la tarea de resumición de textos con GPT-J, el Xeon de 5ª generación logró velocidades hasta 1.9 veces más rápidas.
“Entendemos que muchas empresas requieren soluciones que integren capacidades de procesamiento general y de IA,” afirmó Shah. “Nuestras CPUs están diseñadas para combinar procesamiento robusto con un rendimiento avanzado en IA a través de nuestro motor AMX.”