MLCommons ha anunciado los últimos resultados de MLPerf Inference, presentando un nuevo estándar de inteligencia artificial generativa y las primeras métricas de rendimiento validadas para el procesador gráfico Blackwell de Nvidia de próxima generación. Como una organización neutral ante proveedores y con múltiples interesados, MLCommons supervisa los benchmarks de MLPerf para el entrenamiento e inferencia de inteligencia artificial. Los resultados más recientes, que incluyen 964 envíos de rendimiento de 22 organizaciones, ofrecen una visión esencial del panorama de hardware y software de IA en rápida evolución. Al proporcionar mediciones estandarizadas y reproducibles del rendimiento de inferencia, MLPerf brinda a los tomadores de decisiones empresariales la información necesaria para navegar las complejidades de la implementación de IA, equilibrando rendimiento, eficiencia y costo.
Aspectos Destacados de MLPerf Inference v4.1
Entre las actualizaciones más relevantes de MLPerf Inference v4.1 se encuentra la introducción del benchmark Mixture of Experts (MoE), que evalúa el rendimiento del modelo Mixtral 8x7B. Esta edición también mostró una variada gama de nuevos procesadores y sistemas, incluyendo el MI300x de AMD, el TPUv6e (Trillium) de Google, Granite Rapids de Intel, SpeedAI 240 de Untether AI y la GPU Blackwell B200 de Nvidia.
David Kanter, fundador de MLPerf en MLCommons, expresó su entusiasmo por la diversidad de envíos: “Cuanto mayor sea la variedad de sistemas evaluados, mayores serán las oportunidades de comparación y perspectivas dentro de la industria.”
El Benchmark MoE para Inferencia de IA
Un avance significativo en esta edición es el benchmark MoE, diseñado para enfrentar los desafíos de los modelos de lenguaje cada vez más grandes. Miro Hodak, miembro senior del personal técnico de AMD y presidente del grupo de trabajo de inferencia de MLCommons, explicó que, en lugar de depender de un único modelo grande, el enfoque MoE consiste en varios modelos más pequeños y específicos de dominio, lo que mejora la eficiencia en la implementación.
El benchmark MoE evalúa el rendimiento de hardware utilizando el modelo Mixtral 8x7B, que incluye ocho expertos con 7 mil millones de parámetros cada uno. El modelo integra tres tareas clave:
- Respuestas a preguntas basadas en el dataset Open Orca
- Razonamiento matemático utilizando el dataset GSMK
- Tareas de codificación basadas en el dataset MBXP
Hodak enfatizó que el marco MoE no solo utiliza mejor las fortalezas del modelo en comparación con los benchmarks de tareas únicas tradicionales, sino que también promueve soluciones de IA más eficientes para las empresas.
GPU Blackwell de Nvidia: Mejoras Prometedoras en Inferencia de IA
El proceso de pruebas de MLPerf ofrece a los proveedores una plataforma para demostrar tecnologías emergentes con resultados rigurosamente revisados por pares. Entre los lanzamientos más esperados se encuentra la GPU Blackwell de Nvidia, anunciada en marzo. Aunque pasarán varios meses antes de que los usuarios accedan a Blackwell, los resultados de MLPerf Inference 4.1 brindan un vistazo a sus capacidades.
“Esta es nuestra primera divulgación de rendimiento de datos medidos en Blackwell, y estamos emocionados de compartirlo”, dijo Dave Salvator de Nvidia durante una reciente sesión informativa.
Los benchmarks destacan específicamente el rendimiento de cargas de trabajo de IA generativa basadas en la carga de trabajo de LLM más grande de MLPerf, Llama 2 70B. “Estamos logrando 4 veces más rendimiento por GPU en comparación con nuestra generación anterior”, señaló Salvator.
Además de la nueva GPU Blackwell, Nvidia sigue extrayendo más rendimiento de su hardware existente. Los resultados de MLPerf Inference 4.1 indican que la GPU Hopper ha mejorado un 27% desde los últimos benchmarks hace seis meses, impulsada exclusivamente por mejoras de software.
“Estas ganancias provienen solo del software”, explicó Salvator. “Utilizamos el mismo hardware que antes, pero las optimizaciones de software en curso nos permiten lograr un mayor rendimiento.”
Con estos avances, los últimos resultados de MLPerf Inference de MLCommons proporcionan información crítica sobre el futuro del hardware de IA y su potencial de implementación en diversas aplicaciones empresariales.