El reciente informe de investigación de Meta revela que su clúster de 16,384 tarjetas gráficas NVIDIA H100, utilizadas para entrenar el modelo LLaMA 3 de 40.5 mil millones de parámetros, experimentó 419 fallos inesperados en un periodo de 54 días, lo que equivale a un fallo cada tres horas. Más de la mitad de estos fallos se originaron en las GPU y su memoria de alta capacidad (HBM3).
La magnitud y la sincronización de las tareas significan que un fallo en una sola GPU puede interrumpir todo el proceso de entrenamiento, lo que requiere reiniciar. A pesar de este entorno desafiante, el equipo de Meta logró mantener más del 90% de tiempo efectivo de entrenamiento. Durante el periodo de pre-entrenamiento de 54 días, se registraron un total de 466 interrupciones, compuestas por 47 interrupciones planificadas y 419 imprevistas. Las interrupciones planificadas fueron principalmente por mantenimiento automatizado, mientras que los fallos inesperados fueron causados en su mayoría por problemas de hardware. Es relevante mencionar que los problemas relacionados con las GPU representaron el 58.7% de estas interrupciones inesperadas.
De los 419 fallos inesperados, 148 (30.1%) se debieron a diversas cuestiones con las GPU, incluidas fallas en NVLink, mientras que 72 (17.2%) fueron causadas por fallos en la memoria HBM3 de la GPU. Notablemente, solo hubo dos fallos de CPU durante todo el período de 54 días. Además, el 41.3% de las interrupciones inesperadas se atribuyeron a una combinación de errores de software, problemas con cables de red y fallas en adaptadores de red.
Para mejorar la eficiencia, el equipo de Meta ha desarrollado numerosas herramientas y estrategias de optimización. Estas incluyen la reducción del tiempo de inicio de tareas y puntos de control, el uso del perfilador NCCL de PyTorch para diagnosticar problemas de rendimiento e identificación de GPUs de bajo rendimiento. El equipo también se ha centrado en la influencia de factores ambientales en el rendimiento de las GPU, como las fluctuaciones de temperatura durante el mediodía y la presión de operar numerosas GPUs simultáneamente en la red eléctrica del centro de datos.
A medida que los parámetros de los modelos de IA continúan creciendo, también lo hacen los recursos computacionales necesarios. Por ejemplo, un clúster planificado de 100,000 GPUs H100 por xAI podría aumentar significativamente las tasas de fallo, presentando mayores desafíos para futuros esfuerzos de entrenamiento de IA.