Недавний отчет исследований Meta показывает, что кластер из 16,384 графических процессоров NVIDIA H100, используемый для обучения модели LLaMA 3 с 40,5 миллиарда параметров, столкнулся с 419 неожиданными сбоями за 54 дня, что составляет в среднем один сбой каждые три часа. Более половины этих сбоев связаны с графическими процессорами и их высокоскоростной памятью (HBM3).
Большой масштаб и высокая синхронизация задач означают, что сбой одного графического процессора может нарушить весь процесс обучения, требуя перезапуска. Несмотря на эти трудности, команда Meta обеспечила более 90% эффективного времени обучения. В период предварительного обучения за 54 дня они зафиксировали 466 прерываний, состоящих из 47 запланированных и 419 неожиданных. Запланированные прерывания в основном обусловлены автоматизированным обслуживанием, в то время как неожиданные сбои, как правило, вызваны аппаратными проблемами. Важно отметить, что проблемы, связанные с графическими процессорами, составили 58,7% неожиданных прерываний.
Из 419 неожиданных сбоев 148 (30,1%) были вызваны различными проблемами с GPU, включая сбои NVLink, в то время как 72 (17,2%) вызваны неисправностями в HBM3 памяти GPU. Примечательно, что за весь 54-дневный период произошло всего два сбоя процессора. Кроме того, 41,3% неожиданных прерываний были связаны с комбинацией программных ошибок, проблем с сетевыми кабелями и неполадками сетевых адаптеров.
Чтобы повысить эффективность, команда Meta разработала множество инструментов и стратегий оптимизации. К ним относятся сокращение времени запуска задач и временных точек, использование профайлера NCCL в PyTorch для диагностики производительности и выявление недостаточно мощных графических процессоров. Команда также сосредоточилась на влиянии экологических факторов на производительность GPU, таких как температурные колебания в середине дня и нагрузка от одновременной работы большого количества GPU на электрической сети дата-центра.
По мере увеличения параметров моделей ИИ растут и вычислительные ресурсы, необходимые для их обучения. Например, запланированный кластер из 100,000 GPU H100 от xAI может значительно повысить уровень сбоев, создавая дополнительные вызовы для будущих усилий по обучению ИИ.