Частые ошибки обучения Llama 3: Анализ «сбоев» на кластере из 16384 GPU H100 каждые 3 часа.

Недавний отчет исследований Meta показывает, что кластер из 16,384 графических процессоров NVIDIA H100, используемый для обучения модели LLaMA 3 с 40,5 миллиарда параметров, столкнулся с 419 неожиданными сбоями за 54 дня, что составляет в среднем один сбой каждые три часа. Более половины этих сбоев связаны с графическими процессорами и их высокоскоростной памятью (HBM3).

Большой масштаб и высокая синхронизация задач означают, что сбой одного графического процессора может нарушить весь процесс обучения, требуя перезапуска. Несмотря на эти трудности, команда Meta обеспечила более 90% эффективного времени обучения. В период предварительного обучения за 54 дня они зафиксировали 466 прерываний, состоящих из 47 запланированных и 419 неожиданных. Запланированные прерывания в основном обусловлены автоматизированным обслуживанием, в то время как неожиданные сбои, как правило, вызваны аппаратными проблемами. Важно отметить, что проблемы, связанные с графическими процессорами, составили 58,7% неожиданных прерываний.

Из 419 неожиданных сбоев 148 (30,1%) были вызваны различными проблемами с GPU, включая сбои NVLink, в то время как 72 (17,2%) вызваны неисправностями в HBM3 памяти GPU. Примечательно, что за весь 54-дневный период произошло всего два сбоя процессора. Кроме того, 41,3% неожиданных прерываний были связаны с комбинацией программных ошибок, проблем с сетевыми кабелями и неполадками сетевых адаптеров.

Чтобы повысить эффективность, команда Meta разработала множество инструментов и стратегий оптимизации. К ним относятся сокращение времени запуска задач и временных точек, использование профайлера NCCL в PyTorch для диагностики производительности и выявление недостаточно мощных графических процессоров. Команда также сосредоточилась на влиянии экологических факторов на производительность GPU, таких как температурные колебания в середине дня и нагрузка от одновременной работы большого количества GPU на электрической сети дата-центра.

По мере увеличения параметров моделей ИИ растут и вычислительные ресурсы, необходимые для их обучения. Например, запланированный кластер из 100,000 GPU H100 от xAI может значительно повысить уровень сбоев, создавая дополнительные вызовы для будущих усилий по обучению ИИ.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles