Meta активно обучает свою языковую модель Llama 3 в области искусственного интеллекта. Однако процесс обучения сталкивается с частыми перебоями. Недавнее исследование выявило шокирующую статистику: в ходе 54-дневной предварительной стадии обучения этой модели с 405 миллиардов параметров кластер из 16 384 GPU Nvidia H100 столкнулся с огромным числом — 419 неожиданных сбоев, в среднем по одному каждые три часа.
Отчет указывает, что более половины этих сбоев (58,7%) непосредственно связаны с GPU и их высокоскоростной памятью (HBM3). В частности, сбои GPU, включая проблемы с подключениями NVLink, составили 30,1%, в то время как сбои памяти HBM3 составили 17,2%. В отличие от этого, за весь период обучения CPU столкнулись лишь с двумя сбоями, что подчеркивает критическую роль GPU в высокопроизводительных вычислениях и сложности, с которыми они сталкиваются.
Несмотря на частые перебои, команда Meta достигла более 90% эффективного времени обучения благодаря эффективным инструментам и стратегиям управления. Они оптимизировали процессы начала задач и контрольные точки, а также быстро диагностировали проблемы с производительностью, используя профайлер NCCL от PyTorch, который помог выявить недостаточно производительные GPU. Команда также отметила влияние внешних факторов на производительность GPU, таких как колебания температуры в полдень и нагрузка, оказываемая большими кластерами GPU на энергосистемы центров обработки данных.
С ростом размеров AI-моделей растет и спрос на вычислительные ресурсы. Например, если инициатива Meta xAI развернет 100 000 GPU H100 для обучения в будущем, уровень сбоев может резко возрасти, что создаст беспрецедентные проблемы для обучения AI.
Опыт Meta служит важным предупреждением для индустрии, подчеркивая значимость стабильности и надежности аппаратного обеспечения при стремлении к технологическим усовершенствованиям. В дальнейшем уменьшение числа сбоев оборудования без ущерба для эффективности обучения станет значительной задачей для всех компаний в области AI и исследовательских учреждений.
Это исследование не только раскрывает аппаратные проблемы обучения крупных AI-моделей, но и предоставляет ценные данные для поддержки будущих технологических оптимизаций и решений. С развитием технологий мы ожидаем появления более стабильных и эффективных платформ для обучения AI, что поднимет область искусственного интеллекта на новые высоты.