Частые ошибки в обучении Llama 3: влияет ли графика NVIDIA на производительность?

Meta недавно опубликовала обширный исследовательский отчет, в котором подробно описаны значительные проблемы, возникшие при обучении модели Llama 3 с 405 миллиардами параметров. Обучение проводилось на кластере, состоящем из 16,384 Nvidia H100 GPU, в течение 54 дней, во время которых система столкнулась с 419 неожиданными сбоями, что составляет в среднем один примерно каждые три часа. Замечено, что более половины таких сбоев были связаны с GPU и их высокоскоростной памятью (HBM3).

Запуск открытой модели Meta Llama 3.1 вызвал большой интерес, пользователи проявляют любопытство по различным вопросам, включая источники данных для обучения, долю синтетических данных, отсутствие архитектуры смешанной экспертизы (MoE), процессы постобучения и обучения с подкреплением с человеческой обратной связью (RLHF), а также методы оценки модели. Ожидания относительно будущего Llama модели высоки, особенно в контексте предстоящей Llama 4 и новых технологий-прокси.

При определении масштаба параметров LLM Meta учла несколько факторов, таких как законы масштабирования, продолжительность обучения и аппаратные ограничения. Исследование выявляет сбалансированный подход, который оптимизирует эффективность вывода с учетом законов масштабирования и общего количества обучающих токенов. С количеством параметров в 405 миллиардов, Llama 3.1 становится серьезным соперником, сопоставимым с GPT-4. Хотя конечная цель еще не достигнута, прогресс продолжается, и ожидается дальнейшее расширение будущих моделей.

Статья Chinchilla подчеркивает важность общего числа токенов обучающих данных, утверждая, что оптимальное соотношение между количеством параметров модели и токенами обучения критично в условиях ограниченной вычислительной мощности. Чтобы получить преимущество в эффективности вывода, Meta решила увеличить как количество обучающих токенов, так и продолжительность обучения, улучшая производительность для более широкого использования в сообществе с открытым исходным кодом.

Несмотря на архитектурные сходства с Llama 2, Llama 3 значительно улучшает масштаб и качество данных, расширив набор данных с 2 триллионов до 15 триллионов токенов. Текущая тенденция в разработке моделей сосредоточена на повышении оценочных показателей через улучшения после обучения, хотя оценка моделей остается нерешенной научной задачей. Риск переобучения вызывает опасения, потенциально препятствуя переносимости прироста производительности по схожим возможностям. Обучение модели Llama 4 началось в июне, вероятно, с фокусом на технологиях-прокси.

Частые сбои во время обучения Llama 3 были связаны с его огромными масштабами и высокой степенью синхронизации, где сбой одного GPU мог нарушить весь процесс обучения. Из 419 неожиданных сбоев около 58.7% были связаны с GPU, включая различные проблемы с NVLink. Учитывая, что GPU Nvidia H100 работают под высокой нагрузкой, неудивительно, что лишь три инцидента потребовали ручного вмешательства, в то время как остальные проблемы были решены автоматически.

Для оптимизации эффективного времени обучения команда Llama 3 внедрила автоматизированное обслуживание кластера, что обеспечивало более 90% эффективного использования времени обучения. Meta разработала несколько инструментов и стратегий оптимизации, включая минимизацию времени запуска задач и контрольных точек, использование встроенного рекордера полетов NCCL в PyTorch и выявление отстающих GPU. NCCLX сыграл ключевую роль в обнаружении и локализации сбоев, особенно в вопросах, связанных с NVLink и RoCE.

Во время обучения колебания в потреблении энергии тысячами GPU создавали значительные проблемы для электрических потребностей дата-центра. Meta должна гарантировать, что ее дата-центры могут поддерживать Llama 3 и даже более крупные будущие модели с достаточной мощностью. Экологические факторы также оказали влияние на производительность обучения; например, колебания температуры во время обучения Llama 3 привели к динамическим изменениям напряжения и частоты в GPU, что вызвало небольшие колебания в производительности.

С учетом среднего количества 7.76 сбоев каждые 24 часа на 16,384 H100 GPU суперкомпьютер xAI Memphis—оснащенный 100,000 H100 GPU—может столкнуться с еще более высоким уровнем отказов. Поскольку количество параметров AI моделей продолжает расти, спрос на вычислительные ресурсы также увеличивается. Несмотря на эти вызовы, Meta продемонстрировала надежную способность справляться с сбоями и повышать эффективность в крупномасштабном обучении AI, закладывая прочный фундамент для обучения еще более масштабных моделей в будущем.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles