Частые ошибки в обучении Llama 3: влияет ли графика NVIDIA на производительность?

Home Аппаратное обеспечение Частые ошибки в обучении Llama 3: влияет ли графика NVIDIA на производительность?

Updated on июль 29 2024

Meta недавно опубликовала обширный исследовательский отчет, в котором подробно описаны значительные проблемы, возникшие при обучении модели Llama 3 с 405 миллиардами параметров. Обучение проводилось на кластере, состоящем из 16,384 Nvidia H100 GPU, в течение 54 дней, во время которых система столкнулась с 419 неожиданными сбоями, что составляет в среднем один примерно каждые три часа. Замечено, что более половины таких сбоев были связаны с GPU и их высокоскоростной памятью (HBM3).

Запуск открытой модели Meta Llama 3.1 вызвал большой интерес, пользователи проявляют любопытство по различным вопросам, включая источники данных для обучения, долю синтетических данных, отсутствие архитектуры смешанной экспертизы (MoE), процессы постобучения и обучения с подкреплением с человеческой обратной связью (RLHF), а также методы оценки модели. Ожидания относительно будущего Llama модели высоки, особенно в контексте предстоящей Llama 4 и новых технологий-прокси.

При определении масштаба параметров LLM Meta учла несколько факторов, таких как законы масштабирования, продолжительность обучения и аппаратные ограничения. Исследование выявляет сбалансированный подход, который оптимизирует эффективность вывода с учетом законов масштабирования и общего количества обучающих токенов. С количеством параметров в 405 миллиардов, Llama 3.1 становится серьезным соперником, сопоставимым с GPT-4. Хотя конечная цель еще не достигнута, прогресс продолжается, и ожидается дальнейшее расширение будущих моделей.

Статья Chinchilla подчеркивает важность общего числа токенов обучающих данных, утверждая, что оптимальное соотношение между количеством параметров модели и токенами обучения критично в условиях ограниченной вычислительной мощности. Чтобы получить преимущество в эффективности вывода, Meta решила увеличить как количество обучающих токенов, так и продолжительность обучения, улучшая производительность для более широкого использования в сообществе с открытым исходным кодом.

Несмотря на архитектурные сходства с Llama 2, Llama 3 значительно улучшает масштаб и качество данных, расширив набор данных с 2 триллионов до 15 триллионов токенов. Текущая тенденция в разработке моделей сосредоточена на повышении оценочных показателей через улучшения после обучения, хотя оценка моделей остается нерешенной научной задачей. Риск переобучения вызывает опасения, потенциально препятствуя переносимости прироста производительности по схожим возможностям. Обучение модели Llama 4 началось в июне, вероятно, с фокусом на технологиях-прокси.

Частые сбои во время обучения Llama 3 были связаны с его огромными масштабами и высокой степенью синхронизации, где сбой одного GPU мог нарушить весь процесс обучения. Из 419 неожиданных сбоев около 58.7% были связаны с GPU, включая различные проблемы с NVLink. Учитывая, что GPU Nvidia H100 работают под высокой нагрузкой, неудивительно, что лишь три инцидента потребовали ручного вмешательства, в то время как остальные проблемы были решены автоматически.

Для оптимизации эффективного времени обучения команда Llama 3 внедрила автоматизированное обслуживание кластера, что обеспечивало более 90% эффективного использования времени обучения. Meta разработала несколько инструментов и стратегий оптимизации, включая минимизацию времени запуска задач и контрольных точек, использование встроенного рекордера полетов NCCL в PyTorch и выявление отстающих GPU. NCCLX сыграл ключевую роль в обнаружении и локализации сбоев, особенно в вопросах, связанных с NVLink и RoCE.

Во время обучения колебания в потреблении энергии тысячами GPU создавали значительные проблемы для электрических потребностей дата-центра. Meta должна гарантировать, что ее дата-центры могут поддерживать Llama 3 и даже более крупные будущие модели с достаточной мощностью. Экологические факторы также оказали влияние на производительность обучения; например, колебания температуры во время обучения Llama 3 привели к динамическим изменениям напряжения и частоты в GPU, что вызвало небольшие колебания в производительности.

С учетом среднего количества 7.76 сбоев каждые 24 часа на 16,384 H100 GPU суперкомпьютер xAI Memphis—оснащенный 100,000 H100 GPU—может столкнуться с еще более высоким уровнем отказов. Поскольку количество параметров AI моделей продолжает расти, спрос на вычислительные ресурсы также увеличивается. Несмотря на эти вызовы, Meta продемонстрировала надежную способность справляться с сбоями и повышать эффективность в крупномасштабном обучении AI, закладывая прочный фундамент для обучения еще более масштабных моделей в будущем.

Искусственный интеллект Apple блестит в бета-версии iOS 18: почему Apple отказывается от NVIDIA в пользу TPU от Google?

Частые ошибки обучения Llama 3: Анализ «сбоев» на кластере из 16384 GPU H100 каждые 3 часа.

Most people like

Leetcode Wizard

14.3K

Откройте для себя мощное настольное приложение, разработанное для успешного решения задач Leetcode. Наше инновационное программное обеспечение предлагает индивидуальные решения и полезные советы, помогая вам улучшить навыки программирования и повысить уверенность в своих силах.

Леткод AI Interview Assistant

ApiX-Drive

218.4K

Легко автоматизируйте задачи без навыков программирования! Узнайте, как оптимизировать свои рабочие процессы и повысить продуктивность с помощью простых инструментов автоматизации, предназначенных для всех. Откройте для себя преимущества решений без кода, чтобы сэкономить время и повысить эффективность в вашей повседневной деятельности.

интеграция AI Analytics Assistant

UTOPIA

7.6K

Узнайте о влиянии ИИ и разрушительных технологий на креативную индустрию.

Искусственный интеллект AI Tools Directory

ShortsFaceless

22.4K

Легко создавайте увлекательные AI-ролики Откройте потенциал AI-генерируемых роликов без усилий! Превратите свои креативные идеи в захватывающий контент всего за несколько кликов. Наша удобная платформа позволяет вам использовать мощь искусственного интеллекта для создания высококачественных короткометражек, которые заинтересуют вашу аудиторию. Наслаждайтесь упрощённым процессом, который улучшает ваше повествование и экономит ваше время и усилия. Начните создавать уникальные AI-ролики уже сегодня!

Генерация видео с помощью ИИ Other

Find AI tools in YBX