В 2023 году процесс обучения моделей ИИ значительно ускорился, что подтверждает новый бенчмарк MLPerf Training 3.1. Темпы инноваций в сфере генеративного ИИ впечатляют: быстрая подготовка моделей – ключевой фактор этого прогресса. Бенчмарк MLCommons MLPerf отслеживает и quantifies эту эффективность обучения. MLCommons – это открытый инженерный консорциум, стремящийся улучшить бенчмарки, наборы данных и лучшие практики в области машинного обучения (ML), чтобы способствовать развитию ИИ.
В бенчмарке MLPerf Training 3.1 участвовали 19 компаний, и было получено более 200 результатов производительности. В этом раунде были представлены бенчмарки для обучения крупных языковых моделей (LLM), включая GPT-3, а также введен новый бенчмарк для открытой модели генерации изображений на основе текста Stable Diffusion. «С более чем 200 результатами производительности мы наблюдаем значительные улучшения от 50% до почти 3x», – сказал исполнительный директор MLCommons Дэвид Кантер на недавней пресс-конференции.
Обучение LLM опережает закон Мура
Одним из самых заметных аспектов бенчмарка MLPerf Training 3.1 являются значительные улучшения в производительности при обучении LLM. С тех пор как в июне впервые было включено обучение LLM, бенчмарки MLPerf 3.1 показывают почти 3x увеличение производительности. «Сравнивая самый быстрый бенчмарк LLM из первого раунда в июне с последним, мы достигли увеличения производительности примерно на 2.8x», – отметил Кантер. «Хотя я не могу предсказать будущие раунды, это улучшение впечатляет и демонстрирует невероятные возможности».
Кантер считает, что недавние достижения в производительности для обучения ИИ превосходят прогнозы закона Мура, который предсказывает удвоение вычислительной мощности каждые пару лет. Он добавил, что ИТ-сектор масштабирует аппаратные архитектуры и программное обеспечение с темпами, превышающими эти прогнозы. «MLPerf служит барометром для оценки прогресса в отрасли», – добавил Кантер.
Значительные достижения лидеров отрасли
Intel, Nvidia и Google продемонстрировали заметные достижения в результатах LLM обучения в бенчмарке MLPerf Training 3.1. Intel сообщает, что его ускоритель Habana Gaudi 2 достиг прироста скорости обучения на 103% по сравнению с результатами июня, используя такие методы, как 8-битные плавающие типы данных (FP8). «Мы включили FP8 с тем же программным обеспечением, что улучшило наши результаты на имеющемся оборудовании», – сказал Итай Хубара, старший исследователь Intel. «Мы сдержали обещание, данное в последней подаче».
Cloud TPU v5e Google, запущенный 29 августа, также показал улучшения в обучении, аналогично используя FP8 для оптимизации производительности. Вайбхав Сингх, менеджер продукта по облачным ускорителям в Google, рассказал о возможностях масштабирования, достигнутых с помощью технологии Cloud TPU multislice. «Cloud TPU multislice эффективно масштабируется по всей сети дата-центра», – объяснил Сингх. «С этой технологией мы достигли исключительной производительности, масштабируясь до 1,024 узлов с использованием 4,096 чипов TPU v5e».
Суперкопьютер Nvidia EOS повышает эффективность обучения LLM
Nvidia максимизировала свою эффективность обучения LLM с помощью суперкомпьютера EOS, о котором впервые заговорили в 2022 году. Результаты показали увеличение скорости обучения моделей GPT-3 на 2.8x по сравнению с июньскими бенчмарками. Дэйв Сальваторе, директор по продуктам ускоренных вычислений в Nvidia, подчеркнул, что EOS оснащен 10,752 GPU, подключенными через Nvidia Quantum-2 InfiniBand, работающими на скорости 400 гигабит в секунду, и 860 терабайтами памяти HBM3. «Показатели скорости, которые мы наблюдаем, крайне впечатляющие», – заметил Сальваторе. «В терминах вычислительной мощности ИИ мы превышаем 40 эксафлопс, что замечательно».
В целом, бенчмарк MLPerf Training 3.1 подчеркивает быстрые достижения в области обучения ИИ, знаменуя важный момент в эволюции искусственного интеллекта.