Nous Research произвело фурор в этом месяце, выпустив открытую версию Llama 3.1, известную как Hermes 3. Эта небольшая исследовательская группа, занимающаяся разработкой «персонализированных, неограниченных AI» моделей, представила еще одно важное нововведение: DisTrO (Distributed Training Over-the-Internet). Этот новый оптимизатор значительно снижает объем передачи данных между графическими процессорами (GPU) в процессе обучения AI моделей.
DisTrO дает возможность людям и организациям по всему миру совместно обучать продвинутые AI модели через сети потребительского уровня, избавляя от необходимости доминирования крупных корпораций в процессе обучения. В недавней технической статье Nous Research показала, что DisTrO достигает впечатляющего увеличения эффективности в 857 раз по сравнению с популярным алгоритмом обучения All-Reduce. Он также сокращает объем передаваемых данных с 74.4 гигабайтов до всего 86.8 мегабайт за этап обучения, при этом производительность снижается лишь незначительно. Результаты представлены в таблице ниже из их исследования.
В конечном итоге, DisTrO может демократизировать доступ к обучению мощных AI моделей, позволяя большему числу людей исследовать и экспериментировать без корпоративных преград.
Проблема обучения AI: значительные требования к аппаратному обеспечению
Как уже обсуждалось, графические процессоры Nvidia пользуются высоким спросом в период бурного роста генеративного AI. Эти дорогие видеокарты обеспечивают необходимую параллельную вычислительную мощность для эффективного и быстрого обучения AI. Процесс обучения в значительной степени зависит от кластеров GPU, которые обмениваются данными, полученными из обучающих наборов.
Это «между-GPU взаимодействие» требует тщательно спроектированных кластеров GPU для минимизации задержек и максимизации пропускной способности. Поэтому такие компании, как Tesla, инвестируют в физические «суперкластеры», состоящие из тысяч GPU в больших помещениях.
Из-за этих строгих требований обучение генеративного AI, особенно самых сложных моделей, часто является капиталозатратным процессом, доступным в основном для хорошо профинансированных компаний, таких как Tesla, Meta, OpenAI, Microsoft, Google и Anthropic.
Каждая из этих организаций использует свои собственные методики обучения, но все они, как правило, применяют аналогичное оборудование и строго контролируют свои процессы обучения AI, что усложняет конкуренцию начинающим разработчикам или случайным участникам.
Однако Nous Research отличается тем, что выступает за доступную и мощную разработку AI, которую любой может настраивать без ограничений.
Что отличает DisTrO
Обычные методы обучения AI требуют синхронизации полных градиентов между несколькими GPU и зависят от соединений с высокой пропускной способностью. В отличие от них, DisTrO минимизирует нагрузку на коммуникацию на четыре-пять порядков величины.
Хотя конкретные алгоритмы, обеспечивающие эту эффективность, еще не были полностью раскрыты, авторы планируют предоставить больше деталей в ближайшее время. Снижение было достигнуто без применения амортизированной анализа или компромиссов по скорости сходимости, что позволяет обучать крупные модели даже через медленные интернет-соединения — 100 Мбит/с на загрузку и 10 Мбит/с на выгрузку, что широко доступно для потребителей.
Исследовательская группа протестировала DisTrO на Llama 2 от Meta, модели большого языка с 1.2 миллиарда параметров. Результаты продемонстрировали сопоставимую производительность обучения с традиционными методами, при этом значительно снизив объем передачи данных. Команда отмечает, что эта модель является наименьшей эффективной для DisTrO и по-прежнему не уверена, как снижение пропускной способности масштабируется с увеличением размеров модели.
Предварительные тесты указывают на потенциальное снижение пропускной способности на 1000x до 3000x в процессе предварительного обучения и до 10000x во время постобучения, без заметной деградации производительности. Также предполагается, что DisTrO может быть применен для обучения крупных диффузионных моделей, таких как Stable Diffusion и аналогичных сервисов генерации изображений.
Непрерывная необходимость в GPU
Ключевым моментом является то, что DisTrO по-прежнему требует использования GPU, но позволяет им работать в глобально распределённой манере, а не в одном помещении.
Специфически, оценка выполнялась с использованием 32 GPU H100 по стратегии Распределённого Данных Параллелизма (DDP), где каждый GPU содержал полную модель в виде оперативной памяти. Эта структура позволила провести строгие испытания возможностей DisTrO, доказав, что он может соответствовать скоростям сходимости AdamW+All-Reduce, значительно уменьшая при этом потребности в коммуникации.
DisTrO может изменить традиционные методы обучения, не жертвуя качеством моделей, предлагая масштабируемое решение для обучения в распределённых системах. Снижая требования к высокоскоростным соединениям, он позволяет совместное обучение моделей через децентрализованные сети, даже среди пользователей со стандартными интернет-сервисами.
Исследовательский отчет дополнительно рассматривает последствия DisTrO для федеративного обучения и децентрализованного обучения. Его эффективность может также помочь смягчить экологическое воздействие обучения AI, оптимизируя существующую инфраструктуру и снижая зависимость от крупных дата-центров.
Более того, эти новшества могут изменить парадигму крупномасштабного обучения моделей от централизованных, ресурсозатратных дата-центров к более распределённым, совместным методам, использующим разнообразные вычислительные ресурсы.
Что дальше для Nous Research и DisTrO?
Исследовательская группа приглашает других присоединиться к ним в изучении возможностей DisTrO. Предварительные отчеты и дополнительные материалы доступны на GitHub, и они активно ищут коллег для уточнения и расширения этой инновационной технологии.
Влиятельные личности в сфере AI, такие как @kimmonismus в X, похвалили это исследование как потенциально трансформирующее для области, заявив: «Это может изменить всё!»
С DisTrO Nous Research не только улучшает возможности обучения AI, но и способствует созданию более инклюзивной исследовательской экосистемы, способной открыть новые значительные достижения в области искусственного интеллекта.