Революционная архитектура трансформеров: раскрытие потенциала мощных LLM без GPU

Модели языков без матричных умножений: прорыв в эффективности

Матричные умножения (MatMul) являются наиболее вычислительно интенсивными операциями в больших языковых моделях (LLM), использующих архитектуру Transformer. По мере увеличения размеров этих моделей затраты на операции MatMul значительно возрастают, что приводит к увеличению потребления памяти и задержки как во время обучения, так и приInference.

Исследователи из Университета Калифорнии в Санта-Крузе, Университета Сучжоу и Университета Калифорнии в Дэвисе разработали инновационную архитектуру, которая исключает матричные умножения из языковых моделей, обеспечивая при этом надежную производительность на большом масштабе.

Представление моделей языков без MatMul

В своей революционной работе исследователи представляют модели языков без MatMul, которые показывают производительность на уровне современных Transformers, но требуют гораздо меньше памяти во времяInference.

Понимание матричного умножения в глубоком обучении

Матричное умножение играет ключевую роль в глубоком обучении, позволяя комбинировать данные с весами в нейронных сетях, что способствует трансформации исходных данных для генерации предсказаний. GPU превосходно справляются с выполнением множества операций MatMul одновременно благодаря своей параллельной архитектуре, что является критически важным для эффективного обучения и развертывания сложных моделей.

Тем не менее, по мере роста LLM до сотен миллиардов параметров операции MatMul становятся узким местом, требуя огромные кластеры GPU для обучения иInference. Переход от MatMul может привести к значительной экономии памяти и вычислений. Однако предыдущие попытки заменить операции MatMul давали непоследовательные результаты, часто замедляя процессы из-за субоптимальной производительности на GPU.

Революция операций с тернарными весами

Исследователи предлагают захватывающую альтернативу: замену традиционных 16-битных весов с плавающей точкой в Transformers на 3-битные тернарные веса, которые могут представлять три состояния: -1, 0 и +1. Они вводят аддитивные операции взамен MatMul, что приводит к значительным сокращениям вычислительных затрат. Их модели используют "BitLinear слои" с этими тернарными весами.

"Ограничив веса множеством {−1, 0, +1} и применив дополнительные техники квантизации, мы заменили MatMul на операции сложения и отрицания," объясняют исследователи.

Инновационные архитектурные изменения

Архитектура кардинально отличается от традиционных Transformers, которые состоят из микшеров токенов и каналов. Микшер токенов, отвечающий за интеграцию информации по токенам последовательности с помощью механизмов самовнимания, переходит на линейный рекуррентный модуль с управляемыми весами (MLGRU) без MatMul. MLGRU обрабатывает токены, обновляя скрытые состояния простыми тернарными операциями, обходя дорогостоящие матричные умножения.

Кроме того, микшер каналов, который интегрирует информацию из различных признаков представления токена, использует модифицированный линейный модуль с управлением (GLU), который принимает тернарные веса. Эта корректировка минимизирует вычислительную сложность и потребление памяти, сохраняя эффективную интеграцию признаков.

"Комбинируя микшер токенов MLGRU с GLU микшером каналов с тернарными весами, наша архитектура полагается исключительно на сложение и поэлементное умножение," отмечают исследователи.

Оценка производительности моделей языков без MatMul

Исследователи сравнивают свои LMs без MatMul с продвинутой архитектурой Transformer++, используемой в Llama-2, в различных размерах моделей. Их выводы показывают, что LM без MatMul эффективно использует дополнительные вычислительные ресурсы для улучшения производительности по сравнению с Transformer++.

При оценке языковых задач 2,7B LM без MatMul превзошла производительность своего аналога Transformer++ по бенчмаркам таким как ARC-Challenge и OpenbookQA, одновременно достигая сопоставимых результатов в других задачах.

"Эти результаты свидетельствуют о том, что архитектуры без MatMul могут обеспечить сильную производительность без обучения на различных языковых задачах, включая вопросы и рассуждения," утверждают исследователи.

Низкое потребление памяти и задержки для LMs без MatMul становятся более заметными с увеличением размеров моделей. Например, 13B модель требует всего 4,19 ГБ памяти GPU при задержке 695,48 мс, в то время как Transformer++ требует 48,50 ГБ при задержке 3183,10 мс.

Оптимизированные реализации и направления будущего

Исследователи разработали оптимизированную реализацию для GPU и конфигурацию на базе FPGA для моделей языков без MatMul. С этой оптимизацией они достигли ускорения процесса обучения на 25,6% и сокращения использования памяти на 61,0% по сравнению с не оптимизированной основой.

"Эта работа превышает программные реализации легковесных моделей, демонстрируя, что масштабируемые и эффективные языковые модели могут значительно снизить вычислительные требования и энергопотребление," заключают исследователи.

Хотя ограничения ограничивали тестирование на моделях, превышающих 100 миллиардов параметров, исследователи надеются побудить учреждения инвестировать в легковесные модели, открывая путь к более доступным языковым моделям, независимым от высококлассных GPU. Исследователи сделали свой код и модели доступными для научного сообщества.

"Придавая приоритет разработке архитектур без MatMul, будущее LLM будет стремиться к большей доступности, эффективности и устойчивости," призывают исследователи.

Most people like

Find AI tools in YBX