Революционная архитектура трансформеров: раскрытие потенциала мощных LLM без GPU

Home Новости ИИ Революционная архитектура трансформеров: раскрытие потенциала мощных LLM без GPU

Updated on июнь 13 2024

Модели языков без матричных умножений: прорыв в эффективности

Матричные умножения (MatMul) являются наиболее вычислительно интенсивными операциями в больших языковых моделях (LLM), использующих архитектуру Transformer. По мере увеличения размеров этих моделей затраты на операции MatMul значительно возрастают, что приводит к увеличению потребления памяти и задержки как во время обучения, так и приInference.

Исследователи из Университета Калифорнии в Санта-Крузе, Университета Сучжоу и Университета Калифорнии в Дэвисе разработали инновационную архитектуру, которая исключает матричные умножения из языковых моделей, обеспечивая при этом надежную производительность на большом масштабе.

Представление моделей языков без MatMul

В своей революционной работе исследователи представляют модели языков без MatMul, которые показывают производительность на уровне современных Transformers, но требуют гораздо меньше памяти во времяInference.

Понимание матричного умножения в глубоком обучении

Матричное умножение играет ключевую роль в глубоком обучении, позволяя комбинировать данные с весами в нейронных сетях, что способствует трансформации исходных данных для генерации предсказаний. GPU превосходно справляются с выполнением множества операций MatMul одновременно благодаря своей параллельной архитектуре, что является критически важным для эффективного обучения и развертывания сложных моделей.

Тем не менее, по мере роста LLM до сотен миллиардов параметров операции MatMul становятся узким местом, требуя огромные кластеры GPU для обучения иInference. Переход от MatMul может привести к значительной экономии памяти и вычислений. Однако предыдущие попытки заменить операции MatMul давали непоследовательные результаты, часто замедляя процессы из-за субоптимальной производительности на GPU.

Революция операций с тернарными весами

Исследователи предлагают захватывающую альтернативу: замену традиционных 16-битных весов с плавающей точкой в Transformers на 3-битные тернарные веса, которые могут представлять три состояния: -1, 0 и +1. Они вводят аддитивные операции взамен MatMul, что приводит к значительным сокращениям вычислительных затрат. Их модели используют "BitLinear слои" с этими тернарными весами.

"Ограничив веса множеством {−1, 0, +1} и применив дополнительные техники квантизации, мы заменили MatMul на операции сложения и отрицания," объясняют исследователи.

Инновационные архитектурные изменения

Архитектура кардинально отличается от традиционных Transformers, которые состоят из микшеров токенов и каналов. Микшер токенов, отвечающий за интеграцию информации по токенам последовательности с помощью механизмов самовнимания, переходит на линейный рекуррентный модуль с управляемыми весами (MLGRU) без MatMul. MLGRU обрабатывает токены, обновляя скрытые состояния простыми тернарными операциями, обходя дорогостоящие матричные умножения.

Кроме того, микшер каналов, который интегрирует информацию из различных признаков представления токена, использует модифицированный линейный модуль с управлением (GLU), который принимает тернарные веса. Эта корректировка минимизирует вычислительную сложность и потребление памяти, сохраняя эффективную интеграцию признаков.

"Комбинируя микшер токенов MLGRU с GLU микшером каналов с тернарными весами, наша архитектура полагается исключительно на сложение и поэлементное умножение," отмечают исследователи.

Оценка производительности моделей языков без MatMul

Исследователи сравнивают свои LMs без MatMul с продвинутой архитектурой Transformer++, используемой в Llama-2, в различных размерах моделей. Их выводы показывают, что LM без MatMul эффективно использует дополнительные вычислительные ресурсы для улучшения производительности по сравнению с Transformer++.

При оценке языковых задач 2,7B LM без MatMul превзошла производительность своего аналога Transformer++ по бенчмаркам таким как ARC-Challenge и OpenbookQA, одновременно достигая сопоставимых результатов в других задачах.

"Эти результаты свидетельствуют о том, что архитектуры без MatMul могут обеспечить сильную производительность без обучения на различных языковых задачах, включая вопросы и рассуждения," утверждают исследователи.

Низкое потребление памяти и задержки для LMs без MatMul становятся более заметными с увеличением размеров моделей. Например, 13B модель требует всего 4,19 ГБ памяти GPU при задержке 695,48 мс, в то время как Transformer++ требует 48,50 ГБ при задержке 3183,10 мс.

Оптимизированные реализации и направления будущего

Исследователи разработали оптимизированную реализацию для GPU и конфигурацию на базе FPGA для моделей языков без MatMul. С этой оптимизацией они достигли ускорения процесса обучения на 25,6% и сокращения использования памяти на 61,0% по сравнению с не оптимизированной основой.

"Эта работа превышает программные реализации легковесных моделей, демонстрируя, что масштабируемые и эффективные языковые модели могут значительно снизить вычислительные требования и энергопотребление," заключают исследователи.

Хотя ограничения ограничивали тестирование на моделях, превышающих 100 миллиардов параметров, исследователи надеются побудить учреждения инвестировать в легковесные модели, открывая путь к более доступным языковым моделям, независимым от высококлассных GPU. Исследователи сделали свой код и модели доступными для научного сообщества.

"Придавая приоритет разработке архитектур без MatMul, будущее LLM будет стремиться к большей доступности, эффективности и устойчивости," призывают исследователи.

Экс-инженеры Meta представили Jace — самодостаточного ИИ-агента.

LiveBench: Открытый Бенчмарк LLM с Тестовыми Данных Без Загрязнения и Объективным Оцениванием

Most people like

LTX Studio

726.9K

Революционизируйте своё повествование с нашей платформой для создания фильмов на основе ИИ, предназначенной для полного контроля над вашим творчеством.

Искусственный интеллект Text to Video

NoPlagio

173.7K

Представляем онлайн-платформу, специализированную на обнаружении и предотвращении плагиата. Наши продвинутые инструменты помогают пользователям выявлять и устранять случаи плагиата, гарантируя целостность и оригинальность их работы. Независимо от того, являетесь ли вы студентом, преподавателем или профессионалом, наш сервис создан для соблюдения академических стандартов и поощрения креативности. Присоединяйтесь к нам, чтобы защитить свой контент и поддерживать высокие стандарты оригинальности.

анализ на плагиат AI Checker Essay

Dappier

19.5K

В современном цифровом мире спрос на качественный контент достигает рекордных уровней, что делает лицензирование контента на основе ИИ незаменимым активом для бизнеса и создателей. Онлайн-рынки, посвященные лицензированию контента ИИ, предлагают упрощенную платформу для доступа, обмена и монетизации инновационного материала, созданного с помощью ИИ. Независимо от того, являетесь ли вы маркетологом, ищущим привлекательные визуальные элементы, или контент-креатором, нуждающимся в свежих идеях, эти рынки предлагают богатейший выбор ресурсов, направленных на улучшение ваших проектов и повышение продуктивности. Узнайте, как использование контента на основе ИИ может преобразить ваши творческие усилия и поднять ваш бренд в конкурентной онлайн-среде.

Лицензирование контента ИИ AI Chatbot

PicStudio.AI

33.1K

Преобразуйте свои фотографии в потрясающие профессиональные портреты всего за несколько минут с помощью передовых технологий искусственного интеллекта. Узнайте, насколько легко улучшить свои изображения и создать привлекательные визуалы, которые выделяются. Идеально подходит для социальных сетей, персонального брендинга или особых случаев; наше решение на основе ИИ обеспечивает выдающиеся результаты быстро и без усилий.

ИИ AI Art Generator

Find AI tools in YBX