Революционная техника увеличивает скорость языковой модели в 300 раз

Исследователи из ETH Цюрих разработали революционную методику, значительно повышающую эффективность нейронных сетей. Модифицируя процесс вывода, они существенно снизили вычислительные затраты этих сетей.

В своих экспериментах с BERT, широко распространённой трансформерной моделью для различных языковых задач, ученые добились впечатляющего сокращения вычислений более чем на 99%. Этот передовой метод также можно применить к трансформерам, которые являются основой больших языковых моделей (LLM), таких как GPT-3, что открывает новые горизонты для ускоренной и более эффективной языковой обработки.

Понимание быстрых прямых сетей

Трансформеры, являющиеся основой LLM, состоят из нескольких слоев, включая слои внимания и прямой связи. Слои прямой связи, содержащие значительную часть параметров моделей, требуют много вычислительных ресурсов из-за необходимости вычислять произведение всех нейронов по входным измерениям.

Исследователи выяснили, что для каждого входа не требуется активировать все нейроны в слоях прямой связи во время вывода. Они предложили "быстрые прямые" слои (FFF) в качестве замены традиционным слоям прямой связи.

FFF использует условное умножение матриц (CMM), математическую операцию, заменяющую плотные матричные умножения (DMM) традиционных сетей прямой связи. В то время как DMM включает умножение всех входных параметров на все нейроны, CMM выборочно использует только подмножество нейронов для каждого входа, что упрощает обработку и снижает вычислительную нагрузку.

FastBERT: Первый шаг к революции в языковой обработке

Для проверки своей инновационной техники исследователи разработали FastBERT, модифицированную версию модели BERT от Google. FastBERT повышает производительность, заменяя стандартные слои прямой связи на быстрые, организуя нейроны в сбалансированную бинарную структуру, активирующую лишь одну ветвь в зависимости от конкретных входных данных.

Для оценки возможностей FastBERT команда подстроила различные модели на основе бенчмарка GLUE, предназначенного для оценки систем понимания естественного языка. Результаты оказались впечатляющими: FastBERT показал результаты, сопоставимые с базовыми моделями BERT сопоставимого размера и обучения. Варианты, подстроенные всего на один день на одном A6000 GPU, сохранили не менее 96,0% производительности BERT. Примечательно, что лучший вариант соответствовал производительности BERT, используя лишь 0,3% своих нейронов.

Учёные утверждают, что интеграция быстрых прямых сетей в LLM обладает огромным потенциалом для повышения скорости. Например, в GPT-3 каждый трансформерный слой содержит 49 152 нейрона; с FFF это можно оптимизировать до использования всего 16 нейронов во время вывода, что составляет около 0,03% нейронов GPT-3.

Решение задач оптимизации

Хотя плотное матричное умножение за годы значительно оптимизировано, условное матричное умножение остаётся в тени. Исследователи отметили: "Плотное матричное умножение — это самая оптимизированная математическая операция в истории вычислений." Текущие фреймворки глубокого обучения предлагают ограниченную поддержку CMM, в основном через высокоуровневые симуляции.

Для продвижения данного исследования команда разработала собственную реализацию операций CMM, что обеспечило впечатляющее 78-кратное ускорение во время вывода. Они уверены, что с улучшением аппаратного обеспечения и лучшими реализациями алгоритмов на низком уровне скорости могут превысить 300-кратное ускорение. Это значительно поможет в решении одной из актуальных задач языковых моделей: быстрейшей генерации токенов.

Заключение

Обещание теоретического ускорения в 341 раз для базовых моделей BERT подчеркивает трансформирующий потенциал их работы. Исследователи надеются вдохновить дальнейшую разработку условных примитивов нейронного исполнения в интерфейсах программирования устройств. Это исследование является важным шагом к преодолению ограничений памяти и вычислений больших языковых моделей, способствуя созданию более эффективных и устойчивых AI-систем.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles