Большие языковые модели, такие как ChatGPT и Llama-2, известны своими значительными требованиями к памяти и вычислительным ресурсам, что делает их эксплуатацию дорогостоящей. Сокращение даже небольшой части их размера может привести к значительной экономии.
Чтобы решить эту проблему, исследователи из ETH Цюрих представили инновационную версию трансформера — архитектуры глубокого обучения, лежащей в основе языковых моделей. Этот новый дизайн значительно уменьшает размер трансформера, сохраняя точность и увеличивая скорость вывода, что демонстрирует многообещающий подход к созданию более эффективных языковых моделей.
Понимание блоков трансформера
Языковые модели опираются на блоки трансформера, которые являются единообразными элементами, предназначенными для обработки последовательных данных, таких как текстовые фрагменты. Классический блок трансформера состоит из двух ключевых компонентов: механизма внимания и многослойного перцептрона (MLP). Механизм внимания выборочно выделяет части входных данных (например, слова в предложении), улавливая их контекст и значимость взаимосвязи. Эта способность позволяет модели понимать отношения между словами, даже если они далеки друг от друга в тексте.
После механизма внимания MLP, меньшая нейронная сеть, дополнительно уточняет выделенную информацию, преобразуя ее в более сложное представление, которое захватывает сложные взаимосвязи. Дополнительные компоненты, такие как остаточные связи и нормализационные слои, способствуют улучшению обучения и решению общих проблем, возникающих в глубоких нейронных сетях. Когда эти блоки трансформера складываются для формирования языковой модели, их способность распознавать сложные взаимосвязи возрастает, что позволяет выполнять продвинутые задачи современных языковых моделей. Несмотря на их революционное влияние, базовая структура блока трансформера в значительной мере осталась неизменной с момента своего появления.
Повышение эффективности трансформера
Согласно исследователям ETH Цюрих, «учитывая колоссальные затраты на обучение и развертывание больших моделей трансформеров в настоящее время, любые повышения эффективности в процессах тренировки и вывода для архитектуры трансформера представляют собой значительную потенциальную экономию». Они утверждают, что упрощение блока трансформера за счет удаления несущественных компонентов минимизирует количество параметров и увеличивает производительность модели.
Их эксперименты показали, что оптимизация блока трансформера не снижает скорость обучения или производительность. Традиционные модели трансформеров используют несколько голов внимания, каждая из которых имеет свои наборы ключей (K), запросов (Q) и значений (V), что позволяет сопоставлять отношения между токенами входных данных. Исследователи обнаружили, что удаление параметров V и связанного проекционного слоя не снижает их эффективность.
Кроме того, они убрали пропускающие связи, которые обычно предотвращают проблему «исчезающих градиентов», затрудняющую обучение в глубоких сетях.
Новый дизайн блока трансформера
Переработанный блок трансформера обрабатывает головы внимания и MLP одновременно, отходя от традиционной последовательной обработки. Чтобы компенсировать сокращение параметров, исследователи настроили другие не обучаемые параметры, уточнили методы обучения и внесли архитектурные изменения. Эти нововведения в совокупности сохраняют возможности обучения модели, несмотря на её более легкую структуру.
Тестирование улучшенного блока трансформера
Команда ETH Цюрих оценила свой компактный блок трансформера на различных глубинах языковой модели. Им удалось добиться уменьшения размера традиционного трансформера примерно на 16% без потери точности, а также обеспечить более быструю скорость вывода. Например, применение этой архитектуры к большой модели, такой как GPT-3 с 175 миллиардами параметров, может сэкономить около 50 ГБ памяти.
«Наши упрощенные модели не только обучаются быстрее, но и лучше используют дополнительную мощность, обеспечиваемую большей глубиной», — отметили исследователи. Хотя этот метод показал свою эффективность на меньшем масштабе, его применение к более крупным моделям еще предстоит изучить. Потенциал для дальнейших улучшений, таких как настройка процессоров ИИ для этой оптимизированной архитектуры, может значительно усилить его влияние.
Исследователи утверждают: «Мы верим, что наша работа может привести к тому, что в практике будут приняты более простые архитектуры, что поможет преодолеть разрыв между теорией и практикой в глубоких обучениях и сократить затраты, связанные с большими моделями трансформеров».