Как снижение затрат на инференс LLM с помощью переноса внимания позволяет масштабироваться

Недавнее исследование, проведенное учеными из Университета Цинхуа, подчеркивает, как реорганизация вычислений и конфигураций оборудования для крупных языковых моделей (LLM) может значительно снизить затраты на вывод. Они представляют технику под названием «обработка внимания на вспомогательном оборудовании», которая использует экономичные графические процессоры для задач с высоким потреблением памяти, позволяя высокопроизводительным ускорителям сосредоточиться на вычислительно насыщенных операциях.

С учетом высокой стоимости, дефицита и большого спроса на высококлассные АИ-ускорители, обработка внимания представляет собой возможность для компаний оптимизировать использование аппаратных ресурсов при развертывании LLM в масштабе.

Два типа вычислений

Вывод LLM включает разнообразные операции, которые необходимо стратегически организовать для максимального использования доступной памяти и вычислительных мощностей. Эти операции можно разделить на два основных типа: вычислительно нагруженные и памятьемкие. Вычислительно нагруженные операции выигрывают от более быстрых ускорителей, таких как A100 и H100, тогда как памятьемкие операции, особенно механизм самообращения, активируемый каждым новым токеном, требуют обширной видеопамяти (VRAM).

Исследователи отмечают: «Эта нагрузка на память конфликтует с возможностями современных ускорителей, что приводит к перегрузке контроллеров памяти при простаивании вычислительных ядер». Этот дисбаланс ресурсов усугубляется с увеличением длины последовательности, например, во время длительных пользовательских запросов или бесед с моделью.

Инновационное решение: обработка внимания на вспомогательном оборудовании

Современные подходы обычно сосредоточены на масштабировании унифицированных архитектур высококлассных ускорителей для вывода. Компании часто делают значительные инвестиции в процессоры H100 для расширения своих возможностей вывода, что приводит к завышенным затратам и неоптимальному использованию оборудования.

Исследователи утверждают: «Уникальные требования фазы генерации LLM требуют гетерогенной архитектуры для повышения эффективности и снижения затрат».

В их исследовании предполагается, что различные типы ускорителей подходят для специфических аспектов вывода LLM. Например, графические процессоры потребительского класса являются экономичным вариантом для задач, ограниченных памятью, предоставляя в три раза большую емкость памяти и пропускную способность на доллар по сравнению с высококлассными моделями. Однако полное полагание на эти менее дорогостоящие варианты может быть неэффективным из-за их ограниченной вычислительной мощности.

Тем не менее, вычисления внимания обладают высокой параллелизацией и могут распределяться по нескольким бюджетным, памятьемким графическим процессорам.

Внедрение гетерогенной архитектуры

Техника обработки внимания включает создание двух отдельных пулов ускорителей: один специализирован на вычислительных возможностях, а другой оптимизирован для пропускной способности памяти. Таким образом, задачи внимания обрабатываются менее дорогими графическими процессорами, в то время как высококлассные ускорители выполняют другие операции.

Исследователи объясняют: «Эта гетерогенная архитектура позволяет создать сервисную систему, которая эффективно объединяет вычислительную мощность, емкость памяти и пропускную способность, улучшая вывод LLM без чрезмерных затрат». Это стратегическое согласование сильных сторон оборудования с операционными требованиями позволяет компаниям максимизировать свои бюджеты, инвестируя в сбалансированное сочетание ускорителей, оптимизированных для памяти и вычислений.

Решение архитектурных проблем

Исследование также оценивает сложности, связанные с этой гетерогенной архитектурой, особенно с пропускной способностью, необходимой для соединения двух пулов ускорителей. Результаты показывают, что стандартные системные шины, такие как PCIe 4.0, могут быть достаточными, а сетевые технологии, такие как 200Gb Infiniband и Ethernet, уже распространенные в центрах обработки данных ИИ, также подходят.

Использование современных технологий планирования и конвейеризации помогает снизить задержки, вызванные неуниформной архитектурой, обеспечивая одновременную работу ресурсов памяти и вычислений без задержек от последовательных вычислений.

Введение Lamina

Исследователи разработали Lamina, распределенную гетерогенную систему вывода LLM, использующую обработку внимания на вспомогательном оборудовании. Lamina использует потребительские GPU для хранения вычисленных значений внимания (кэш «KV») и выполнения операций внимания, в то время как высококлассные ускорители управляют параметрами модели и другими задачами вывода. Эти устройства могут функционировать в одной физической машине или распределяться по нескольким узлам.

Перемещая хранение кэша KV и вычисления внимания на памятьемкие GPU, Lamina способна обрабатывать партии, в 10,7–64 раза превышающие те, что обрабатываются vLLM, широко используемой платформой для службы LLM. Эта эффективность критична для оптимального использования дорогих ускорителей, оптимизированных для вычислений, особенно при развертывании LLM в больших масштабах.

Экспериментальные оценки показывают, что Lamina достигает уровней пропускной способности, которые в 1,48–12,1 раз выше по затратам по сравнению с существующими решениями для моделей 13B и 33B.

Поскольку LLM становятся мейнстримом, компаниям потребуются инновационные стратегии для экономического вывода и снижения капитальных затрат на ускорители — задачу, которую успешно решает обработка внимания. Хотя исследователи еще не выпустили код Lamina, основные принципы четко изложены, что, вероятно, привлечет быстрое внедрение со стороны сообщества с открытым исходным кодом.

Most people like

Find AI tools in YBX