Новая модель машинного обучения, разработанная исследователями из Meta и Университета Южной Калифорнии, решает ключевые проблемы, связанные с архитектурой Transformer, сыгравшей важную роль в развитии крупных языковых моделей (LLM). Модель, названная Megalodon, значительно увеличивает контекстный обзор до миллионов токенов, минимизируя при этом использование памяти. Эксперименты показывают, что Megalodon превосходит сопоставимые модели Transformer в работе с объемными текстами, что делает ее потенциальным преемником архитектуры Transformer.
Понимание контекстных окон
Контекстное окно — это количество токенов, которые модель может обрабатывать одновременно. Широкое контекстное окно улучшает возможность LLM вести длительные беседы, анализировать большие документы и повышать эффективность обучения на основе контекста. Увеличение контекстного окна Transformer связано с значительными вычислительными затратами.
Transformer работает с «квадратичной сложностью», что означает, что удвоение размера входных данных в четыре раза увеличивает потребление памяти и время вычислений. Эта зависимость возникает из механизма самовнимания, в котором каждый элемент входной последовательности сравнивается с каждым другим.
Megalon Meta основан на методе Moving Average Equipped Gated Attention (MEGA), представленном в 2022 году, который оптимизирует механизм внимания и значительно снижает сложность модели. Это позволяет LLM обрабатывать более длинные входные данные без чрезмерных затрат памяти. MEGA использует экспоненциальное скользящее среднее (EMA) для балансировки важности местных и дальних связей токенов, обеспечивая согласованность при расширении контекста.
Ключевые инновации Megalodon
Megalodon улучшает MEGA благодаря нескольким архитектурным модификациям, которые соответствуют традиционному полному механизму внимания Transformers. Он использует «помимо внимания», разбивая входные последовательности на фиксированные блоки, что снижает сложность с квадратичной до линейной. Этот подход также способствует дополнительному параллелизму, ускоряя обучение модели.
Исследователи обучили версию Megalodon с 7 миллиардами параметров на 2 триллионах токенов, сравнив ее с моделями Llama-2-7B и 13B. Результаты показывают, что Megalodon-7B превосходит передовые Transformers, используемые для обучения Llama-2-7B, как по обучающей сложности, так и по различным задачам. Замечательно, что в некоторых случаях его производительность сопоставима с Llama-2-13B.
Хотя Megalodon поддерживает контекстное окно в 4000 токенов при несколько меньшей скорости, чем Llama-2, он демонстрирует значительное превосходство с длиной контекста в 32 000 токенов за счет улучшенной вычислительной эффективности. Первые экспериментальные результаты показывают, что Megalodon может эффективно моделировать последовательности неопределенной длины.
Исследовательская группа также наблюдает многообещающие результаты в экспериментах на меньшем масштабе с различными данными и планирует адаптировать Megalodon для мультимодальных приложений. Код Megalodon доступен на GitHub под лицензией MIT, что позволяет свободно адаптировать и использовать его в коммерческих целях.
Доминирование Transformers
Несмотря на продолжающиеся исследования альтернативных архитектур, таких как Mamba (коммерчески используемая AI21 Labs) и жидкие нейронные сети, разработанные в MIT, Transformers остаются ведущей архитектурой для языковых моделей. Meta продолжает внедрять инновации с моделями, такими как Megalodon, одновременно улучшая свой ассортимент Transformers, включая недавний релиз Llama-3.
Адаптация новых архитектур к обширной экосистеме инструментов и библиотек для Transformers представляет собой вызов. Эти инструменты упрощают обучение модели, настройку и оптимизацию для различных приложений и устройств, что дает Transformers постоянное преимущество.
Исследователи также модифицируют архитектуру Transformer, чтобы снизить ее вычислительные требования. Например, Infini-attention от Google стремится поддерживать неограниченные контекстные окна без увеличения потребности в памяти, текущие модели обрабатывают входные данные объемом в сотни тысяч токенов.
С быстрым развитием исследований ИИ важно помнить, что обстановка динамична. Когда Transformer был представлен в 2017 году, немногие могли предугадать его глубокое влияние. Будущие модели могут превзойти Transformer по возможностям.