Meta представляет Megalodon LLM, новую модель на основе архитектуры Transformer.

Home Новости ИИ Meta представляет Megalodon LLM, новую модель на основе архитектуры Transformer.

Updated on апрель 18 2024

Новая модель машинного обучения, разработанная исследователями из Meta и Университета Южной Калифорнии, решает ключевые проблемы, связанные с архитектурой Transformer, сыгравшей важную роль в развитии крупных языковых моделей (LLM). Модель, названная Megalodon, значительно увеличивает контекстный обзор до миллионов токенов, минимизируя при этом использование памяти. Эксперименты показывают, что Megalodon превосходит сопоставимые модели Transformer в работе с объемными текстами, что делает ее потенциальным преемником архитектуры Transformer.

Понимание контекстных окон

Контекстное окно — это количество токенов, которые модель может обрабатывать одновременно. Широкое контекстное окно улучшает возможность LLM вести длительные беседы, анализировать большие документы и повышать эффективность обучения на основе контекста. Увеличение контекстного окна Transformer связано с значительными вычислительными затратами.

Transformer работает с «квадратичной сложностью», что означает, что удвоение размера входных данных в четыре раза увеличивает потребление памяти и время вычислений. Эта зависимость возникает из механизма самовнимания, в котором каждый элемент входной последовательности сравнивается с каждым другим.

Megalon Meta основан на методе Moving Average Equipped Gated Attention (MEGA), представленном в 2022 году, который оптимизирует механизм внимания и значительно снижает сложность модели. Это позволяет LLM обрабатывать более длинные входные данные без чрезмерных затрат памяти. MEGA использует экспоненциальное скользящее среднее (EMA) для балансировки важности местных и дальних связей токенов, обеспечивая согласованность при расширении контекста.

Ключевые инновации Megalodon

Megalodon улучшает MEGA благодаря нескольким архитектурным модификациям, которые соответствуют традиционному полному механизму внимания Transformers. Он использует «помимо внимания», разбивая входные последовательности на фиксированные блоки, что снижает сложность с квадратичной до линейной. Этот подход также способствует дополнительному параллелизму, ускоряя обучение модели.

Исследователи обучили версию Megalodon с 7 миллиардами параметров на 2 триллионах токенов, сравнив ее с моделями Llama-2-7B и 13B. Результаты показывают, что Megalodon-7B превосходит передовые Transformers, используемые для обучения Llama-2-7B, как по обучающей сложности, так и по различным задачам. Замечательно, что в некоторых случаях его производительность сопоставима с Llama-2-13B.

Хотя Megalodon поддерживает контекстное окно в 4000 токенов при несколько меньшей скорости, чем Llama-2, он демонстрирует значительное превосходство с длиной контекста в 32 000 токенов за счет улучшенной вычислительной эффективности. Первые экспериментальные результаты показывают, что Megalodon может эффективно моделировать последовательности неопределенной длины.

Исследовательская группа также наблюдает многообещающие результаты в экспериментах на меньшем масштабе с различными данными и планирует адаптировать Megalodon для мультимодальных приложений. Код Megalodon доступен на GitHub под лицензией MIT, что позволяет свободно адаптировать и использовать его в коммерческих целях.

Доминирование Transformers

Несмотря на продолжающиеся исследования альтернативных архитектур, таких как Mamba (коммерчески используемая AI21 Labs) и жидкие нейронные сети, разработанные в MIT, Transformers остаются ведущей архитектурой для языковых моделей. Meta продолжает внедрять инновации с моделями, такими как Megalodon, одновременно улучшая свой ассортимент Transformers, включая недавний релиз Llama-3.

Адаптация новых архитектур к обширной экосистеме инструментов и библиотек для Transformers представляет собой вызов. Эти инструменты упрощают обучение модели, настройку и оптимизацию для различных приложений и устройств, что дает Transformers постоянное преимущество.

Исследователи также модифицируют архитектуру Transformer, чтобы снизить ее вычислительные требования. Например, Infini-attention от Google стремится поддерживать неограниченные контекстные окна без увеличения потребности в памяти, текущие модели обрабатывают входные данные объемом в сотни тысяч токенов.

С быстрым развитием исследований ИИ важно помнить, что обстановка динамична. Когда Transformer был представлен в 2017 году, немногие могли предугадать его глубокое влияние. Будущие модели могут превзойти Transformer по возможностям.

Обзор Илона Маска «Не плохо» проливает свет на ИИ Meta Llama 3.

Microsoft представляет VASA-1: ИИ-фреймворк, который оживляет фотографии людей с помощью голоса и песен.

Most people like

Janitor AI Pro

15.4K

Погрузитесь в нецензурные, откровенные чаты с персонажами Janitor AI. Исследуйте захватывающие беседы, которые раздвигают границы креативности и открывают провокационную сторону искусственного интеллекта.

Не для работы AI Character

Wondershare UniConverter

928.1K

В сегодняшнем быстром цифровом мире наличие высокоскоростного видео-конвертера является необходимостью для всех, кто стремится улучшить свой мультимедийный опыт. Будь вы создателем контента, кинематографистом или обычным пользователем, этот мощный инструмент позволяет быстро конвертировать и сжимать видеофайлы, не жертвуя качеством. Откройте новые возможности для редактирования, обмена и наслаждения своими видео с помощью подходящего высокоскоростного конвертера под рукой.

видеоконвертер AI Video Editor

31Memorize

36.1K

Увеличьте свой английский словарный запас с помощью умных методов обучения Раскройте потенциал эффективного изучения английского словарного запаса с инновационными стратегиями, разработанными для повышения ваших языковых навыков. Используя умные методики, вы сможете эффективно и уверенно расширить свой словарный запас. Узнайте, как оптимизировать процесс обучения, осваивая нюансы английского языка.

Английская лексика AI Search Engine

Vidu Studio

153K

Преобразуйте свои текстовые подсказки в потрясающие videos с помощью ИИ генератора видео! Создавайте удивительный визуальный контент без усилий, используя мощь искусственного интеллекта, чтобы воплотить свои идеи в жизнь.

Генерация видео с помощью ИИ Text to Video

Find AI tools in YBX