Meta представила Chameleon: передовая многомодальная модель, революционизирующая интеграцию ИИ.

С учетом растущей конкуренции на рынке генеративного ИИ, Meta представила предварительный обзор своей инновационной мультимодальной модели Chameleon. В отличие от существующих моделей, которые комбинируют компоненты из разных модальностей, Chameleon разработан нативно для мультимодальности.

Хотя модели еще не доступны для общественности, предварительные эксперименты показывают, что Chameleon преуспевает в задачах, таких как аннотирование изображений и ответы на визуальные вопросы (VQA), оставаясь конкурентоспособным в текстовых задачах.

Архитектура Chameleon

Chameleon использует архитектуру «ранней фузии на основе токенов смешанных модальностей», что позволяет одновременно обрабатывать изображения, текст, код и другие данные. Преобразуя изображения в дискретные токены, аналогично тому, как языковые модели обрабатывают слова, Chameleon использует объединенный словарь, который интегрирует токены текста, кода и изображений. Это позволяет одной и той же трансформерной архитектуре бесшовно обрабатывать последовательности, содержащие как текст, так и изображения.

Исследователи отмечают, что наиболее сопоставимой моделью является Google Gemini, который также использует подход ранней фузии. Однако в отличие от Gemini, который полагается на отдельные декодеры изображений, Chameleon работает как модель полного цикла, обрабатывая и генерируя токены одновременно. Это единое пространство токенов позволяет Chameleon генерировать чередующиеся последовательности текста и изображений без компонентов, специфичных для модальности.

Преодоление вызовов ранней фузии

Несмотря на преимущества ранней фузии, этот подход ставит серьезные задачи в обучении модели и масштабировании. Для решения этих проблем исследовательская группа применила несколько архитектурных модификаций и методов обучения, подробно описанных в их исследовании.

Chameleon проходит двухступенчатый процесс обучения с использованием датасета из 4,4 триллиона токенов, который включает текст, пары изображений и текста, а также чередующиеся последовательности. Процесс обучения затрагивает версии Chameleon с 7 миллиардами и 34 миллиардами параметров, использованные на более чем 5 миллионах часов ресурсов Nvidia A100 80GB GPU.

Производительность Chameleon

Результаты, опубликованные в статье, показывают, что Chameleon демонстрирует выдающиеся результаты как в текстовых, так и в мультимодальных задачах. На бенчмарках для визуального вопросного ответа (VQA) и аннотирования изображений модель Chameleon-34B достигает передовых результатов, превосходя такие модели, как Flamingo, IDEFICS и Llava-1.5. Chameleon показывает высокую эффективность при значительно меньшем количестве примеров для обучения в контексте и меньших размерах модели как в предварительных, так и в дообученных оценках.

В условиях, когда мультимодальные модели могут испытывать трудности с задачами одно модальности, Chameleon сохраняет конкурентоспособные результаты на текстовых бенчмарках, сопоставляясь с моделями, такими как Mixtral 8x7B и Gemini-Pro в задачах на общее смысловое понимание и чтение.

Примечательно, что Chameleon позволяет осуществлять продвинутое смешанное многомодальное рассуждение и генерацию, особенно в запросах, требующих чередования текста и изображений. Человеческие оценки показывают, что пользователи предпочитают мультимодальные документы, созданные Chameleon.

Перспективы

Недавно OpenAI и Google запустили новые мультимодальные модели, хотя детали остаются скудными. Если Meta будет следовать своей политике прозрачности и выпустит веса Chameleon, это может стать открытой альтернативой приватным моделям.

Подход ранней фузии также открывает новые горизонты для дальнейших исследований, особенно с учетом интеграции большего количества модальностей. Например, стартапы в области робототехники уже исследуют, как сочетать языковые модели с системами управления роботами. Потенциальное влияние ранней фузии на базовые модели в робототехнике будет заслуживать внимания.

В заключение, Chameleon представляет собой значительный шаг вперед к созданию унифицированных базовых моделей, способных гибко рассуждать и генерировать мультимодальный контент.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles