С учетом растущей конкуренции на рынке генеративного ИИ, Meta представила предварительный обзор своей инновационной мультимодальной модели Chameleon. В отличие от существующих моделей, которые комбинируют компоненты из разных модальностей, Chameleon разработан нативно для мультимодальности.
Хотя модели еще не доступны для общественности, предварительные эксперименты показывают, что Chameleon преуспевает в задачах, таких как аннотирование изображений и ответы на визуальные вопросы (VQA), оставаясь конкурентоспособным в текстовых задачах.
Архитектура Chameleon
Chameleon использует архитектуру «ранней фузии на основе токенов смешанных модальностей», что позволяет одновременно обрабатывать изображения, текст, код и другие данные. Преобразуя изображения в дискретные токены, аналогично тому, как языковые модели обрабатывают слова, Chameleon использует объединенный словарь, который интегрирует токены текста, кода и изображений. Это позволяет одной и той же трансформерной архитектуре бесшовно обрабатывать последовательности, содержащие как текст, так и изображения.
Исследователи отмечают, что наиболее сопоставимой моделью является Google Gemini, который также использует подход ранней фузии. Однако в отличие от Gemini, который полагается на отдельные декодеры изображений, Chameleon работает как модель полного цикла, обрабатывая и генерируя токены одновременно. Это единое пространство токенов позволяет Chameleon генерировать чередующиеся последовательности текста и изображений без компонентов, специфичных для модальности.
Преодоление вызовов ранней фузии
Несмотря на преимущества ранней фузии, этот подход ставит серьезные задачи в обучении модели и масштабировании. Для решения этих проблем исследовательская группа применила несколько архитектурных модификаций и методов обучения, подробно описанных в их исследовании.
Chameleon проходит двухступенчатый процесс обучения с использованием датасета из 4,4 триллиона токенов, который включает текст, пары изображений и текста, а также чередующиеся последовательности. Процесс обучения затрагивает версии Chameleon с 7 миллиардами и 34 миллиардами параметров, использованные на более чем 5 миллионах часов ресурсов Nvidia A100 80GB GPU.
Производительность Chameleon
Результаты, опубликованные в статье, показывают, что Chameleon демонстрирует выдающиеся результаты как в текстовых, так и в мультимодальных задачах. На бенчмарках для визуального вопросного ответа (VQA) и аннотирования изображений модель Chameleon-34B достигает передовых результатов, превосходя такие модели, как Flamingo, IDEFICS и Llava-1.5. Chameleon показывает высокую эффективность при значительно меньшем количестве примеров для обучения в контексте и меньших размерах модели как в предварительных, так и в дообученных оценках.
В условиях, когда мультимодальные модели могут испытывать трудности с задачами одно модальности, Chameleon сохраняет конкурентоспособные результаты на текстовых бенчмарках, сопоставляясь с моделями, такими как Mixtral 8x7B и Gemini-Pro в задачах на общее смысловое понимание и чтение.
Примечательно, что Chameleon позволяет осуществлять продвинутое смешанное многомодальное рассуждение и генерацию, особенно в запросах, требующих чередования текста и изображений. Человеческие оценки показывают, что пользователи предпочитают мультимодальные документы, созданные Chameleon.
Перспективы
Недавно OpenAI и Google запустили новые мультимодальные модели, хотя детали остаются скудными. Если Meta будет следовать своей политике прозрачности и выпустит веса Chameleon, это может стать открытой альтернативой приватным моделям.
Подход ранней фузии также открывает новые горизонты для дальнейших исследований, особенно с учетом интеграции большего количества модальностей. Например, стартапы в области робототехники уже исследуют, как сочетать языковые модели с системами управления роботами. Потенциальное влияние ранней фузии на базовые модели в робототехнике будет заслуживать внимания.
В заключение, Chameleon представляет собой значительный шаг вперед к созданию унифицированных базовых моделей, способных гибко рассуждать и генерировать мультимодальный контент.