Meta представила Chameleon: передовая многомодальная модель, революционизирующая интеграцию ИИ.

Home Новости ИИ Meta представила Chameleon: передовая многомодальная модель, революционизирующая интеграцию ИИ.

С учетом растущей конкуренции на рынке генеративного ИИ, Meta представила предварительный обзор своей инновационной мультимодальной модели Chameleon. В отличие от существующих моделей, которые комбинируют компоненты из разных модальностей, Chameleon разработан нативно для мультимодальности.

Хотя модели еще не доступны для общественности, предварительные эксперименты показывают, что Chameleon преуспевает в задачах, таких как аннотирование изображений и ответы на визуальные вопросы (VQA), оставаясь конкурентоспособным в текстовых задачах.

Архитектура Chameleon

Chameleon использует архитектуру «ранней фузии на основе токенов смешанных модальностей», что позволяет одновременно обрабатывать изображения, текст, код и другие данные. Преобразуя изображения в дискретные токены, аналогично тому, как языковые модели обрабатывают слова, Chameleon использует объединенный словарь, который интегрирует токены текста, кода и изображений. Это позволяет одной и той же трансформерной архитектуре бесшовно обрабатывать последовательности, содержащие как текст, так и изображения.

Исследователи отмечают, что наиболее сопоставимой моделью является Google Gemini, который также использует подход ранней фузии. Однако в отличие от Gemini, который полагается на отдельные декодеры изображений, Chameleon работает как модель полного цикла, обрабатывая и генерируя токены одновременно. Это единое пространство токенов позволяет Chameleon генерировать чередующиеся последовательности текста и изображений без компонентов, специфичных для модальности.

Преодоление вызовов ранней фузии

Несмотря на преимущества ранней фузии, этот подход ставит серьезные задачи в обучении модели и масштабировании. Для решения этих проблем исследовательская группа применила несколько архитектурных модификаций и методов обучения, подробно описанных в их исследовании.

Chameleon проходит двухступенчатый процесс обучения с использованием датасета из 4,4 триллиона токенов, который включает текст, пары изображений и текста, а также чередующиеся последовательности. Процесс обучения затрагивает версии Chameleon с 7 миллиардами и 34 миллиардами параметров, использованные на более чем 5 миллионах часов ресурсов Nvidia A100 80GB GPU.

Производительность Chameleon

Результаты, опубликованные в статье, показывают, что Chameleon демонстрирует выдающиеся результаты как в текстовых, так и в мультимодальных задачах. На бенчмарках для визуального вопросного ответа (VQA) и аннотирования изображений модель Chameleon-34B достигает передовых результатов, превосходя такие модели, как Flamingo, IDEFICS и Llava-1.5. Chameleon показывает высокую эффективность при значительно меньшем количестве примеров для обучения в контексте и меньших размерах модели как в предварительных, так и в дообученных оценках.

В условиях, когда мультимодальные модели могут испытывать трудности с задачами одно модальности, Chameleon сохраняет конкурентоспособные результаты на текстовых бенчмарках, сопоставляясь с моделями, такими как Mixtral 8x7B и Gemini-Pro в задачах на общее смысловое понимание и чтение.

Примечательно, что Chameleon позволяет осуществлять продвинутое смешанное многомодальное рассуждение и генерацию, особенно в запросах, требующих чередования текста и изображений. Человеческие оценки показывают, что пользователи предпочитают мультимодальные документы, созданные Chameleon.

Перспективы

Недавно OpenAI и Google запустили новые мультимодальные модели, хотя детали остаются скудными. Если Meta будет следовать своей политике прозрачности и выпустит веса Chameleon, это может стать открытой альтернативой приватным моделям.

Подход ранней фузии также открывает новые горизонты для дальнейших исследований, особенно с учетом интеграции большего количества модальностей. Например, стартапы в области робототехники уже исследуют, как сочетать языковые модели с системами управления роботами. Потенциальное влияние ранней фузии на базовые модели в робототехнике будет заслуживать внимания.

В заключение, Chameleon представляет собой значительный шаг вперед к созданию унифицированных базовых моделей, способных гибко рассуждать и генерировать мультимодальный контент.

Intently привлекла $3 миллиона для запуска инновационного инструмента сетевого взаимодействия на базе ИИ для основателей стартапов.

Передача контроля: как Copilot+ и ПК могут сделать предприятия зависимыми от Microsoft

Most people like

Decisions

72.1K

Откройте силу автоматизации и преобразите свою жизнь. Узнайте, как внедрение технологий может упорядочить ваши задачи, повысить продуктивность и привести к значительным изменениям как в личной, так и в профессиональной сферах.

Автоматизация No-Code&Low-Code

Liner

22.5M

LINER — это инновационное рабочее пространство на базе ИИ, разработанное для упрощения процесса поиска и изучения надежной информации. Благодаря интуитивно понятным функциям LINER улучшает ваш опыт исследований, позволяя быстрее получать ценныеInsights.

Искусственный интеллект рабочее пространство AI PDF

Podsqueeze

65.2K

Podsqueeze использует передовые технологии ИИ для создания увлекательного контента подкастов, включая подробные заметки к эпизодам, точные временные метки и информативные рассылки. Преобразуйте свой опыт подкастинга и увеличьте вовлеченность аудитории с нашими инновационными решениями.

Подсквиз AI Content Generator

AI Signals

106K

AI-Signals — это продвинутый индикатор торговли на основе ИИ, предназначенный для предоставления торговых сигналов в реальном времени для акций, валютного рынка и криптовалют. Благодаря передовым технологиям AI-Signals позволяет трейдерам принимать обоснованные инвестиционные решения с уверенностью.

Индикатор на базе ИИ AI Trading Bot Assistant

Find AI tools in YBX