Институт Аллена по искусственному интеллекту (Ai2) официально представил Molmo — набор современных открытых мультимодальных ИИ-моделей, которые превосходят ведущие проприетарные аналоги, включая GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 1.5 от Google по многим сторонним стандартам.
Модели Molmo способны анализировать изображения и файлы, подобно ведущим проприетарным базовым моделям. Ai2 утверждает, что Molmo использует "в 1000 раз меньше данных" по сравнению с проприетарными аналогами благодаря инновационным методам обучения, описанным в недавно опубликованном техническом отчете, возглавляемом Аали Фархадом.
Также Ai2 представил демонстрационное видео на YouTube, показывающее работу Molmo на смартфонах — пользователи могут просто сделать фото для немедленной обработки. Примеры функций включают подсчет людей, определение веганских блюд в меню, интерпретацию рекламных листовок, различение электронных музыкальных групп и преобразование рукописных заметок с белой доски в структурированные таблицы.
Этот релиз подчеркивает стремление Ai2 поддерживать открытые исследования, предлагая высокопроизводительные модели с доступными весами и данными для широкой аудитории и предприятий, ищущих настраиваемые решения.
Molmo следует за недавним введением OLMoE, экономически эффективной модели, использующей архитектуру "смешанной экспертизы".
Варианты моделей и производительность
Molmo включает четыре основные модели с различными размерами параметров и возможностями:
- Molmo-72B: Флагманская модель с 72 миллиардами параметров, основанная на Qwen2-72B от Alibaba Cloud.
- Molmo-7B-D: Демонстрационная модель, основанная на Qwen2-7B от Alibaba.
- Molmo-7B-O: Основана на OLMo-7B от Ai2.
- MolmoE-1B: Модель, ориентированная на эффективность, почти соответствующая производительности GPT-4V на академических стандартах и предпочтениях пользователей.
Эти модели демонстрируют впечатляющие возможности на различных сторонних оценках, последовательно превосходя многие проприетарные альтернативы. Все модели доступны под разрешительной лицензией Apache 2.0, что позволяет проводить обширные исследования и использовать их в коммерческих целях.
Molmo-72B выделяется в академических оценках, достигая наивысших результатов по 11 ключевым стандартам и занимая второе место по предпочтениям пользователей, уступая лишь GPT-4o.
Разработчик по машинному обучению Ваибхав Сривостав из Hugging Face отметил, что Molmo представляет собой надежную альтернативу закрытым системам, устанавливая новую планку для открытого мультимодального ИИ. Исследователь робототехники Google DeepMind Тед Сяо похвалил интеграцию Molmo данных о указателях, что стало важным шагом вперед для визуальной привязки в робототехнике, улучшая взаимодействие с физическими окружениями.
Передовая архитектура и обучение
Архитектура Molmo разработана для оптимальной эффективности и производительности. Каждая модель использует модель OpenAI ViT-L/14 336px CLIP в качестве кодировщика изображений, преобразуя мульти-слойные изображения в визуальные токены. Эти токены обрабатываются через многослойный перцептрон (MLP) перед интеграцией в языковую модель.
Процесс обучения состоит из двух ключевых этапов:
- Мультимодальное предобучение: Модели обучаются генерировать подписи к подробным описаниям изображений, предоставленным человеческими аннотаторами, с использованием качественного набора данных PixMo.
- Супервизированное дообучение: Модели дообучаются на разнообразном наборе данных, включая академические стандарты и недавно разработанные наборы, готовя их к сложным задачам, таким как чтение документов и визуальное мышление.
В отличие от многих современных моделей, Molmo не использует обучение с подкреплением на основе обратной связи от человека (RLHF), а применяет точно откалиброванный процесс обучения, который обновляет все параметры на основе состояний предобучения.
Производительность на стандартах
Модели Molmo демонстрируют отличные результаты на различных стандартах, значительно опережая проприетарные модели. Например, Molmo-72B набирает 96.3 на стандартной оценке DocVQA и 85.5 на TextVQA, превышая показатели Gemini 1.5 Pro и Claude 3.5 Sonnet. Она также превосходит на Ai2D, получая 96.3 — наивысший результат среди всех семейств моделей.
Molmo-72B особенно успешна в задачах визуальной привязки, достигая лучших результатов по RealWorldQA, что делает ее перспективным кандидатом для робототехники и сложных задач мультимодального рассуждения.
Открытый доступ и будущие разработки
Ai2 предоставил эти модели и наборы данных в открытом доступе на своем пространстве Hugging Face, обеспечивая совместимость с популярными ИИ-фреймворками, такими как Transformers. Эта инициатива является частью миссии Ai2 по содействию инновациям и сотрудничеству в сообществе ИИ.
В ближайшие месяцы Ai2 планирует выпустить дополнительные модели, коды обучения и расширенный технический отчет, что еще больше улучшит доступные ресурсы для исследователей. Для заинтересованных в возможностях Molmo доступна публичная демонстрация и контрольные точки моделей на официальной странице Molmo.