Apple представила революционную открытую модель ИИ под названием «MGIE» (MLLM-Guided Image Editing), предназначенную для редактирования изображений на основе естественных языковых инструкций. Используя многомодальные большие языковые модели (MLLM), MGIE интерпретирует команды пользователя и выполняет точные изменения на уровне пикселей. Модель отлично справляется с различными задачами редактирования, включая настройки в стиле Photoshop, глобальную оптимизацию и локальные изменения.
Эта инновационная модель появилась в результате сотрудничества Apple с исследователями из Университета Калифорнии в Санта-Барбаре и была представлена на Международной конференции по обучению представлениям (ICLR) 2024, ведущем форуме по исследованиям в области ИИ. В научной работе демонстрируется эффективность MGIE в повышении автоматических метрик и оценок от пользователей, обеспечивая при этом конкурентоспособную скорость вывода.
Как работает MGIE?
MGIE использует возможности MLLM, способных понимать как текст, так и визуальные данные, для улучшения редактирования изображений на основе инструкций. Ранее многомодальные языковые модели не использовались в редакторских задачах, несмотря на их впечатляющие способности в области кросс-модального понимания.
MGIE интегрирует MLLM в процесс редактирования двумя основными способами:
1. Формулирование выразительных инструкций: MGIE преобразует запросы пользователя в краткие инструкции для редактирования. Например, ввод «сделай небо более синим» может превратиться в инструкцию «увеличить насыщенность области неба на 20%».
2. Генерация визуального представления: модель создает скрытое представление желаемого изменения, направляя настройки на уровне пикселей. MGIE использует новую схему обучения, оптимально сочетая вывод инструкций, визуальное представление и функции редактирования.
Что может сделать MGIE?
MGIE универсальна и способна справляться с различными задачами редактирования, от простых цветовых настроек до сложных манипуляций с объектами. Ее функции включают:
- Редактирование на основе выразительных инструкций: генерирует четкие указания, что улучшает качество редактирования и пользовательский опыт.
- Модификации в стиле Photoshop: выполняет распространенные редактирования, такие как обрезка, изменение размера, поворот и сложные настройки, включая замену фона и смешение объектов.
- Глобальная оптимизация фото: улучшает общее качество изображения, регулируя яркость, контрастность, резкость и применяя художественные эффекты.
- Локальное редактирование: позволяет редактировать конкретные области изображения (например, лица, одежду), меняя такие характеристики, как размер, цвет и текстура.
Как пользоваться MGIE?
MGIE доступна как открытый проект на GitHub, предлагая пользователям код, данные и предобученные модели. Демонстрационный блокнот иллюстрирует различные задачи редактирования, а пользователи могут экспериментировать с MGIE через онлайн-демо на Hugging Face Spaces.
MGIE разработана с учетом удобства использования, позволяя пользователям вводить команды на естественном языке для получения отредактированных изображений и подробных инструкций. Пользователи могут оставлять отзывы для уточнения правок или запрашивать альтернативы, что делает модель адаптивной для интеграции с другими приложениями, требующими функций редактирования изображений.
Почему MGIE важна?
MGIE является значительным шагом вперед в редактировании изображений на основе инструкций — ключевой области для повышения как ИИ, так и человеческого творчества. Она демонстрирует возможности использования MLLM в редактировании изображений, облегчая новые кросс-модальные взаимодействия.
Помимо исследовательского значения, MGIE служит практическим инструментом для различных приложений, помогая пользователям создавать и оптимизировать изображения в личных и профессиональных контекстах, включая социальные сети, электронную коммерцию и креативные искусства. Она дает пользователям возможность визуально выражать свои идеи и вдохновляет на творческие эксперименты.
Для Apple MGIE укрепляет растущее лидерство компании в области исследований и разработок ИИ, демонстрируя расширяющиеся возможности машинного обучения с акцентом на улучшение повседневных творческих задач. Хотя MGIE является заметным достижением, эксперты признают необходимость дальнейших улучшений многомодальных систем ИИ. Тем не менее, быстрое развитие в этой области указывает на то, что вспомогательный ИИ, такой как MGIE, может стать незаменимым инструментом для творчества в ближайшем будущем.