Apple представила ‘MGIE’: революционную модель ИИ, преобразующую редактирование изображений на основе инструкций.

Apple представила революционную открытую модель ИИ под названием «MGIE» (MLLM-Guided Image Editing), предназначенную для редактирования изображений на основе естественных языковых инструкций. Используя многомодальные большие языковые модели (MLLM), MGIE интерпретирует команды пользователя и выполняет точные изменения на уровне пикселей. Модель отлично справляется с различными задачами редактирования, включая настройки в стиле Photoshop, глобальную оптимизацию и локальные изменения.

Эта инновационная модель появилась в результате сотрудничества Apple с исследователями из Университета Калифорнии в Санта-Барбаре и была представлена на Международной конференции по обучению представлениям (ICLR) 2024, ведущем форуме по исследованиям в области ИИ. В научной работе демонстрируется эффективность MGIE в повышении автоматических метрик и оценок от пользователей, обеспечивая при этом конкурентоспособную скорость вывода.

Как работает MGIE?

MGIE использует возможности MLLM, способных понимать как текст, так и визуальные данные, для улучшения редактирования изображений на основе инструкций. Ранее многомодальные языковые модели не использовались в редакторских задачах, несмотря на их впечатляющие способности в области кросс-модального понимания.

MGIE интегрирует MLLM в процесс редактирования двумя основными способами:

1. Формулирование выразительных инструкций: MGIE преобразует запросы пользователя в краткие инструкции для редактирования. Например, ввод «сделай небо более синим» может превратиться в инструкцию «увеличить насыщенность области неба на 20%».

2. Генерация визуального представления: модель создает скрытое представление желаемого изменения, направляя настройки на уровне пикселей. MGIE использует новую схему обучения, оптимально сочетая вывод инструкций, визуальное представление и функции редактирования.

Что может сделать MGIE?

MGIE универсальна и способна справляться с различными задачами редактирования, от простых цветовых настроек до сложных манипуляций с объектами. Ее функции включают:

- Редактирование на основе выразительных инструкций: генерирует четкие указания, что улучшает качество редактирования и пользовательский опыт.

- Модификации в стиле Photoshop: выполняет распространенные редактирования, такие как обрезка, изменение размера, поворот и сложные настройки, включая замену фона и смешение объектов.

- Глобальная оптимизация фото: улучшает общее качество изображения, регулируя яркость, контрастность, резкость и применяя художественные эффекты.

- Локальное редактирование: позволяет редактировать конкретные области изображения (например, лица, одежду), меняя такие характеристики, как размер, цвет и текстура.

Как пользоваться MGIE?

MGIE доступна как открытый проект на GitHub, предлагая пользователям код, данные и предобученные модели. Демонстрационный блокнот иллюстрирует различные задачи редактирования, а пользователи могут экспериментировать с MGIE через онлайн-демо на Hugging Face Spaces.

MGIE разработана с учетом удобства использования, позволяя пользователям вводить команды на естественном языке для получения отредактированных изображений и подробных инструкций. Пользователи могут оставлять отзывы для уточнения правок или запрашивать альтернативы, что делает модель адаптивной для интеграции с другими приложениями, требующими функций редактирования изображений.

Почему MGIE важна?

MGIE является значительным шагом вперед в редактировании изображений на основе инструкций — ключевой области для повышения как ИИ, так и человеческого творчества. Она демонстрирует возможности использования MLLM в редактировании изображений, облегчая новые кросс-модальные взаимодействия.

Помимо исследовательского значения, MGIE служит практическим инструментом для различных приложений, помогая пользователям создавать и оптимизировать изображения в личных и профессиональных контекстах, включая социальные сети, электронную коммерцию и креативные искусства. Она дает пользователям возможность визуально выражать свои идеи и вдохновляет на творческие эксперименты.

Для Apple MGIE укрепляет растущее лидерство компании в области исследований и разработок ИИ, демонстрируя расширяющиеся возможности машинного обучения с акцентом на улучшение повседневных творческих задач. Хотя MGIE является заметным достижением, эксперты признают необходимость дальнейших улучшений многомодальных систем ИИ. Тем не менее, быстрое развитие в этой области указывает на то, что вспомогательный ИИ, такой как MGIE, может стать незаменимым инструментом для творчества в ближайшем будущем.

Most people like

Find AI tools in YBX