Модель генерации изображений от Meta расширяется: теперь включает видеогенерацию и улучшенные функции редактирования изображений.

Meta значительно продвинулся в области генеративного ИИ с запуском обновленной модели создания изображений, Emu (Expressive Media Universe). Эта мощная модель теперь умеет генерировать видео из текста и обладает улучшенными возможностями для точного редактирования изображений.

Технология Emu была впервые представлена на мероприятии Meta Connect в сентябре и служит основой для множества динамичных генеративных ИИ-приложений на платформах социальных сетей Meta. Например, она улучшает инструменты редактирования изображений в Instagram, позволяя пользователям легко изменять визуальный стиль фотографий или фон. Emu интегрирован в Meta AI — новую платформу пользовательских помощников, работающую аналогично ChatGPT от OpenAI.

Новая модель Emu Video выделяется своей способностью создавать видео на основе текстов, изображений или их комбинаций. В отличие от предыдущих моделей, таких как Make-a-Video, которые использовали пять диффузионных моделей, Emu Video работает по более упрощенной схеме с использованием всего двух моделей. Процесс состоит из двух основных этапов: сначала создается изображение на основе текстового запроса, а затем формируется видео, руководствуясь как текстом, так и изображением. Эта упрощенная методология обеспечивает более эффективное обучение моделей генерации видео. В пользовательских исследованиях Emu Video обошел Make-a-Video, поскольку 96% участников предпочли его качество, а 85% согласились, что он более точно соответствовал их текстовым запросам. Кроме того, Emu Video может анимировать загруженные пользователями изображения в соответствии с конкретными текстовыми подсказками.

Еще одно интересное обновление — Emu Edit, который улучшает возможности редактирования изображений с помощью естественных языковых команд. Пользователи могут загрузить изображение и указать желаемые изменения. Например, они могут попросить удалить элемент, такой как пудель, и заменить его на другой объект, например, красную скамейку — просто набрав свой запрос. Хотя уже существуют инструменты для изменения изображений на основе ИИ, такие как ClipDrop на базе Stable Diffusion и функции редактирования в Runway, исследователи Meta отметили, что существующие методы часто приводят к чрезмерным изменениям или недостаточной производительности в задачах редактирования.

В блоге Meta подчеркивается, что цель не должна заключаться лишь в создании "правдоподобного" изображения, а в точном изменении только тех пикселей, которые относятся к конкретному запросу пользователя. Команда выяснила, что интеграция задач компьютерного зрения в качестве инструкций для генеративных моделей изображений обеспечивает непревзойденный контроль в процессе редактирования.

Для разработки Emu Edit Meta использовала обширный датасет из 10 миллионов синтезированных изображений, каждое из которых включает входное изображение, подробное описание задачи и целевое изображение. Это позволяет модели точно следовать инструкциям пользователя, сохраняя при этом целостность несвязанных элементов оригинала.

Все желающие могут ознакомиться с возможностями Emu Edit, просмотрев сгенерированные изображения на Hugging Face. Кроме того, Meta представила Emu Edit Test Set — новый эталон, разработанный для дальнейшего тестирования моделей редактирования изображений. Этот набор включает в себя семь различных задач редактирования изображений, таких как изменения фона и удаление объектов, открывая возможности для продвижения технологий точного редактирования изображений.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles