Модель генерации изображений от Meta расширяется: теперь включает видеогенерацию и улучшенные функции редактирования изображений.

Home Новости ИИ Модель генерации изображений от Meta расширяется: теперь включает видеогенерацию и улучшенные функции редактирования изображений.

Updated on октябрь 25 2024

Meta значительно продвинулся в области генеративного ИИ с запуском обновленной модели создания изображений, Emu (Expressive Media Universe). Эта мощная модель теперь умеет генерировать видео из текста и обладает улучшенными возможностями для точного редактирования изображений.

Технология Emu была впервые представлена на мероприятии Meta Connect в сентябре и служит основой для множества динамичных генеративных ИИ-приложений на платформах социальных сетей Meta. Например, она улучшает инструменты редактирования изображений в Instagram, позволяя пользователям легко изменять визуальный стиль фотографий или фон. Emu интегрирован в Meta AI — новую платформу пользовательских помощников, работающую аналогично ChatGPT от OpenAI.

Новая модель Emu Video выделяется своей способностью создавать видео на основе текстов, изображений или их комбинаций. В отличие от предыдущих моделей, таких как Make-a-Video, которые использовали пять диффузионных моделей, Emu Video работает по более упрощенной схеме с использованием всего двух моделей. Процесс состоит из двух основных этапов: сначала создается изображение на основе текстового запроса, а затем формируется видео, руководствуясь как текстом, так и изображением. Эта упрощенная методология обеспечивает более эффективное обучение моделей генерации видео. В пользовательских исследованиях Emu Video обошел Make-a-Video, поскольку 96% участников предпочли его качество, а 85% согласились, что он более точно соответствовал их текстовым запросам. Кроме того, Emu Video может анимировать загруженные пользователями изображения в соответствии с конкретными текстовыми подсказками.

Еще одно интересное обновление — Emu Edit, который улучшает возможности редактирования изображений с помощью естественных языковых команд. Пользователи могут загрузить изображение и указать желаемые изменения. Например, они могут попросить удалить элемент, такой как пудель, и заменить его на другой объект, например, красную скамейку — просто набрав свой запрос. Хотя уже существуют инструменты для изменения изображений на основе ИИ, такие как ClipDrop на базе Stable Diffusion и функции редактирования в Runway, исследователи Meta отметили, что существующие методы часто приводят к чрезмерным изменениям или недостаточной производительности в задачах редактирования.

В блоге Meta подчеркивается, что цель не должна заключаться лишь в создании "правдоподобного" изображения, а в точном изменении только тех пикселей, которые относятся к конкретному запросу пользователя. Команда выяснила, что интеграция задач компьютерного зрения в качестве инструкций для генеративных моделей изображений обеспечивает непревзойденный контроль в процессе редактирования.

Для разработки Emu Edit Meta использовала обширный датасет из 10 миллионов синтезированных изображений, каждое из которых включает входное изображение, подробное описание задачи и целевое изображение. Это позволяет модели точно следовать инструкциям пользователя, сохраняя при этом целостность несвязанных элементов оригинала.

Все желающие могут ознакомиться с возможностями Emu Edit, просмотрев сгенерированные изображения на Hugging Face. Кроме того, Meta представила Emu Edit Test Set — новый эталон, разработанный для дальнейшего тестирования моделей редактирования изображений. Этот набор включает в себя семь различных задач редактирования изображений, таких как изменения фона и удаление объектов, открывая возможности для продвижения технологий точного редактирования изображений.

Искусственный интеллект быстро выявляет редкие болезни, используя минимальные ресурсы данных.

OpenAI уволило CEO Сэма Олтмана: что это значит для будущего ИИ

Most people like

PeopleAI

Повышайте свой личный бренд и улучшайте свою онлайн-видимость с помощью инновационной технологии цифрового двойника от PeopleAI.

цифровой двойник AI Chatbot

Vectra AI

148.6K

Представляем нашу платформу ИИ, разработанную для обнаружения угроз в реальном времени и реагирования на них. Благодаря продвинутым алгоритмам и возможностям машинного обучения она быстро выявляет потенциальные угрозы безопасности и обеспечивает оперативное реагирование. Оставайтесь впереди киберугроз и эффективно защищайте свои цифровые активы с помощью нашей передовой технологии.

Кибербезопасность AI Analytics Assistant

Typed

29.9K

Typed — это мощный инструмент для совместной работы с документами, который объединяет разбросанные документы, упрощает командную работу и повышает эффективность исследований и продуктивность пользователей.

инструмент для совместного редактирования документов AI Documents Assistant

PlayHT

2.3M

Откройте для себя PlayHT — инновационную платформу генерации голосов на основе ИИ, которая предлагает впечатляющий выбор из более чем 600 голосов на различных языках. Исследуйте возможности легкого преобразования текста в естественную речь.

Генератор голоса на базе ИИ AI Speech Synthesis

Find AI tools in YBX