Google представил важные обновления своей линейки моделей генерации изображений, включая Imagen 2, которая теперь обладает функцией текст-в-живое, позволяющей пользователям превращать текстовые подсказки в анимационные изображения. Модель также включает функции редактирования изображений, такие как инпейнтинг, аутпейнтинг и цифровое водяное знаки, доступные для общего пользования.
На конференции Google Cloud Next была представлена функция текст-в-живое, которая генерирует анимационные GIF-изображения с ключевой частотой 24 кадра в секунду, разрешением 360x640 пикселей и продолжительностью четыре секунды. Google планирует продолжать улучшать эту функцию.
Во время пресс-брифинга генеральный директор Google Cloud Томас Курьян отметил: «Вместо статичного изображения, например, автомобиля, пользователи теперь могут увидеть короткую анимацию движущегося транспорта. Организации, особенно в медиа и рекламе, принимают эту технологию для увеличения вовлеченности пользователей.»
Imagen 2 создаёт изображения с различными углами камеры и движениями, обеспечивая согласованность в анимационной последовательности. Она также включает фильтры безопасности и цифровые водяные знаки, что решает ключевые проблемы, связанные с генеративным ИИ.
Новые функции редактирования изображений позволяют пользователям добавлять или удалять элементы из фотографий, аналогично инструментам заливки генеративного заполнения и контентно-осознанным инструментам Adobe Photoshop. Пользователи могут также расширять границы изображения для более широкого обзора.
Эти обновления являются частью анонсов Google о Vertex AI, полностью управляемой облачной платформе ИИ. Запущенный в 2023 году, Imagen 2 — продукт Google DeepMind, позволяющий создавать фотореалистичные изображения высокого разрешения на основе запросов на естественном языке. Она конкурирует с другими ведущими моделями, такими как DALL-E от OpenAI, Midjourney и Adobe Firefly, с целью помочь предприятиям создавать изображения, соответствующие стандартам бренда и управления.