Продвинутый текстово-изображенческий модельный движок Google, Imagen 3, готовится к запуску на платформе Vertex AI. Этот инструмент нового поколения будет доступен для избранных клиентов в режиме предварительного просмотра, предлагая разработчикам более быстрое создание изображений, улучшенное понимание запросов, более фотореалистичные изображения людей и усовершенствованные возможности рендеринга текста по сравнению с предыдущими версиями.
Изначально представленный на Google I/O в мае, Imagen 3 начала свой путь с частного предварительного просмотра в ImageFX для избранных создателей. Объявление Google подтвердило, что эта мощная модель ИИ вскоре станет доступна через Vertex AI.
Дуглас Эк, старший директор по исследованиям в Google DeepMind, подчеркивает ее возможности: «Это наша самая совершенная модель генерации изображений на сегодняшний день. Imagen 3 более фотореалистична, богата деталями и минимизирует визуальные артефакты. Она понимает запросы, сформированные естественным и креативным образом: детализированные инструкции дают наилучшие результаты. Кроме того, она прекрасно справляется с интеграцией тонких деталей из более длинных запросов и улучшает рендеринг текста, что всегда было вызовом для предыдущих моделей генерации изображений».
С переходом на Vertex AI, Imagen 3 внедряет поддержку нескольких языков, надежные функции безопасности, такие как цифровое водяное знака Google DeepMind SynthID, и поддержку различных соотношений сторон.
Shutterstock, лидер в области стоковой фотографии, уже интегрировала эту модель. Джастин Хиза, вице-президент по управлению данными в Shutterstock, отметил: «После внедрения Imagen в наш генератор изображений с ИИ наши пользователи создали миллионы изображений. Мы в восторге от улучшений, которые предлагает Imagen 3, позволяя пользователям быстрее реализовывать свои идеи без ущерба для качества. Это усовершенствование дополнительно укрепляет обязательство Shutterstock использовать этически полученный генератор изображений с ИИ, обеспечивая безопасность и защиту благодаря компенсации от Google Cloud для генеративного ИИ».
В то время как Google продолжает развивать Imagen, компания не раскрыла, когда ее Gemini AI возобновит генерацию изображений после критики за неточности. Во время недавнего брифинга генеральный директор Google Cloud Томас Курьян прояснил разницу между двумя моделями: «Gemini — это многомодальная модель, предназначенная для обработки различных типов входных данных, включая изображения, видео и аудио, что позволяет рассуждать на основе этих модальностей. В отличие от этого, Imagen — это модель диффузии, сосредоточенная исключительно на создании высококачественных текстово-изображенческих выходов. У них разные цели».
Вопросы о сроках повторного включения функции изображения в Gemini остаются без ответа.