Google готовится запустить впечатляющее обновление своей модели текстов в изображения, Imagen 3, обещающее улучшенную детализацию, более глубокое понимание естественного языка и превосходное отображение текста. В данный момент модель доступна избранным создателям в рамках приватного превью на ImageFX, а разработчики могут записаться в лист ожидания для получения доступа. Кроме того, ожидается интеграция Imagen 3 в Vertex AI.
«Это наша самая продвинутая модель генерации изображений на сегодняшний день», — отметил Дуглас Эк, старший научный директор Google DeepMind, во время конференции разработчиков Google I/O. «Imagen 3 предлагает более фотореалистичные изображения, более богатые детали и значительно меньше визуальных артефактов или искажений. Она понимает запросы в беседе: чем больше креативности и деталей вы предоставляете, тем лучше результат. Imagen 3 особенно хороша в включении тонких элементов в более длинные запросы и представляет собой наш лучший опыт в рендеринге текста, что является общей трудностью для моделей генерации изображений».
Это объявление стало известно всего через шесть месяцев после того, как Google сделал Imagen 2 доступной на Vertex AI, после того как в апреле была запущена функция текстового воспроизведения в реальном времени. Поддержание конкурентных позиций в сфере инструментов генерации изображений на базе ИИ — таких как DALL-E от OpenAI, Midjourney, Firefly от Adobe, AI от Meta и Designer от Microsoft — имеет критическое значение для Google.
Однако путь Google в этой области не был лишен трудностей. В начале года компания столкнулась с критикой своих ИИ-сгенерированных изображений, которые некоторые недоброжелатели назвали «слишком прогрессивными». Это включало изображения основателей США с чернокожим мужчиной и солдатов Германии времен Второй мировой войны рядом с чернокожим мужчиной и азиаткой. Google признала ошибку, и генеральный директор Сундар Пичаи подтвердил извинения в интервью Bloomberg.
Представление Imagen 3 — одно из нескольких захватывающих обновлений на Google I/O, которое также включает запуск новой модели генерации видео Veo.