Stable Diffusion 3.0 представляет инновационную архитектуру диффузии для создания текстов в изображения с использованием искусственного интеллекта нового поколения.

Stability AI выпустила предварительный просмотр своей модели генеративного ИИ следующего поколения для преобразования текста в изображение — Stable Diffusion 3.0. Это обновление следует за годом итеративных улучшений, демонстрируя растущую сложность и качество генерации изображений. Предыдущий релиз SDXL в июле значительно обновил базовую модель, и теперь компания нацелена на еще большие достижения.

Stable Diffusion 3.0 акцентирует внимание на повышенном качестве и производительности изображений, особенно при генерации картинок по многообъектным запросам. Одним из заметных улучшений стало качество типографии — теперь в созданных изображениях гарантируется точное и последовательное написание. Эти улучшения важны, поскольку конкуренты, такие как DALL-E 3, Ideogram и Midjourney, также сосредоточили усилия на этом в своих последних обновлениях. Stability AI предлагает Stable Diffusion 3.0 в различных размерах моделей — от 800M до 8B параметров.

Это обновление знаменует собой значительный сдвиг — не просто улучшение предыдущих моделей, а полное переосмысление на основе новой архитектуры. "Stable Diffusion 3 — это диффузионный трансформер, новая архитектура, аналогичная той, что используется в недавней модели Sora от OpenAI," сказал Эмад Мостаки, CEO Stability AI. “Это истинный преемник оригинального Stable Diffusion.”

Переход к диффузионным трансформерам и сопоставлению потока открывает новую эру в генерации изображений. Stability AI экспериментировала с различными техниками и недавно представила Stable Cascade, использующую архитектуру Würstchen для повышения производительности и точности. В отличие от этого, Stable Diffusion 3.0 применяет диффузионные трансформеры — значительное изменение по сравнению с предшественником.

Мостаки объяснил: "Ранее Stable Diffusion не имела трансформеров." Эта архитектура, являющаяся основой для многих достижений генеративного ИИ, в основном использовалась в текстовых моделях, в то время как диффузионные модели доминировали в генерации изображений. Введение диффузионных трансформеров (DiTs) оптимизирует использование вычислительных ресурсов и повышает производительность, заменяя традиционную архитектуру U-Net на трансформеры, работающие с латентными образами.

Кроме того, Stable Diffusion 3.0 использует метод сопоставления потока, инновационный метод обучения для непрерывных нормализующих потоков (CNFs), который эффективно моделирует сложные распределения данных. Исследователи указывают, что использование условного сопоставления потока (CFM) с оптимальными транспортными путями обеспечивает более быстрое обучение, более эффективный отбор и улучшенную производительность по сравнению с традиционными методами диффузии.

Модель демонстрирует явный прогресс в типографии, позволяя создавать более последовательные повествования и стилистические приемы в созданных изображениях. "Это улучшение связано с трансформерной архитектурой и дополнительными текстовыми кодировщиками," отметил Мостаки. "Теперь возможны полные предложения и последовательный стиль."

Хотя Stable Diffusion 3.0 изначально представлена как ИИ для преобразования текста в изображение, она служит основой для будущих инноваций. Stability AI планирует расширить функционал до генерации 3D и видео в ближайшие месяцы. "Мы создаем открытые модели, которые можно адаптировать для различных нужд," заключил Мостаки. "Эта серия моделей различных размеров станет основой для разработки наших визуальных решений следующего поколения, включая видео, 3D и многое другое."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles