Stability AI анонсировала Stable Cascade: новая эра в генерации изображений
Stability AI, разработчик популярной генеративной модели текста в изображение Stable Diffusion, представляет свою новейшую модель: Stable Cascade. Этот новый подход к генерации изображений обещает большую гибкость и эффективность по сравнению с предшественниками.
С момента запуска Stable Diffusion в 2022 году Stability AI постоянно улучшает эту основную технологию. Введение SDXL 1.0 в июле 2023 года стало важной вехой, дополненной обновлением SDXL Turbo в ноябре 2023 года.
Инновационная архитектура Stable Cascade
Stable Cascade использует уникальную архитектуру, отличную от SDXL, что оптимизирует эффективность генерации изображений. Эта модель основана на архитектуре Würstchen, которая включает передовые методы для повышения производительности и точности. В аннотации исследования Würstchen отмечается: "Наша техника латентной диффузии изучает компактное, но детализированное семантическое представление, которое направляет процесс диффузии, обеспечивая более богатые указания, чем типичные представления на основе языка, при этом значительно снижая вычислительные затраты."
Модульная трехступенчатая архитектура
В отличие от единой большой модели Stable Diffusion, Stable Cascade имеет трехступенчатую модульную архитектуру, состоящую из этапов A, B и C. Этот дизайн повышает эффективность обучения и предлагает больше возможностей для кастомизации.
- Этап C: Преобразует текстовые подсказки в компактные латентные представления размером 24×24 пикселя.
- Этапы A и B: Декодируют эти латенты в полноразмерные изображения высокого разрешения.
Разделение генерации изображений на основе текста и декодирования изображений обеспечивает более эффективное обучение, при этом Stability AI сообщает о сокращении затрат в 16 раз при доработке этапа C по сравнению с одной моделью Stable Diffusion.
Оптимизация предпочтений для повышения качества
Stable Cascade имеет потенциал для оптимизации предпочтений (DPO), сосредотачиваясь на уточнении моделей, чтобы лучше соответствовать человеческим предпочтениям. Эмад Мостак, основатель и генеральный директор Stability AI, недавно заявил: "Выходные данные Stable Cascade будут еще лучше с DPO и могут быть дополнительно улучшены с помощью таких методов, как turbofying и квантизация. Эта исследовательская предварительная модель создает исключительные изображения и качественный текст, готовые к использованию, с возможностью улучшения через ComfyUI."
Выдающиеся способности генерации текста
В ходе внутренних оценок Stable Cascade превзошел другие ведущие модели искусственного интеллекта в области искусства, включая SDXL, продемонстрировав высокое качество изображений и соответствие запросам. Удивительно, но несмотря на наличие 1,4 миллиарда дополнительных параметров по сравнению с SDXL, Stable Cascade обеспечивает более быстрые времена вывода. Сжатое латентное пространство модели способствует эффективной генерации сложных изображений через многоступенчатый подход.
Кроме того, Stable Cascade демонстрирует улучшенные возможности типографики, генерируя связный текст в изображениях, в чем SDXL испытывает трудности. Конкурирующие технологии, такие как Ideogram и DALL-E 3 от OpenAI, также добились недавних успехов в генерации текста, хотя результаты варьируются. Ограниченные тесты показали, что Stable Cascade последовательно создает точный текст из подсказок, хотя идеальное выполнение не всегда достигается.
Исследуйте новое с Stable Cascade
Stable Cascade не только улучшает генерацию текста, но и поддерживает создание вариаций изображений, сохраняя стиль и композицию при генерации новых версий. Модель эффективно выполняет преобразования изображений, применяя шум и создавая новые изображения на основании входных данных. Благодаря интеграции ControlNet она предлагает расширенные функции, такие как ин-пейнтинг и суперразрешение.
Сейчас Stable Cascade находится на этапе исследования и доступна для некоммерческого использования с получением доступа через код на GitHub.