Stable Diffusion 3.0 представляет инновационную архитектуру диффузии для создания текстов в изображения с использованием искусственного интеллекта нового поколения.

Home Новости ИИ Stable Diffusion 3.0 представляет инновационную архитектуру диффузии для создания текстов в изображения с использованием искусственного интеллекта нового поколения.

Updated on февраль 21 2024

Stability AI выпустила предварительный просмотр своей модели генеративного ИИ следующего поколения для преобразования текста в изображение — Stable Diffusion 3.0. Это обновление следует за годом итеративных улучшений, демонстрируя растущую сложность и качество генерации изображений. Предыдущий релиз SDXL в июле значительно обновил базовую модель, и теперь компания нацелена на еще большие достижения.

Stable Diffusion 3.0 акцентирует внимание на повышенном качестве и производительности изображений, особенно при генерации картинок по многообъектным запросам. Одним из заметных улучшений стало качество типографии — теперь в созданных изображениях гарантируется точное и последовательное написание. Эти улучшения важны, поскольку конкуренты, такие как DALL-E 3, Ideogram и Midjourney, также сосредоточили усилия на этом в своих последних обновлениях. Stability AI предлагает Stable Diffusion 3.0 в различных размерах моделей — от 800M до 8B параметров.

Это обновление знаменует собой значительный сдвиг — не просто улучшение предыдущих моделей, а полное переосмысление на основе новой архитектуры. "Stable Diffusion 3 — это диффузионный трансформер, новая архитектура, аналогичная той, что используется в недавней модели Sora от OpenAI," сказал Эмад Мостаки, CEO Stability AI. “Это истинный преемник оригинального Stable Diffusion.”

Переход к диффузионным трансформерам и сопоставлению потока открывает новую эру в генерации изображений. Stability AI экспериментировала с различными техниками и недавно представила Stable Cascade, использующую архитектуру Würstchen для повышения производительности и точности. В отличие от этого, Stable Diffusion 3.0 применяет диффузионные трансформеры — значительное изменение по сравнению с предшественником.

Мостаки объяснил: "Ранее Stable Diffusion не имела трансформеров." Эта архитектура, являющаяся основой для многих достижений генеративного ИИ, в основном использовалась в текстовых моделях, в то время как диффузионные модели доминировали в генерации изображений. Введение диффузионных трансформеров (DiTs) оптимизирует использование вычислительных ресурсов и повышает производительность, заменяя традиционную архитектуру U-Net на трансформеры, работающие с латентными образами.

Кроме того, Stable Diffusion 3.0 использует метод сопоставления потока, инновационный метод обучения для непрерывных нормализующих потоков (CNFs), который эффективно моделирует сложные распределения данных. Исследователи указывают, что использование условного сопоставления потока (CFM) с оптимальными транспортными путями обеспечивает более быстрое обучение, более эффективный отбор и улучшенную производительность по сравнению с традиционными методами диффузии.

Модель демонстрирует явный прогресс в типографии, позволяя создавать более последовательные повествования и стилистические приемы в созданных изображениях. "Это улучшение связано с трансформерной архитектурой и дополнительными текстовыми кодировщиками," отметил Мостаки. "Теперь возможны полные предложения и последовательный стиль."

Хотя Stable Diffusion 3.0 изначально представлена как ИИ для преобразования текста в изображение, она служит основой для будущих инноваций. Stability AI планирует расширить функционал до генерации 3D и видео в ближайшие месяцы. "Мы создаем открытые модели, которые можно адаптировать для различных нужд," заключил Мостаки. "Эта серия моделей различных размеров станет основой для разработки наших визуальных решений следующего поколения, включая видео, 3D и многое другое."

Google приостановил функцию генерации людей в Gemini после нескольких случаев "пробуждения" с неверной информацией.

Биометрический Грабеж: Хакеры Украли Личные Данные, Чтобы Получить Доступ к Банковским Счетам Жертв

Most people like

Quiz Wizard

19.2K

Quiz Wizard — это инновационная платформа на основе ИИ, разработанная для создания индивидуализированных вопросов с выбором ответа и специализированных учебных материалов.

ИИ AI Education Assistant

HitPaw Photo AI

2.4M

Откройте для себя передовое программное обеспечение для редактирования фотографий на основе ИИ, которое революционизирует ваш опыт фотографии. С его продвинутыми функциями и интуитивно понятными инструментами это мощное ПО поднимает ваши изображения на профессиональный уровень, делая улучшение, ретушь и трансформацию ваших фотографий проще простого. Идеально подходит для фотографов любого уровня подготовки, оно сочетает в себе искусственный интеллект и творческую гибкость, чтобы воплотить вашу визию в жизнь.

Редактирование фотографий с использованием ИИ AI Image Enhancer

Chromox

41K

Откройте для себя лучшие бесплатные альтернативы OpenAI Sora для создания увлекательных видео с использованием ИИ.

СОРА AI Video Generator

AI Sound Effect Generator

25.7K

Улучшить ваши аудиопроекты стало проще простого с нашим генератором звуковых эффектов на основе ИИ, созданным для генерации множества уникальных аудиоэффектов. Освобождайте безграничные творческие возможности и поднимайте свои звуковые пейзажи с помощью этого мощного инструмента, идеально подходящего для кинематографистов, разработчиков игр и контент-креаторов. Узнайте, как технологии ИИ могут преобразить ваш аудиоопыт уже сегодня!

Генератор звуковых эффектов ИИ Large Language Models (LLMs)

Find AI tools in YBX