Stability AI улучшает генерацию изображений из текста с обновлением SDXL Turbo

Генерация изображений из простых текстовых подсказок с помощью ИИ стала более быстрой благодаря достижению Stability AI, разработчика широко используемой модели Stable Diffusion.

На этой неделе был анонсирован режим SDXL Turbo, который позволяет пользователям наслаждаться генерацией изображений в реальном времени, исключая ожидание обработки подсказок ИИ. То, что раньше занимало 50 шагов генерации, теперь требует всего лишь одного, что значительно сокращает время вычислений. SDXL Turbo может создать изображение 512×512 всего за 207 мс на GPU A100, что знаменует собой значительное улучшение по сравнению с предыдущими моделями диффузии.

Опыт использования SDXL Turbo напоминает функции предсказательного ввода, встречающиеся в современных поисковых системах, но здесь скорость применяется к генерации изображений в реальном времени. Этот прирост скорости, тем не менее, не связан с продвинутым оборудованием; он основан на новом методе, известном как Адаптивная Дифузионная Дистилляция (ADD). Эмад Мостаки, основатель и CEO Stability AI, объяснил в X (бывший Twitter): «Одношаговая стабильная диффузия XL с помощью нашего нового подхода Adversarial Distilled Diffusion (ADD) предлагает меньшую разнообразие, но гораздо более быстрые результаты, при этом ожидается больше вариантов в будущем».

SDXL – теперь быстрее

Базовая модель SDXL была представлена в июле, и Мостаки ожидал, что она станет прочной основой для будущих моделей. Stable Diffusion конкурирует с другими моделями текст-к-изображение, такими как DALL-E от OpenAI и Midjourney.

Ключевая особенность базовой модели SDXL – ControlNets, которые улучшат контроль над композицией изображений. С 3,5 миллиарда параметров она обеспечивает повышенную точность, понимая более широкий спектр концепций. SDXL Turbo развивает эти инновации, увеличивая скорость генерации.

Stability AI следует растущей тенденции в разработке генеративного ИИ: сначала создавая точную модель, затем оптимизируя её для производительности, аналогично подходу OpenAI с GPT-3.5 Turbo и GPT-4 Turbo.

По мере ускорения генеративных моделей ИИ возникает общая проблема компромисса между качеством и скоростью. Тем не менее, SDXL Turbo демонстрирует минимальные потери, обеспечивая высокодетализированные изображения, которые практически соответствуют качеству своей неускоренной версии.

Что такое Адаптивная Дифузионная Дистилляция (ADD)?

Концепция Генеративной Состязательной Сети (GAN) известна в области ИИ благодаря созданию быстрых нейронных сетей глубокого обучения. В отличие от этого, традиционные модели диффузии используют более медленный и постепенный процесс. ADD объединяет преимущества обоих подходов.

Согласно исследовательскому отчету ADD, «Цель данной работы – объединить превосходное качество образцов моделей диффузии с высокой скоростью GAN». Метод ADD, разработанный исследователями Stability AI, нацелен на то, чтобы превзойти другие методы ИИ в генерации изображений, став первой техникой, достигающей одноступенчатой синтеза изображений в реальном времени с использованием базовых моделей. Объединив состязательное обучение и дистилляцию оценок, ADD использует знания из предварительно обученной модели диффузии изображений. Основные преимущества – быстрая выборка при сохранении высокой точности и возможности итеративного уточнения.

Эксперименты показывают, что ADD значительно превосходит GAN, модели латентной согласованности и другие методы дистилляции диффузии в генерации изображений за 1-4 шага. Хотя Stability AI пока не считает модель SDXL Turbo готовой к коммерческому использованию, она уже доступна в предварительном просмотре на веб-сервисе Clipdrop компании. Предварительные тесты показывают быструю генерацию изображений, хотя бета-версия Clipdrop может не иметь некоторых продвинутых опций для различия стилей изображения. Код и веса модели также доступны на Hugging Face по лицензии для некоммерческого исследования.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles