Больше не всегда значит лучше, особенно когда речь идет о работе генеративных моделей ИИ на потребительском оборудовании. Этот принцип лежит в основе последнего релиза Stability AI: Stable Diffusion 3 Medium. Как флагманская модель компании, Stable Diffusion прекрасно справляется с генерацией изображений из текста. Превью Stable Diffusion 3 было представлено 22 февраля, а доступ к публичному API начнется 17 апреля.
Новая модель Stable Diffusion Medium разработана как более компактная, но высокоэффективная версия, способная работать на потребительских GPU. Это делает Stable Diffusion 3 привлекательным вариантом для пользователей и организаций с ограниченными ресурсами, которые ищут эффективные технологии генерации изображений.
Stable Diffusion Medium доступна для тестирования через API и сервис Stable Artisan в Discord. Кроме того, веса модели могут быть получены для некоммерческого использования на Hugging Face.
С выходом Stable Diffusion Medium первоначальная версия теперь называется Stable Diffusion 3 (SD3) Large, имеющая 8 миллиардов параметров. В отличие от нее, SD3 Medium имеет 2 миллиарда параметров. Как отметил Кристиан Лафорт, со-генеральный директор Stability AI, «В отличие от SD3 Large, SD3 Medium меньше и будет эффективно работать на потребительском оборудовании».
Для работы Stable Diffusion Medium пользователям нужно всего 5 ГБ VRAM GPU, что позволяет использовать ее на различных потребительских ПК и мощных ноутбуках. Хотя это минимальное требование, Stability AI рекомендует 16 ГБ VRAM GPU для оптимальной производительности, что может стать проблемой для некоторых ноутбуков.
Несмотря на меньший размер, SD3 Medium обладает впечатляющими характеристиками, сопоставимыми с SD3 Large. Лафорт подчеркивает, что SD3 Medium превосходит в фотореализме, соблюдении запросов, типографике, эффективности использования ресурсов и тонкой настройке. «SD3 Medium сопоставима с возможностями API SD3 Large, которые пользователи ценят сегодня», — отметил он.
Пользователи могут ожидать высоко реалистичных изображений от SD3 благодаря 16-канальному VAE (вариационному автокодировщику), который обеспечивает более детализированные изображения по сравнению с предыдущими моделями. SD3 также демонстрирует исключительное соблюдение естественного языка и пространственное восприятие в композиции изображений.
Возможности тонкой настройки модели делают ее высоко адаптивной и эффективной в захвате деталей из обучающих наборов данных. Улучшенная типографика является еще одним значительным усовершенствованием SD3, которое перенесено и в SD3 Medium.
Выдающейся особенностью SD3 Medium является ее эффективность использования ресурсов. «Меньший размер и модульность модели с 2 миллиардами параметров снижают вычислительные требования без ущерба для производительности», — отметил Лафорт. «Это делает SD3 Medium идеальным выбором в условиях, где управление ресурсами критически важно».