В то время как OpenAI приветствует возвращение Сэма Олтмана, его конкуренты усиливают свои усилия в сфере искусственного интеллекта (ИИ). После выхода Claude 2.1 от Anthropic и приобретения Rephrase.ai компанией Adobe, Stability AI анонсировала Stable Video Diffusion, что знаменует ее вход в быстро развивающуюся область генерации видео.
Представляем Stable Video Diffusion
Stable Video Diffusion (SVD), доступный только для исследований, включает две продвинутые модели ИИ — SVD и SVD-XT, которые генерируют короткие видеофрагменты из статичных изображений. Stability AI утверждает, что эти модели обеспечивают высококачественные результаты, которые могут конкурировать с существующими генераторами видео на основе ИИ.
Обе модели доступны в открытом доступе в рамках предварительного исследования, с планами по интеграции пользовательской обратной связи для улучшения функциональности в будущих коммерческих применениях.
Что такое Stable Video Diffusion
Согласно блогу Stability AI, SVD и SVD-XT представляют собой модели латентного диффузионного типа, которые принимают одно статичное изображение и формируют видеофрагменты размером 576 x 1024 пикселей. Они могут создавать содержимое со скоростью от трех до 30 кадров в секунду, хотя длина фрагмента ограничена четырьмя секундами. Модель SVD генерирует 14 кадров, тогда как SVD-XT может создать до 25 кадров.
Для разработки Stable Video Diffusion Stability AI обучила свою базовую модель, используя примерно 600 миллионов образцов из курированной видеобазы, а затем уточнила на меньшем высококачественном наборе данных, содержащем до одного миллиона клипов. Это обучение позволяет моделям выполнять задачи, такие как генерация видео из текста и генерация видео из изображений.
Хотя обучающие данные были получены из общедоступных исследовательских наборов, точные источники не уточняются. Важно отметить, что в научной работе по SVD указано, что модель может быть доработана для поддержки многовидовой синтезы, что позволит получать стабильные изображения объекта с одного снимка.
Потенциальные области применения Stable Video Diffusion охватывают различные сектора, включая рекламу, образование и развлечения.
Качество вывода и ограничения
Внешние оценки показали, что выходные данные SVD демонстрируют высокое качество, превосходя ведущие закрытые модели генерации видео из текста от Runway и Pika Labs. Однако Stability AI признает, что эти модели все еще находятся на ранней стадии разработки; они часто испытывают затруднения с фотореализмом, могут создавать видео без движения и не всегда точно воспроизводят лица или людей.
В будущем компания планирует уточнить обе модели, устранить текущие ограничения и внедрить новые функции, такие как поддержка текстовых подсказок и рендеринг текста для коммерческого использования. Они подчеркивают, что данный релиз служит приглашением к открытому исследованию для выявления и устранения проблем, включая потенциальные предвзятости, чтобы обеспечить безопасное использование.
Stability AI видит множество моделей, основанных на этой базе, аналогично экосистеме вокруг стабильной диффузии. Они также приглашают пользователей зарегистрироваться для предстоящего веб-опыта, который позволит генерировать видео из текста, хотя точный срок его появления пока неясен.
Как использовать модели
Чтобы исследовать модели Stable Video Diffusion, пользователи могут получить доступ к коду в репозитории Stability AI на GitHub и необходимым весам для локального исполнения модели на странице Hugging Face. Использование разрешено только при согласии с условиями, которые определяют допустимые и недопустимые приложения.
В настоящее время разрешенные случаи использования включают генерацию художественных работ для дизайна и образовательных или творческих инструментов. Однако создание фактических представлений о людях или событиях выходит за рамки этого проекта, по словам Stability AI.