Stability AI представила предварительный обзор исследовательских моделей стабильной видео-диффузии для творческих приложений.

Home Новости ИИ Stability AI представила предварительный обзор исследовательских моделей стабильной видео-диффузии для творческих приложений.

Updated on ноябрь 23 2023

В то время как OpenAI приветствует возвращение Сэма Олтмана, его конкуренты усиливают свои усилия в сфере искусственного интеллекта (ИИ). После выхода Claude 2.1 от Anthropic и приобретения Rephrase.ai компанией Adobe, Stability AI анонсировала Stable Video Diffusion, что знаменует ее вход в быстро развивающуюся область генерации видео.

Представляем Stable Video Diffusion

Stable Video Diffusion (SVD), доступный только для исследований, включает две продвинутые модели ИИ — SVD и SVD-XT, которые генерируют короткие видеофрагменты из статичных изображений. Stability AI утверждает, что эти модели обеспечивают высококачественные результаты, которые могут конкурировать с существующими генераторами видео на основе ИИ.

Обе модели доступны в открытом доступе в рамках предварительного исследования, с планами по интеграции пользовательской обратной связи для улучшения функциональности в будущих коммерческих применениях.

Что такое Stable Video Diffusion

Согласно блогу Stability AI, SVD и SVD-XT представляют собой модели латентного диффузионного типа, которые принимают одно статичное изображение и формируют видеофрагменты размером 576 x 1024 пикселей. Они могут создавать содержимое со скоростью от трех до 30 кадров в секунду, хотя длина фрагмента ограничена четырьмя секундами. Модель SVD генерирует 14 кадров, тогда как SVD-XT может создать до 25 кадров.

Для разработки Stable Video Diffusion Stability AI обучила свою базовую модель, используя примерно 600 миллионов образцов из курированной видеобазы, а затем уточнила на меньшем высококачественном наборе данных, содержащем до одного миллиона клипов. Это обучение позволяет моделям выполнять задачи, такие как генерация видео из текста и генерация видео из изображений.

Хотя обучающие данные были получены из общедоступных исследовательских наборов, точные источники не уточняются. Важно отметить, что в научной работе по SVD указано, что модель может быть доработана для поддержки многовидовой синтезы, что позволит получать стабильные изображения объекта с одного снимка.

Потенциальные области применения Stable Video Diffusion охватывают различные сектора, включая рекламу, образование и развлечения.

Качество вывода и ограничения

Внешние оценки показали, что выходные данные SVD демонстрируют высокое качество, превосходя ведущие закрытые модели генерации видео из текста от Runway и Pika Labs. Однако Stability AI признает, что эти модели все еще находятся на ранней стадии разработки; они часто испытывают затруднения с фотореализмом, могут создавать видео без движения и не всегда точно воспроизводят лица или людей.

В будущем компания планирует уточнить обе модели, устранить текущие ограничения и внедрить новые функции, такие как поддержка текстовых подсказок и рендеринг текста для коммерческого использования. Они подчеркивают, что данный релиз служит приглашением к открытому исследованию для выявления и устранения проблем, включая потенциальные предвзятости, чтобы обеспечить безопасное использование.

Stability AI видит множество моделей, основанных на этой базе, аналогично экосистеме вокруг стабильной диффузии. Они также приглашают пользователей зарегистрироваться для предстоящего веб-опыта, который позволит генерировать видео из текста, хотя точный срок его появления пока неясен.

Как использовать модели

Чтобы исследовать модели Stable Video Diffusion, пользователи могут получить доступ к коду в репозитории Stability AI на GitHub и необходимым весам для локального исполнения модели на странице Hugging Face. Использование разрешено только при согласии с условиями, которые определяют допустимые и недопустимые приложения.

В настоящее время разрешенные случаи использования включают генерацию художественных работ для дизайна и образовательных или творческих инструментов. Однако создание фактических представлений о людях или событиях выходит за рамки этого проекта, по словам Stability AI.

Применение обработки естественного языка в кибербезопасности: пошаговое руководство

Искусственный интеллект: Навигация в идеологической зоне конфликта

Most people like

OpenGPT

35.6K

OpenGPT — это интуитивно понятная платформа, предназначенная для быстрого и легкого создания приложений ChatGPT. Благодаря упрощенному интерфейсу пользователи могут использовать возможности ИИ для создания увлекательных разговорных опытов за короткий срок.

ЧатГПТ AI App Builder

Roboto

13.3K

Откройте для себя Roboto — инновационную платформу ИИ, созданную для того, чтобы помочь вам легко создавать увлекательный контент с использованием текста, изображений и голоса. Освободите свою креативность и поднимите свое повествование на новый уровень с помощью мощных инструментов Roboto для эффективной коммуникации.

ИИ AI Content Generator

Vocca

Представляем нашего AI-рецепциониста, разработанного специально для клиник, который expertly управляет звонками и записями круглосуточно, 24/7. Повышайте эффективность вашей клиники и удовлетворенность пациентов с помощью нашего умного автоматизированного решения, которое никогда не спит.

Искусственный интеллект для ресепшн AI Chatbot

Brev.ai: AI Music Generator Free Online

465.3K

Превратите свои креативные идеи в высококачественную музыку мгновенно с помощью нашего продвинутого AI-генератора музыки, доступного онлайн бесплатно.

Генератор музыки на основе ИИ AI Music Generator

Find AI tools in YBX