Stability AI запускает Stable Audio: Революционное решение для профессионалов в области звукового дизайна

Stability AI запускает свою генеративную ИИ-технологию для аудио с выходом Stable Audio Open 1.0. Известная благодаря технологии текст-в-изображение Stable Diffusion, компания предлагает разнообразное портфолио, включая модели для кода, текста и, теперь, аудио. В сентябре 2023 года Stability AI представила Stable Audio — инструмент генерации аудио на основе текста. Его обновленная версия, Stable Audio 2.0, выпущенная 3 апреля, улучшила четкость и продолжительность аудио.

Stable Audio Open, предназначенный для общего коммерческого использования, ориентирован на создание коротких аудиотреков, таких как звуковые эффекты, а не полноценных песен. Эта модель не является полностью открытым исходным кодом, а работает по лицензионному соглашению Stability AI для некоммерческих исследовательских сообществ с ограниченными правами использования.

«Наша цель с Stable Audio Open — предоставить исследователям и продюсерам аудио доступ к одной из наших генеративных аудиомоделей для содействия исследованиям, внедрению и творческому экспериментированию», — говорит Зак Эванс, руководитель аудионаучных исследований Stability AI.

Что такое Stable Audio Open?

Stable Audio Open специализируется на создании ударных ритмов, инструментальных рифов, амбиентных звуков и других аудиосэмплов для музыкального производства и звукового дизайна. В отличие от коммерческого продукта Stable Audio, который генерирует музыкальные треки до трех минут, Stable Audio Open фокусируется на создании высококачественных аудиоклипов до 47 секунд, основанных на текстовых подсказках.

Stability AI акцентирует внимание на ответственном подходе к обучению, используя аудиоданные из FreeSound и Free Music Archive, чтобы избежать использования защищенных авторским правом материалов без разрешения.

Тонкая настройка для творческой свободы

Одним из значительных преимуществ Stable Audio Open является возможность тонкой настройки, позволяющая пользователям адаптировать модель с использованием своих аудиоданных. Например, ударники могут доработать модель, используя свои записи ударных инструментов для генерации уникальных ритмов.

Процесс тонкой настройки использует библиотеку Stable Audio Tools, лицензируемую в рамках открытого исходного кода. Веса модели также доступны на Hugging Face.

«Наша команда аудионаучных исследований постоянно работает над улучшением качества и контроля наших генеративных аудиомоделей», — добавил Эванс. «Мы ожидаем будущие коммерческие и открытые версии моделей, отражающие наши достижения в исследованиях».

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles