Stability AI продвигает свое видение генеративного ИИ с запуском модели Stable Audio 2.0. Хотя компания известна своими текстово-изображенческими моделями Stable Diffusion, она расширяет свой портфель. Stable Audio впервые появился в сентябре 2023 года, позволяя пользователям создавать короткие аудиофайлы на основе текстовых запросов. С выходом Stable Audio 2.0 пользователи теперь могут генерировать аудиотреки длительностью до трех минут — вдвое больше предыдущих 90 секунд.
Помимо генерации звука из текста, Stable Audio 2.0 предлагает функции преобразования аудио, позволяя загружать образцы и использовать их в качестве запросов. Модель доступна для ограниченного бесплатного использования на сайте Stable Audio, а доступ к API скоро появится для разработчиков, создающих инновационные сервисы.
Запуск Stable Audio 2.0 стал первым значительным обновлением Stability AI после неожиданной отставки бывшего CEO и основателя Эмада Мостака в марте. Компания уверяет пользователей, что обновление важное для продолжения работы.
Улучшения от Stable Audio 1.0 до 2.0
Разработка Stable Audio 2.0 опиралась на опыт предыдущей версии. Зак Эванс, руководитель аудионаучных исследований Stability AI, отметил, что первая версия акцентировала внимание на запуске инновационной модели с высокой аудиофиделити и продолжительностью вывода.
“С тех пор мы сосредоточились на улучшении музыкальности, удлинении продолжительности вывода и повышении отзывчивости на детализированные запросы,” — сказал Эванс. “Эти улучшения призваны сделать технологию более практичной в реальных сценариях.”
Теперь Stable Audio 2.0 может создавать полные музыкальные треки со структурой. Используя технологию латентной диффузии, модель генерирует композиции длительностью до трех минут, включая отдельные вступления, развитие и завершение — значительное улучшение по сравнению с предыдущей возможностью создавать лишь короткие лупы или фрагменты.
Технология Stable Audio 2.0
Stable Audio 2.0 продолжает использовать модель латентной диффузии (LDM). После бета-версии Stable Audio 1.1 в декабре 2023 года модель внедрила архитектуру “диффузионного трансформера”.
“Мы улучшили сжатие данных, применяемое к аудио во время обучения, что позволило нам увеличить продолжительность вывода до трех минут и более при эффективном времени вывода,” — добавил Эванс.
Расширенные креативные возможности
С Stable Audio 2.0 пользователи могут генерировать звук не только из текстовых запросов, но и из загруженных аудиофайлов. Инструкции на естественном языке можно использовать для креативного преобразования этих звуков, позволяя итеративные корректировки и редактирование.
Модель также расширяет спектр звуковых эффектов и текстур. Пользователи могут запрашивать создание иммерсивных окружений, фоновых звуков, толпы, городских пейзажей и многое другое. Кроме того, доступные изменения стиля и тона как сгенерированного, так и загруженного аудио.
Защита авторских прав в аудио генеративного ИИ
Вопросы авторского права остаются важной проблемой в сфере генеративного ИИ. Stability AI придерживается принципов защиты интеллектуальной собственности в своей новой аудиомодели. Чтобы устранить беспокойства по поводу авторских прав, Stable Audio 2.0 была обучена исключительно на лицензионных данных от AudioSparx и учитывает запросы на отказ. Технология распознавания контента следит за загруженным аудио, чтобы предотвратить обработку защищенного материала.
Защита авторских прав имеет решающее значение для успешной коммерциализации Stable Audio и обеспечения безопасного использования для организаций. В настоящее время Stable Audio генерирует доход через подписки на веб-приложение, при этом скоро ожидается запуск API.
Однако Stable Audio пока не является открытой моделью. “Веса для Stable Audio 2.0 не будут доступны для загрузки, но мы разрабатываем открытые аудиомодели для выпуска в конце этого года,” — подтвердил Эванс.