Stability AI представляет Stable Audio 2.0: улучшенная четкость и мощь в генеративных аудио решениях AI

Home Новости ИИ Stability AI представляет Stable Audio 2.0: улучшенная четкость и мощь в генеративных аудио решениях AI

Updated on апрель 2 2024

Stability AI продвигает свое видение генеративного ИИ с запуском модели Stable Audio 2.0. Хотя компания известна своими текстово-изображенческими моделями Stable Diffusion, она расширяет свой портфель. Stable Audio впервые появился в сентябре 2023 года, позволяя пользователям создавать короткие аудиофайлы на основе текстовых запросов. С выходом Stable Audio 2.0 пользователи теперь могут генерировать аудиотреки длительностью до трех минут — вдвое больше предыдущих 90 секунд.

Помимо генерации звука из текста, Stable Audio 2.0 предлагает функции преобразования аудио, позволяя загружать образцы и использовать их в качестве запросов. Модель доступна для ограниченного бесплатного использования на сайте Stable Audio, а доступ к API скоро появится для разработчиков, создающих инновационные сервисы.

Запуск Stable Audio 2.0 стал первым значительным обновлением Stability AI после неожиданной отставки бывшего CEO и основателя Эмада Мостака в марте. Компания уверяет пользователей, что обновление важное для продолжения работы.

Улучшения от Stable Audio 1.0 до 2.0

Разработка Stable Audio 2.0 опиралась на опыт предыдущей версии. Зак Эванс, руководитель аудионаучных исследований Stability AI, отметил, что первая версия акцентировала внимание на запуске инновационной модели с высокой аудиофиделити и продолжительностью вывода.

“С тех пор мы сосредоточились на улучшении музыкальности, удлинении продолжительности вывода и повышении отзывчивости на детализированные запросы,” — сказал Эванс. “Эти улучшения призваны сделать технологию более практичной в реальных сценариях.”

Теперь Stable Audio 2.0 может создавать полные музыкальные треки со структурой. Используя технологию латентной диффузии, модель генерирует композиции длительностью до трех минут, включая отдельные вступления, развитие и завершение — значительное улучшение по сравнению с предыдущей возможностью создавать лишь короткие лупы или фрагменты.

Технология Stable Audio 2.0

Stable Audio 2.0 продолжает использовать модель латентной диффузии (LDM). После бета-версии Stable Audio 1.1 в декабре 2023 года модель внедрила архитектуру “диффузионного трансформера”.

“Мы улучшили сжатие данных, применяемое к аудио во время обучения, что позволило нам увеличить продолжительность вывода до трех минут и более при эффективном времени вывода,” — добавил Эванс.

Расширенные креативные возможности

С Stable Audio 2.0 пользователи могут генерировать звук не только из текстовых запросов, но и из загруженных аудиофайлов. Инструкции на естественном языке можно использовать для креативного преобразования этих звуков, позволяя итеративные корректировки и редактирование.

Модель также расширяет спектр звуковых эффектов и текстур. Пользователи могут запрашивать создание иммерсивных окружений, фоновых звуков, толпы, городских пейзажей и многое другое. Кроме того, доступные изменения стиля и тона как сгенерированного, так и загруженного аудио.

Защита авторских прав в аудио генеративного ИИ

Вопросы авторского права остаются важной проблемой в сфере генеративного ИИ. Stability AI придерживается принципов защиты интеллектуальной собственности в своей новой аудиомодели. Чтобы устранить беспокойства по поводу авторских прав, Stable Audio 2.0 была обучена исключительно на лицензионных данных от AudioSparx и учитывает запросы на отказ. Технология распознавания контента следит за загруженным аудио, чтобы предотвратить обработку защищенного материала.

Защита авторских прав имеет решающее значение для успешной коммерциализации Stable Audio и обеспечения безопасного использования для организаций. В настоящее время Stable Audio генерирует доход через подписки на веб-приложение, при этом скоро ожидается запуск API.

Однако Stable Audio пока не является открытой моделью. “Веса для Stable Audio 2.0 не будут доступны для загрузки, но мы разрабатываем открытые аудиомодели для выпуска в конце этого года,” — подтвердил Эванс.

Google Cloud и CSA: Лидерство C-Suite ускоряет внедрение генеративного ИИ в кибербезопасности в 2024 году

AWS представил крупную модель Mistral в Amazon Bedrock для улучшения возможностей AI.

Most people like

AIHUG.APP

7.9K

Преобразуйте две простые фотографии в трогательные видео обнимающихся, которые передают эмоции и дарят радость.

Генератор видео AI Hug AI Photo & Image Generator

KYC Hub

25.4K

Представляем всеобъемлющую платформу для автоматизации соблюдения норм и управления рисками. Этот инновационный инструмент упрощает процессы, повышает точность и снижает риски, позволяя организациям легко справляться со сложностями регулирующих стандартов. Узнайте, как наша платформа может революционизировать вашу стратегию соблюдения норм уже сегодня!

Автоматизация соблюдения требований AI Analytics Assistant

ChatKit

19.5K

Улучшите свой опыт работы с ChatGPT благодаря усовершенствованному интерфейсу и практическим функциям, которые повышают функциональность.

интерфейс пользователя AI Developer Tools

Decisions

72.1K

Откройте силу автоматизации и преобразите свою жизнь. Узнайте, как внедрение технологий может упорядочить ваши задачи, повысить продуктивность и привести к значительным изменениям как в личной, так и в профессиональной сферах.

Автоматизация No-Code&Low-Code

Find AI tools in YBX