После совершенствования технологий клонирования и синтеза голоса с использованием машинного обучения, стартап ElevenLabs, основанный бывшими сотрудниками Google и Palantir, расширяет свои предложения с помощью новой модели текст-в-звук.
Недавно анонсированная инновационная ИИ-модель позволит создателям генерировать звуковые эффекты, просто описывая свои идеи словами, что улучшит контент в быстро развивающемся мире цифровых опытов на основе ИИ. Хотя модель еще не доступна для широкой публики, ElevenLabs выпустила тизер, демонстрирующий ее возможности с помощью видео, созданных Sora от OpenAI, дополненных звуками, сгенерированными ИИ компании. Также был запущен сайт для регистрации в списке ожидания раннего доступа.
Расширение аудиовозможностей с помощью звуковых эффектов ИИ
Основанная в 2022 году, ElevenLabs нацелена на упрощение доступа к аудио и видеоконтенту на разных языках и в разных регионах. Компания предлагает разнообразные инструменты, включая текст-в-речь и речь-в-речь, способные генерировать ИИ-озвучивание из различных источников (текст, аудио или видео) на 29 языках, при этом сохраняя естественность голоса и эмоциональную выразительность.
Эти инструменты становятся популярными среди предприятий и индивидуальных создателей контента. В то же время полностью сгенерированный ИИ-контент набирает популярность благодаря таким инструментам, как Runway и Pika, наряду с Sora от OpenAI. Хотя эти продукты могут создавать реалистичные видео из простых текстовых подсказок, им часто не хватает звукового сопровождения. Новая модель ElevenLabs призвана устранить этот пробел, позволяя пользователям создавать звуковые эффекты на основе текстовых описаний.
С этой продукцией ИИ-користувачі могут без труда обогатить свои проекты фоновыми звуками, от пения птиц до городского шума.
«В ElevenLabs мы в основном демонстрировали наши модели текст-в-речь на публике, но у нас много других разработок. Когда OpenAI представила Sora, генерирующую впечатляющие видео без звука, мы решили показать нашу новую линейку продуктов», — отметил Люк Харрис, руководитель отдела роста компании, делясь постом с видео, сгенерированными Sora и обогащенными звуковыми эффектами ElevenLabs.
Звуки, созданные этой новой моделью, также могут быть применимы к произнесенному контенту из текста или любому видео-проекту, требующему фонового аудио, например, Instagram-клипам, рекламным роликам или трейлерам видеоигр. Качество и универсальность этих звуковых эффектов еще предстоит оценить.
Регистрация на ранний доступ
Хотя ElevenLabs не объявила дату публичного запуска, сейчас проводится регистрация на ранний доступ. Заинтересованные пользователи могут посетить страницу регистрации, указав свое имя и электронную почту, а также описав предназначение звуковых эффектов. Ранние участники могут предложить образец запроса для звукового эффекта, чтобы помочь оптимизировать ответы модели.
После регистрации пользователи попадут в список ожидания и получат доступ, когда модель станет доступной, хотя сроки пока не ясны.
Хотя ElevenLabs может иметь преимущество первопроходца с этой технологией, другие компании, работающие в секторе ИИ-речи, такие как MURF.AI, Play.ht и WellSaid Labs, также могут разработать аналогичные продукты.
Согласно Market US, мировой рынок ИИ-аудио инструментов в 2022 году оценивался в 1,2 миллиарда долларов и, по прогнозам, достигнет почти 5 миллиардов долларов к 2032 году с совокупным годовым темпом роста (CAGR) более 15,40%.