После успешного запуска инструментов для синтеза речи и звука, стартап ElevenLabs, специализирующийся на AI-голосах, нацелился на новую веху. Основанный бывшими сотрудниками Google и Palantir, двухлетний стартап сегодня представил свою последнюю инновацию: Sound Effects, инструмент для текстового синтеза звука на основе AI.
Sound Effects уже доступен на сайте ElevenLabs и использует фирменную модель компании, позволяя создателям генерировать разнообразные аудиозаписи, просто вводя описание желаемого звука.
Первоначально анонсированный в феврале, когда clips, созданные с помощью Sora, были дополнены AI-звуковыми эффектами, Sound Effects представляет собой значительный шаг вперёд для контент-креаторов, стремящихся к созданию погружающего звукового опыта.
Что могут ожидать создатели от Sound Effects?
Ранее добавление фоновых звуков к контенту — таким как социальные видео, игры, фильмы и телешоу — требовало от создателей либо ручной записи звуков, либо покупки аудиофайлов из различных онлайн-ресурсов. Такой подход может быть ограничивающим, создавая нехватку доступных звуков и потенциальные бюджетные ограничения.
Sound Effects от ElevenLabs упрощает этот процесс. Пользователи могут легко описывать воображаемый звук на простом, разговорном языке. Основная модель обрабатывает запрос и генерирует шесть уникальных аудиозаписей на выбор. Пользователи могут прослушать каждый вариант и беспрепятственно скачать или сохранить предпочитаемые звуки прямо с платформы ElevenLabs.
В ходе предварительного тестирования одно медиа-издание отметило, что Sound Effects произвел четкие выходные данные за 30-40 секунд, хотя было сгенерировано всего четыре варианта вместо шести. Эти образцы включали различные фоновые звуки — от стандартных шумов, таких как гром и дверные звонки, до более сложных эффектов, таких как болтливые обезьяны и приближающиеся поезда.
Мати Станишевский, генеральный директор ElevenLabs, отметил, что инструмент способен генерировать более длинные аудиофайлы, включая инструментальную музыку и голоса персонажей. «Sound Effects может создавать инструментальные треки длиной до 22 секунд по запросам, таким как 'гитарный луп' или 'джазовое соло на саксофоне',» — объяснил он. Пользователи также могут создавать голоса персонажей с помощью запросов, таких как «женщина поет, танцуя на песке» или «огр говорит: 'держись подальше, жалкий человек.'» Кроме того, пользователи могут соединять звуки с помощью запросов вроде: «Счастливая пожилая женщина говорит, что гордится тобой, затем смеётся.»
Хотя конкретные детали о модели не были раскрыты, ElevenLabs подчеркнул, что она была разработана в ходе внутренних исследований и доработана с использованием обширной библиотеки лицензированных аудиотреков Shutterstock. Эйми Игън, директор по корпоративным вопросам Shutterstock, выразила восторг по поводу сотрудничества, заявив: «Синергия между нашей богатой библиотекой и этой инновационной аудиотехнологией привела к настоящему рыночному прорыву.»
Цель — расширить возможности создателей по всему миру
С момента своего запуска ElevenLabs нацелился на разработку передовых AI-решений в области аудио. Компания начала с моделей текста в речь на нескольких языках, за которыми последовали заметные продукты, такие как клонирование голоса и AI-дубляж, который переводит аудио и видео на 29 языков, сохраняя голос оригинального Sprecher.
С помощью Sound Effects ElevenLabs расширяет свои предложения, предоставляя создателям — включая кинематографистов, разработчиков игр, маркетологов и влиятельных лиц в социальных сетях — более мощные инструменты для улучшения их контента.
Хотя Станишевский не раскрыл конкретные компании, которые в настоящее время тестируют продукт в альфа-режиме, он упомянул, что ElevenLabs обслуживает 41% компаний из списка Fortune 500, среди которых такие заметные клиенты, как The Washington Post, Storytel и TheSoul Publishing.
Смотрим в будущее, компания планирует представить модель генерации музыки и студию озвучивания, обе в настоящее время находятся на стадии альфа-тестирования, однако сроки остаются неопределёнными.
Рынок AI-синтеза речи, звука и музыки бурно развивается, с конкурентами, такими как Google, Meta, Suno, Pika, MURF.AI, Play.ht и WellSaid Labs. По данным Market US, глобальный рынок этих инструментов достиг 1,2 миллиарда долларов в 2022 году и, по прогнозам, вырастет почти до 5 миллиардов долларов к 2032 году, с совокупным годовым темпом роста (CAGR) свыше 15,40%.