Несколько недель после запуска своего AI для преобразования текста в звуковые эффекты, стартап ElevenLabs представляет открытый инструмент, демонстрирующий его возможности. Это приложение позволяет создателям за 15 секунд генерировать образцы звуковых эффектов для своих видео, анализируя импортированный клип и предлагая несколько звуковых опций.
Разработчики могут получить доступ к коду приложения на GitHub, а специальный веб-сайт позволяет пользователям экспериментировать с API звуковых эффектов. Когда загружается видео, приложение Video to Sound Effects извлекает четыре кадра с интервалом в одну секунду на стороне клиента. Эти кадры, вместе с запросом, отправляются в GPT-4 от OpenAI для создания индивидуального запроса на преобразование текста в звуковые эффекты. Затем это используется для генерации звуковых эффектов через API ElevenLabs. В конце видео и аудио объединяются на стороне клиента в один загружаемый файл, длительностью до 22 секунд.
«Мы рассматриваем это как доказательство концепции того, что пользователи могут достичь с помощью нашего SFX API», — говорит Аммар Реши, руководитель дизайна ElevenLabs. «Создатели видео с помощью AI часто ищут идеальный звуковой эффект, и мы стремимся упростить этот процесс, анализируя кадры видео и предлагая оптимальные выходные данные». Он подчеркивает потенциал динамичного опыта, особенно в погружающих видеоиграх, где звуковые эффекты могут эволюционировать в зависимости от взаимодействия игрока.
API позволяет разработчикам создавать индивидуализированные звуковые эффекты AI с использованием кратких описаний. ElevenLabs взимает плату в зависимости от использования: либо 100 символов за генерацию с автоматической продолжительностью, либо 25 символов в секунду за установленную продолжительность.
В быстром тесте приложение для преобразования видео в звуковые эффекты оказалось простым в использовании. После импорта бесшумного клипа транспортного средства в условиях бездорожья AI ElevenLabs сгенерировал четыре звуковых варианта, все напоминающие машину, едущую по гравийной дороге. Хотя добавление звуковых эффектов в клипы может быть увлекательным, истинный потенциал заключается в интеграции этой возможности в более широкие системы для большего влияния.
С развитием ландшафта генерации видео с помощью AI ElevenLabs стремится оставаться на переднем крае, предлагая аудиорешения, которые удовлетворяют потребности разработчиков, кинематографистов и создателей контента.