엘레븐랩스, 비디오에 음향 효과를 손쉽게 추가할 수 있는 오픈소스 도구 출시

최근 사운드 이펙트 텍스트-투-사운드 AI를 출시한 AI 음성 스타트업 ElevenLabs는 그 기능을 선보이는 오픈 소스 도구를 공개했습니다. 이 애플리케이션은 사용자가 클립을 임포트하면 15초 만에 비디오를 위한 사운드 이펙트 샘플을 생성할 수 있게 해줍니다.

개발자들은 GitHub에서 애플리케이션의 코드를 확인할 수 있으며, 전용 웹사이트를 통해 대중은 사운드 이펙트 API를 실험해볼 수 있습니다. 비디오가 업로드되면, 비디오-사운드 이펙트 애플리케이션은 클라이언트 측에서 1초 간격으로 네 개의 프레임을 추출합니다. 이 프레임과 함께 입력된 프롬프트는 OpenAI의 GPT-4로 전송되어 맞춤형 텍스트-투-사운드 이펙트 프롬프트를 생성합니다. 이후 ElevenLabs의 사운드 이펙트 API를 통해 사운드 이펙트를 생성하고, 최종적으로 비디오와 오디오는 클라이언트 측에서 결합되어 최대 22초 길이의 다운로드 가능한 파일로 만들어집니다.

"우리는 이 기술이 사용자들이 우리의 SFX API로 무엇을 이룰 수 있는지를 증명하는 개념 증명이라고 생각합니다."라고 ElevenLabs의 디자인 리드인 Ammaar Reshi가 말했습니다. "AI 비디오 제작자들은 종종 완벽한 사운드 이펙트를 찾고 있으며, 우리는 비디오 프레임을 분석하고 최적의 출력을 제안함으로써 이 과정을 간소화하고자 합니다." 그는 특히 몰입형 비디오 게임에서 플레이어의 상호작용에 따라 사운드 이펙트가 발전할 수 있는 역동적인 경험의 잠재력을 강조했습니다.

이 API는 개발자들이 간단한 설명으로 맞춤형 AI 사운드 이펙트를 생성할 수 있게 해줍니다. ElevenLabs는 사용량에 따라 과금하며, 자동 지속 시간으로 100자당 한 번 생성하거나 설정된 지속 시간에 따라 초당 25자씩 과금합니다.

간단한 테스트에서는 비디오-사운드 이펙트 애플리케이션이 사용하기 쉬웠습니다. 전지형 환경에서 차량의 무음 클립을 임포트한 후, ElevenLabs의 AI는 자갈길을 주행하는 차량의 소리가 나는 네 가지 옵션을 생성했습니다. 사운드 이펙트를 클립에 추가하는 것은 재미있지만, 진정한 잠재력은 이 기능을 더 큰 시스템에 통합하여 더 큰 영향을 미치는 데 있습니다.

AI 비디오 생성 환경이 발전함에 따라, ElevenLabs는 개발자, 영화 제작자 및 콘텐츠 제작자의 요구에 맞는 오디오 솔루션을 혁신함으로써 선두주자로 남고자 합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles