AI 음성 스타트업 ElevenLabs가 텍스트-음성 및 음성-음성 합성 도구를 성공적으로 출시한 후 새로운 혁신에 주목하고 있습니다. 구글과 팔란티어의 전 직원들이 설립한 이 스타트업은 최근 "Sound Effects"라는 텍스트-사운드 AI 도구를 소개했습니다.
현재 ElevenLabs 웹사이트에서 제공되는 Sound Effects는 회사의 독점 기반 모델을 활용하여 제작자들이 원하는 사운드의 설명만 입력하면 다양한 오디오 샘플을 생성할 수 있습니다. 2월에 Sora로 생성된 클립과 AI 사운드 이펙트로 처음 공개된 Sound Effects는 몰입형 오디오 경험을 원하는 콘텐츠 제작자들에게 큰 전환점이 될 것입니다.
Sound Effects의 기대 요소는?
전통적으로 콘텐츠에 환경음을 추가하려면 제작자들이 수동으로 사운드를 녹음하거나 온라인 리포지토리에서 오디오 파일을 구입해야 했습니다. 이는 사용 가능한 사운드의 한계를 초래하고 예산 제약을 받을 수 있습니다.
ElevenLabs의 Sound Effects는 이 과정을 간소화합니다. 사용자는 원하는 사운드에 대해 간단하고 자연스럽게 설명할 수 있으며, 이 모델이 프롬프트를 처리하여 여섯 개의 독특한 오디오 샘플을 생성합니다. 사용자는 각 옵션을 들어보고 ElevenLabs 플랫폼에서 선호하는 샘플을 손쉽게 다운로드하거나 저장할 수 있습니다.
초기 테스트에서는 미디어 매체가 Sound Effects가 30-40초 내에 명확한 출력을 생성했다고 보고했지만, 여섯 가지 대신 네 가지 옵션만 생성되었습니다. 생성된 샘플은 천둥소리, 초인종 소리 등 일반적인 소리부터 원숭이의 chatter나 기차 도착 등 복잡한 효과까지 다양합니다.
ElevenLabs의 CEO인 Mati Staniszewski는 이 도구가 악기 음악과 캐릭터 음성 등의 긴 오디오 샘플도 생성할 수 있다고 밝혔습니다. “Sound Effects는 '기타 루프'나 '재즈 색소폰 솔로'와 같은 프롬프트로 최대 22초의 악기 트랙을 생성할 수 있습니다.” 또한, 사용자는 “모래에서 춤추며 노래하는 여성”이나 “오거가 ‘지금 당장 꺼져라, 찌질한 인간.’이라고 말하는” 등의 프롬프트로 캐릭터 음성을 만들 수 있습니다. “행복한 노인이 ‘너가 자랑스러워.’라고 말한 뒤 웃는 소리.”와 같이 소리를 연결하는 것도 가능합니다.
기본 모델에 대한 자세한 내용은 공개되지 않았지만 ElevenLabs는 이 모델이 내부 연구를 통해 개발되었고 Shutterstock의 방대한 라이선스 오디오 트랙 라이브러리로 다듬어졌다고 강조했습니다. Shutterstock의 Chief Enterprise Officer인 Aimee Egan은 이 협업에 대한 기대감을 표현하며, "우리가 보유한 풍부한 라이브러리와 혁신적인 오디오 기술 간의 시너지가 진정한 시장 최초로 이어졌습니다."라고 전했습니다.
전 세계 제작자들에게 힘을 주기 위한 노력
ElevenLabs는 고급 AI 오디오 솔루션을 제공하기 위해 설립 이후 헌신해왔습니다. 회사는 여러 언어의 텍스트-음성 모델을 시작으로 음성 클로닝 및 AI 더빙과 같은 주목할 만한 제품을 출시하며 오디오와 비디오를 29개 언어로 번역하면서 원래 화자의 목소리를 유지하는 기능을 추가했습니다.
Sound Effects를 통해 ElevenLabs는 제작자들에게 더 강력한 도구를 제공하여 콘텐츠를 더욱 향상시키고자 합니다. 영화 제작자, 게임 개발자, 마케터, 소셜 미디어 인플루언서 등 다양한 사용자들이 혜택을 볼 수 있습니다.
Staniszewski는 현재 Alpha 테스트 중인 특정 기업의 이름을 밝히지는 않았지만, ElevenLabs는 포춘 500의 41%를 고객으로 보유하고 있으며, 워싱턴 포스트, 스토리텔, 더소울 출판사 등의 주요 고객이 있다고 언급했습니다.
향후에는 현재 알파 테스트 중인 음악 생성 모델과 보이스오버 스튜디오 제공을 계획하고 있으나, 시기는 아직 미정입니다. AI 음성, 사운드 및 음악 생성 시장은 빠르게 성장하고 있으며 구글, 메타, 수노, 피카, 머프.AI, 플레이.ht, 웰세이드랩스와 같은 경쟁자들이 활동 중입니다. Market US에 따르면, 이러한 도구의 글로벌 시장 규모는 2022년에 12억 달러에 달했으며 2032년까지 거의 50억 달러로 성장할 것으로 예상되며, 연평균 성장률(CAGR)은 15.40% 이상입니다.