머신 러닝(ML) 음성 복제 및 합성을 완벽하게 구현한 AI 스타트업 ElevenLabs가 새로운 텍스트-사운드 모델로 서비스를 확장하고 있습니다. 최근 발표된 이 혁신적인 AI는 창작자들이 자신의 비전을 글로 설명하기만 하면 사운드 효과를 생성할 수 있도록 해, AI 기반 디지털 경험의 발전하는 환경에서 콘텐츠를 향상시킵니다. 모델은 아직 공개되지 않았지만, ElevenLabs는 OpenAI의 Sora로 제작된 비디오를 활용하여 회사의 AI 생성 사운드를 입힌 기능을 시연하는 티저를 공개했습니다. 또한 얼리 액세스 대기 명단에 등록할 수 있는 페이지도 개설했습니다.
AI 사운드 효과로 오디오 가능성 확장
2022년에 설립된 ElevenLabs는 다양한 언어와 지역에서 오디오 및 비디오 콘텐츠를 보다 접근 가능하게 만드는 데 헌신하고 있습니다. 이 회사는 텍스트-음성 및 음성-음성 모델을 포함한 다양한 도구를 제공하며, 자연스러운 음성과 감정 표현을 유지하면서 29개 언어로 텍스트, 오디오 또는 비디오 등 다양한 콘텐츠 소스에서 AI 생성 음성을 제작할 수 있습니다. 이러한 도구는 기업과 개인 콘텐츠 창작자들 사이에서 인기를 얻고 있으며, Runway, Pika, OpenAI의 Sora와 같은 도구들이 주도적으로 진행하고 있는 완전 AI 생성 콘텐츠의 증가와 함께하고 있습니다. 이 제품들은 간단한 텍스트 프롬프트로 사실적인 비디오를 생성할 수 있지만, 종종 수반하는 오디오가 부족합니다. ElevenLabs의 새로운 모델은 사용자들이 텍스트 설명을 기반으로 콘텐츠에 사용할 사운드 효과를 생성할 수 있도록 해 이 격차를 메우는 것을 목표로 하고 있습니다.
이 모델을 통해 AI 창작자들은 새소리부터 번화한 거리 소음까지, 배경 사운드로 프로젝트를 매끄럽게 강화할 수 있습니다. ElevenLabs의 성장 책임자인 Luke Harries는 “우리는 주로 텍스트-음성 모델을 공개해왔지만, 더 많은 개발 중인 제품이 있습니다. OpenAI가 사운드 없이 인상적인 비디오를 생성하는 Sora를 공개했을 때, 우리는 다가오는 제품 라인의 미리보기를 제공하기로 결정했습니다”라고 전하면서 ElevenLabs의 AI 사운드 효과로 개선된 Sora 생성 비디오가 담긴 게시물을 공유했습니다. 이 새로운 모델이 생성하는 사운드는 텍스트에서 음성으로 전환된 콘텐츠나 인스타그램 클립, 광고, 비디오 게임 트레일러와 같은 배경 오디오가 필요한 비디오 프로젝트에 적용될 수 있습니다. 이 사운드 효과의 품질과 다양성은 아직 검토 중입니다.
얼리 액세스 신청하기
ElevenLabs는 공식 출시 날짜를 발표하지 않았지만, 현재 얼리 액세스 등록을 받고 있습니다. 관심 있는 이용자는 이름과 이메일을 제공하며 사운드 효과의 용도를 설명하는 신청 페이지를 방문할 수 있습니다. 얼리 액세스 대기자들은 AI 사운드 효과에 대한 샘플 프롬프트를 작성하여 모델의 반응 최적화에 도움을 주도록 권장받고 있습니다. 등록 후에는 대기 명단에 추가되며 모델이 이용 가능해질 때 접속할 수 있습니다. 다만, 세부 일정은 아직 미정입니다.
ElevenLabs는 이 기술로 선발주자 혜택을 누릴 수 있지만, MURF.AI, Play.ht, WellSaid Labs와 같은 AI 음성 분야의 다른 기업들도 유사한 제품을 개발할 잠재력이 있습니다. Market US에 따르면, 2022년 세계 AI 오디오 도구 시장은 12억 달러의 가치가 있었으며, 2032년에는 거의 50억 달러에 이를 것으로 예상되며, 연평균 성장률(CAGR)은 15.40%를 초과할 것으로 보입니다.