레셈블 AI, 음성 기술의 게임 체인저인 신속 음성 클로닝 출시
레셈블 AI가 기업 사용자들을 위한 혁신적인 기능인 신속 음성 클로닝을 공개했습니다. 이 기능은 음성 클론 생성 과정을 가속화하여 AI 음성 분야에서 큰 변화를 가져올 것으로 기대됩니다.
현재 이용 가능한 신속 음성 클로닝은 사용자가 약 1분 만에 짧은 오디오 샘플로 음성을 복제할 수 있게 해줍니다. 이 혁신은 사용자에게 애플리케이션에 맞는 맞춤 음성을 쉽게 생성하도록 권한을 부여해, 콘텐츠 제작, 개인화, 접근성 등 다양한 분야에서 큰 영향을 미칠 것으로 보입니다.
신속 음성 클로닝 작동 원리
사용자는 레셈블의 웹 플랫폼을 통해 명확한 오디오 샘플을 업로드하거나 1분 이내의 음성을 녹음하여 디지털 음성 복제본을 만들 수 있습니다. 이전에는 약 25문장을 녹음하거나 최소 3분의 음성 콘텐츠를 업로드해야 했으며, 이 과정은 약 1시간이 소요되었습니다. 그러나 신속 음성 클로닝을 통해 사용자는 10초에서 1분의 오디오 샘플로 시작할 수 있습니다. 플랫폼의 고급 머신 러닝 알고리즘은 모든 음성 매개변수를 즉시 포착하고 1분 이내에 클론 음성을 제공합니다.
레셈블 AI의 혁신적인 알고리즘은 다양한 억양의 미세한 차이를 효과적으로 복제하여 짧은 샘플로도 정확한 음성을 생성할 수 있도록 합니다. 최근 블로그 게시물에서는 이 기능을 강조하며, Microsoft의 VALL-E 및 XTTS-v2 음성 클로닝 모델과의 비교를 통해 인상적인 결과를 보여주었습니다.
기술 테스트
테스트에서는 사용자가 최소 3개의 긴 문장을 녹음해야 했으며, 짧은 샘플은 허용되지 않았습니다. 처리 속도는 빠른 편이었지만, 인도 영어 억양을 인식하는 데 어려움을 겪어 미국 영어 샘플로 기본 설정되었고, 결과 음성의 억양에 영향을 미쳤습니다. 하지만 회사는 신속 음성 클로닝이 결국 대부분의 영어 억양을 지원할 것이라고 확신하고 있습니다.
레셈블 AI는 기존의 전문 음성 클로닝 기능도 계속 제공할 예정입니다. 이 방법은 입력 요구 사항이 많고 처리 시간이 길지만 모든 영어 억양을 지원하며, 텍스트-음성 및 음성-음성 기능을 포함합니다. 반면 신속 음성 클로닝은 오직 텍스트-음성 생성에만 집중합니다.
산업 전반에 걸친 응용
신속한 처리 및 최소한의 샘플 요구사항 덕분에 레셈블 AI는 콘텐츠 제작자들 사이에서 신속 음성 클로닝의 채택이 증가할 것으로 기대하고 있습니다. 이 기술은 팟캐스트, 비디오, 오디오북 및 온라인 학습 자료를 위한 음성 해설, 더빙, 내레이션 및 대화를 생성할 수 있습니다. 기업들은 이 혁신을 활용하여 접근성을 높이고 사용자 맞춤형 경험을 제공할 수 있습니다.
예를 들어, 피트니스 앱은 신속 음성 클로닝을 이용해 친숙한 목소리로 사용자와 소통하는 AI 코치를 만들 수 있으며, tailored 의 격려와 지침을 제공할 수 있습니다. 또 다른 예로, 가상 비서는 사용자 선호에 맞게 목소리를 조정하여 보다 개인화된 상호작용을 제공할 수 있습니다.
시장 경쟁
레셈블 AI는 음성 클로닝 속도를 높이는 데 있어 독주자가 아닙니다. ElevenLabs는 최소 1분의 명확한 오디오가 필요하고 거의 즉시 음성을 생성할 수 있는 Instant Voice Cloning이라는 유사한 솔루션을 제공합니다. 레셈블과 마찬가지로 ElevenLabs도 여러 언어와 억양을 지원하는 전문 버전을 제공합니다.
현재 레셈블 AI는 사용자에게 무료 음성 클론 하나를 생성할 수 있게 허용하고 있으며, 추가 클론을 원할 경우 월 $29부터 시작하는 유료 플랜에 구독해야 합니다. 옵션은 최대 월 $499까지 가능합니다. 개인 플랜은 사용량 기반으로 요금이 부과되며, 맞춤형 기업 가격 책정도 가능합니다.
이러한 발전을 통해 레셈블 AI는 혁신적인 음성 기술을 통해 창의적이고 비즈니스 기회를 연다는 방향으로 나아가고 있습니다.