두바이에 본사를 둔 스타트업 Camb AI는 AI 기반 콘텐츠 로컬화 기술을 전문으로 하며, 최신 AI 음성 복제 모델인 Mars5를 공개했습니다. ElevenLabs와 같은 여러 모델이 디지털 음성 복제를 생성할 수 있지만, Camb AI의 Mars5는 뛰어난 사실성으로 차별화됩니다. 회사의 초기 샘플에 따르면, Mars5는 원래 음성을 모사하는 것뿐만 아니라 리듬, 감정, 억양과 같은 섬세한 운율 요소도 포착합니다.
Camb AI는 ElevenLabs보다 거의 세 배 많은 언어를 지원하며, 아이슬란드어와 스와힐리어와 같은 덜 일반적으로 사용되는 언어를 포함하여 140개 이상의 언어를 제공합니다. 반면, ElevenLabs는 36개 언어를 지원합니다. 영어 전용 오픈 소스 버전은 오늘부터 GitHub에서 사용할 수 있으며, 보다 다양한 언어 지원은 Camb의 유료 Studio를 통해 접근할 수 있습니다.
“Mars5가 몇 초의 입력으로 포착하는 운율과 사실성의 수준은 전례가 없습니다. 이는 음성 기술의 획기적인 순간을 의미합니다,”라고 공동 창립자이자 CTO인 Akshat Prakash는 말했습니다.
음성 복제와 텍스트 음성이 통합된 방식
전통적으로 음성 복제와 텍스트 음성 변환은 별개의 과정이지만, Mars5는 두 가지 기능을 단일 플랫폼으로 통합합니다. 사용자는 몇 초에서 1분 사이의 오디오 파일을 업로드하고 합성할 텍스트를 제공합니다. 모델은 오디오를 분석하여 화자의 목소리, 스타일, 감정, 의미를 복제하고 텍스트를 자연스러운 음성으로 변환합니다.
Camb AI는 Mars5가 다양한 감정 톤을 능숙하게 포착한다고 주장하며, 복잡한 음성 상황인 좌절, 명령, 침착함, 열정 등의 표현이 가능합니다. 이러한 다재다능함은 스포츠 해설, 영화, 애니메이션과 같은 전통적으로 도전적인 콘텐츠에 Mars5를 이상적으로 만듭니다.
이러한 운율 수준을 달성하기 위해 Mars5는 약 750M 매개변수를 가진 Mistral 스타일의 자가 회귀 모델과 약 450M 매개변수를 가진 혁신적인 비자가 회귀 다항 분산 모델을 결합하여 6kbps encodec 토큰을 사용합니다.
“AR 모델은 encodec 기능을 위한 가장 기본적인 코드북 값을 예측하고, NAR 모델은 이러한 예측을 보완하여 나머지 코드북 항목을 '인페인팅'합니다. 이 접근 방식은 향상된 정확성을 위한 잡음 제거 분산 과정을 사용합니다,”라고 Prakash는 설명했습니다.
다른 모델과의 성능 비교
구체적인 벤치마크 통계는 아직 공개되지 않았지만, 초기 테스트에서는 Mars5가 Metavoice 및 ElevenLabs와 같은 인기 음성 생성 모델을 능가하며, 원래 음성을 더 비슷하게 복제하는 결과를 자주 생성하는 것으로 나타났습니다.
“ElevenLabs가 500K 시간 이상의 상당히 큰 데이터셋으로 훈련했음에도 불구하고, 우리의 모델 구조가 음성의 미세한 뉘앙스를 더 효과적으로 포착합니다. 데이터셋을 확장하고 Mars5를 추가로 훈련하면서 업데이트를 GitHub에서 배포할 계획이며, 더욱 큰 개선을 기대하고 있습니다,”라고 Prakash가 덧붙였습니다.
Camb AI는 또한 맥락을 이해하고 문법적 정확성을 보장하며 구어체 뉘앙스를 담아내는 번역을 위한 오픈 소스 모델 Boli를 공개할 준비를 하고 있습니다.
“Boli는 구글 번역과 같은 전통적인 번역 도구를 초월하여, 특히 자원이 적거나 중간 정도인 언어를 위해 뉘앙스 있고 문화적으로 관련된 번역을 제공합니다. 피드백에 따르면, Boli는 ChatGPT와 같은 첨단 생성 모델을 포함하여 주류 도구보다 상당히 더 뛰어난 성과를 보이고 있습니다,”라고 Prakash는 밝혔습니다.
현재 Mars5와 Boli는 Camb의 독점 플랫폼인 Camb Studio에서 140개 언어를 지원하며, 기업, 중소기업, 개발자를 위한 API 형태로 이러한 기능을 제공하고 있습니다. Camb AI는 메이저 리그 사커, 테니스 호주, 메이플 리프 스포츠 & 엔터테인먼트 및 주요 영화 및 음악 스튜디오, 여러 정부 기관과 협력하고 있습니다.
특히 Camb AI는 메이저 리그 사커 경기에서 동시에 4개 언어로 2시간 이상 실시간 더빙을 하며 역사를 썼고, 호주 오픈의 경기 후 기자회견을 여러 언어로 번역했으며, 심리 스릴러 “Three”를 아랍어에서 만다린으로 변환하기도 했습니다.