미래를 열다: MyShell, 새로운 오픈 소스 AI 음성 클로닝 모델 OpenVoice 출시

스타트업인 ElevenLabs는 음성 복제용 독자적인 알고리즘과 AI 소프트웨어 개발에 수백만 달러를 투자했습니다. 이를 통해 사용자 목소리를 재현하는 오디오 프로그램이 생성됩니다. 이제 매사추세츠 공과대학교(MIT), 베이징의 칭화대학교, AI 스타트업 MyShell의 연구자들이 OpenVoice를 소개합니다. 이 오픈 소스 음성 복제 솔루션은 거의 즉각적인 결과를 제공하며, 다른 플랫폼에서는 찾아볼 수 없는 세부 조정 기능을 자랑합니다.

"MyShell은 소규모 오디오 클립만으로 톤, 감정, 억양, 리듬, 일시 정지 및 음성의 억양을 조정하여 비할 데 없는 정확도로 음성을 복제합니다,"라고 MyShell은 최근 X에서 발표했습니다. 이 회사는 OpenVoice의 개발 내용을 담은 연구 논문과 사용자가 직접 시도해볼 수 있는 MyShell 웹 앱(사용자 계정 필요)과 HuggingFace(계정 없이 공개 접근) 링크를 공유했습니다.

MIT와 MyShell의 수석 연구자 Zengyi Qin은 이메일을 통해 프로젝트의 목표를 강조했습니다: "MyShell은 연구 공동체에 도움이 되는 것을 목표로 합니다. OpenVoice는 시작에 불과하며, 앞으로는 오픈 소스 연구를 지원하기 위해 보조금, 데이터셋, 컴퓨팅 파워를 제공할 것입니다. 우리의 핵심 사명은 '모두를 위한 AI'입니다."

OpenVoice의 동기에 대해 Qin은 "언어, 비전, 음성은 미래의 인공지능(AGI)에서 중요한 세 가지 모달리티입니다. 언어 및 비전 분야에는 다양한 오픈 소스 모델이 있지만, 커스터마이징을 위한 강력하고 즉각적인 음성 복제 모델이 부족했기에 이 프로젝트를 진행하게 되었습니다,"라고 설명했습니다.

OpenVoice 사용하기

HuggingFace에서 비공식 테스트를 진행한 결과, random speech를 이용해 빠르게 설득력 있는(약간 로봇 같은) 내 목소리 복제품을 생성할 수 있었습니다. OpenVoice는 다른 음성 복제 애플리케이션과 달리 특정 스크립트에 얽매이지 않고 자유롭게 이야기할 수 있도록 해주었습니다. 불과 몇 초 만에, 내가 입력한 텍스트 프롬프트를 정확하게 읽어주는 음성 복제를 얻었습니다. 또한, 클론의 "스타일"을 쾌활하거나 슬프거나 화난 등의 다양한 감정 설정으로 조정할 수 있어 톤을 효과적으로 변화시킬 수 있었습니다.

다음은 OpenVoice에서 "친근한" 톤으로 설정한 내 목소리 클론 샘플입니다.

OpenVoice의 제작 과정

OpenVoice의 창립자들은 연구 논문에서 그들의 방법론을 설명했습니다. OpenVoice는 두 개의 주요 AI 모델로 구성됩니다: 텍스트-음성 변환(TTS) 모델과 톤 변환기입니다. TTS 모델은 스타일 파라미터와 언어를 관리하며, 미국 및 영국 억양을 가진 두 명의 영어 화자, 한 명의 중국 화자, 한 명의 일본 화자로부터 30,000개의 문장에서 훈련되었고, 각 문장에는 특정 감정이 레이블링 되어 있습니다. 이 모델은 억양, 리듬, 일시 정지와 같은 뉘앙스를 학습했습니다.

톤 변환기는 20,000명 이상의 화자로부터 30만 개 이상의 음성 샘플로 훈련되었습니다. 말하는 언어에서 음원은 음소로 변환되어 단어를 구별하는 차별화된 소리로 나타내어 집니다. TTS 모델을 위해 "기본 화자"를 활용하고 사용자 입력의 톤 정보를 결합함으로써, 이러한 모델은 사용자의 목소리를 재현하고 감정 표현을 조정할 수 있습니다. OpenVoice 연구에서 이러한 모델이 어떻게 통합되는지를 보여주는 다이어그램이 있습니다.

개념적으로는 간단한 이 방법은 효율적이며 Meta의 Voicebox와 같은 경쟁사보다 훨씬 적은 컴퓨팅 자원을 필요로 합니다. Qin은 "가장 유연한 즉각 음성 복제 모델을 개발하는 것이 목표였습니다. 이 유연성은 스타일, 감정, 억양에 대한 제어력을 의미하며 어떤 언어에도 적응할 수 있습니다. 이전에는 이러한 포괄적인 기능이 복잡성 때문에 달성 불가능했으나, 디커플된 파이프라인 과정을 통해 간단함으로 효과적인 결과를 달성했습니다,"라고 전했습니다.

OpenVoice 뒤에 있는 이야기

2023년에 설립된 MyShell은 INCE Capital이 주도한 560만 달러의 시드 투자 라운드를 통해, Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC, OP Crypto의 지원을 받아 40만 명 이상의 사용자 확보에 성공했습니다. 조사 중 Discord 서버에서 61,000명 이상의 사용자를 발견했습니다.

MyShell은 "AI 기반 애플리케이션을 탐색, 생성 및 스테이킹하기 위한 분산되고 포괄적인 플랫폼"이라고 설명합니다. OpenVoice 외에도, 그들의 웹 앱은 Character.AI와 비슷한 다양한 텍스트 기반 AI 캐릭터와 고유한 성격을 가진 봇을 제공하며, 사용자 생성 RPG, 애니메이션 GIF 생성기와 같은 도구를 포함하고 있습니다.

수익 모델로 MyShell은 웹 앱 사용자와 자사를 통해 제품을 홍보하고자 하는 제3자 봇 제작자에게 월 사용료를 부과하며, AI 훈련 데이터에 대해서도 요금을 받습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles