음성 클로닝: AI 오디오 생성의 미래
음성 클로닝은 개인의 음성 특성을 기술적으로 재현하는 생성형 AI의 빠르게 발전하는 분야입니다. 여기에는 음조, 음색, 리드미컬한 특성, 행동 및 독특한 발음이 포함됩니다. ElevenLabs와 같은 스타트업은 이 목적으로 상당한 자금을 유치하였고, 메타 플랫폼은 제한이 있는 무료 음성 클로닝 도구인 오디오박스를 선보였습니다.
오디오박스 소개
Facebook AI Research(FAIR) 연구소에서 공개된 오디오박스는 "오디오 생성의 기초 연구 모델"로 설명되며, 이전의 Voicebox 작업을 기반으로 합니다. 오디오박스 웹페이지에 따르면, "음성 입력과 자연어 텍스트 프롬프트의 조합을 통해 음성과 음향 효과를 생성하여 다양한 사용 사례에 맞춘 맞춤형 오디오를 쉽게 만들 수 있습니다."
사용자는 클론된 목소리로 말할 문장을 입력하거나 생성하고자 하는 소리를 설명할 수 있습니다. 또는 자신의 목소리를 녹음하여 오디오박스에서 클론할 수도 있습니다.
오디오 생성 모델의 가족
메타는 음성 모방 및 개 짖는 소리와 사이렌과 같은 환경음 효과를 위한 “모델 가족”을 개발하였습니다. 이 모든 모델은 공유된 자기 지도 학습(SSL) 모델인 Audiobox SSL을 기반으로 합니다.
자기 지도 학습은 AI 알고리즘이 레이블이 없는 데이터에 대한 레이블을 스스로 생성하는 딥러닝 기술로, 사전 레이블이 부여된 데이터에 의존하는 감독 학습과는 다릅니다. 연구자들의 논문은 SSL 접근법을 설명하며 "레이블이 붙은 데이터는 항상 이용 가능하거나 고품질하지 않기 때문에 우리는 대본이나 자막 없이 오디오로 학습하는 전략을 채택했습니다."라고 강조합니다.
Audiobox를 포함한 주요 생성형 AI 모델은 훈련을 위해 인간이 생성한 데이터에 의존하는 경우가 많습니다. FAIR 연구자들은 "160K 시간의 음성(주로 영어), 20K 시간의 음악, 6K 시간의 음향 샘플"을 활용했습니다. 이 음성 데이터는 오디오북, 팟캐스트, 대화 및 다양한 음향 환경에서의 녹음을 포함하며, 150개 이상의 국가에서 200개 이상의 주요 언어를 사용하는 화자들이 포함되어 있습니다.
연구 논문에서는 이 데이터의 출처를 구체적으로 명시하지 않았지만, 콘텐츠 제작자와 권리 보유자들이 AI 회사들이 저작권이 있을 수 있는 자료를 적절한 동의 없이 사용하여 모델을 훈련하는 것에 대해 우려를 표명하고 있습니다. 메타는 "오디오박스는 공개적으로 사용 가능한 라이센스 데이터셋으로 훈련되었습니다."라고 밝혔지만 구체적인 출처는 밝혀지지 않았습니다.
오디오박스를 직접 사용해 보세요
메타는 사용자들이 자신의 목소리를 녹음하여 클론된 목소리를 생성하고, 해당 목소리로 말할 텍스트를 입력하는 인터랙티브한 데모를 제공합니다. 제 경험상 결과는 놀라울 정도로 제 목소리와 유사했으며, 이것을 듣고 목소리 출처를 모르던 가족도 이를 확인했습니다.
사용자는 "깊은 여성 목소리"나 "미국의 높은 남성 목소리"와 같은 텍스트 설명을 기반으로 새로운 목소리를 생성하고, 개 짖는 소리와 같은 다양한 소리를 만들어낼 수 있습니다. 저는 "개 짖는 소리"로 테스트하여 두 가지 설득력 있는 결과를 얻었습니다.
하지만 중요한 한 가지가 있습니다: “이것은 연구 데모로 상업적 목적으로 사용할 수 없습니다.”라는 면책 조항이 있습니다. 또한, 오디오 수집을 규제하는 주 법률로 인해 일리노이주와 텍사스주 거주자는 이용할 수 없습니다.
오디오박스와 AI 오디오 생성의 미래
메타의 최근 Imagine by Meta AI 이미지 생성 도구와 달리, 오디오박스는 오픈 소스가 아니며, 이는 메타의 Llama 2 대형 언어 모델(LLMs)에서의 개방성 약속과는 다른 방향입니다. 메타 대변인은 안전성과 책임 연구를 위한 보조금 신청을 위해 연구자와 학술 기관을 초청할 예정이라고 밝혔습니다.
현재 오디오박스는 상업적 목적으로 사용할 수 없으며, 미국에서 가장 인구가 많은 두 개 주의 주민들이 이용할 수 없습니다. 하지만 AI 기술이 빠르게 발전함에 따라 상업적 버전의 출현을 기대할 수 있으며, 이는 메타 또는 다른 개발자들에 의해 제공될 것입니다.