메타, 음성을 복제하고 분위기 사운드스를 생성하는 AI 도구 오디오박스 출시

Home AI 뉴스 메타, 음성을 복제하고 분위기 사운드스를 생성하는 AI 도구 오디오박스 출시

음성 클로닝: AI 오디오 생성의 미래

음성 클로닝은 개인의 음성 특성을 기술적으로 재현하는 생성형 AI의 빠르게 발전하는 분야입니다. 여기에는 음조, 음색, 리드미컬한 특성, 행동 및 독특한 발음이 포함됩니다. ElevenLabs와 같은 스타트업은 이 목적으로 상당한 자금을 유치하였고, 메타 플랫폼은 제한이 있는 무료 음성 클로닝 도구인 오디오박스를 선보였습니다.

오디오박스 소개

Facebook AI Research(FAIR) 연구소에서 공개된 오디오박스는 "오디오 생성의 기초 연구 모델"로 설명되며, 이전의 Voicebox 작업을 기반으로 합니다. 오디오박스 웹페이지에 따르면, "음성 입력과 자연어 텍스트 프롬프트의 조합을 통해 음성과 음향 효과를 생성하여 다양한 사용 사례에 맞춘 맞춤형 오디오를 쉽게 만들 수 있습니다."

사용자는 클론된 목소리로 말할 문장을 입력하거나 생성하고자 하는 소리를 설명할 수 있습니다. 또는 자신의 목소리를 녹음하여 오디오박스에서 클론할 수도 있습니다.

오디오 생성 모델의 가족

메타는 음성 모방 및 개 짖는 소리와 사이렌과 같은 환경음 효과를 위한 “모델 가족”을 개발하였습니다. 이 모든 모델은 공유된 자기 지도 학습(SSL) 모델인 Audiobox SSL을 기반으로 합니다.

자기 지도 학습은 AI 알고리즘이 레이블이 없는 데이터에 대한 레이블을 스스로 생성하는 딥러닝 기술로, 사전 레이블이 부여된 데이터에 의존하는 감독 학습과는 다릅니다. 연구자들의 논문은 SSL 접근법을 설명하며 "레이블이 붙은 데이터는 항상 이용 가능하거나 고품질하지 않기 때문에 우리는 대본이나 자막 없이 오디오로 학습하는 전략을 채택했습니다."라고 강조합니다.

Audiobox를 포함한 주요 생성형 AI 모델은 훈련을 위해 인간이 생성한 데이터에 의존하는 경우가 많습니다. FAIR 연구자들은 "160K 시간의 음성(주로 영어), 20K 시간의 음악, 6K 시간의 음향 샘플"을 활용했습니다. 이 음성 데이터는 오디오북, 팟캐스트, 대화 및 다양한 음향 환경에서의 녹음을 포함하며, 150개 이상의 국가에서 200개 이상의 주요 언어를 사용하는 화자들이 포함되어 있습니다.

연구 논문에서는 이 데이터의 출처를 구체적으로 명시하지 않았지만, 콘텐츠 제작자와 권리 보유자들이 AI 회사들이 저작권이 있을 수 있는 자료를 적절한 동의 없이 사용하여 모델을 훈련하는 것에 대해 우려를 표명하고 있습니다. 메타는 "오디오박스는 공개적으로 사용 가능한 라이센스 데이터셋으로 훈련되었습니다."라고 밝혔지만 구체적인 출처는 밝혀지지 않았습니다.

오디오박스를 직접 사용해 보세요

메타는 사용자들이 자신의 목소리를 녹음하여 클론된 목소리를 생성하고, 해당 목소리로 말할 텍스트를 입력하는 인터랙티브한 데모를 제공합니다. 제 경험상 결과는 놀라울 정도로 제 목소리와 유사했으며, 이것을 듣고 목소리 출처를 모르던 가족도 이를 확인했습니다.

사용자는 "깊은 여성 목소리"나 "미국의 높은 남성 목소리"와 같은 텍스트 설명을 기반으로 새로운 목소리를 생성하고, 개 짖는 소리와 같은 다양한 소리를 만들어낼 수 있습니다. 저는 "개 짖는 소리"로 테스트하여 두 가지 설득력 있는 결과를 얻었습니다.

하지만 중요한 한 가지가 있습니다: “이것은 연구 데모로 상업적 목적으로 사용할 수 없습니다.”라는 면책 조항이 있습니다. 또한, 오디오 수집을 규제하는 주 법률로 인해 일리노이주와 텍사스주 거주자는 이용할 수 없습니다.

오디오박스와 AI 오디오 생성의 미래

메타의 최근 Imagine by Meta AI 이미지 생성 도구와 달리, 오디오박스는 오픈 소스가 아니며, 이는 메타의 Llama 2 대형 언어 모델(LLMs)에서의 개방성 약속과는 다른 방향입니다. 메타 대변인은 안전성과 책임 연구를 위한 보조금 신청을 위해 연구자와 학술 기관을 초청할 예정이라고 밝혔습니다.

현재 오디오박스는 상업적 목적으로 사용할 수 없으며, 미국에서 가장 인구가 많은 두 개 주의 주민들이 이용할 수 없습니다. 하지만 AI 기술이 빠르게 발전함에 따라 상업적 버전의 출현을 기대할 수 있으며, 이는 메타 또는 다른 개발자들에 의해 제공될 것입니다.

AI 환경 탐색: Glasswing AI Palette가 스타트업을 혁신적 성장으로 이끄는 방법

앤트로픽, AI 편향 및 차별 방지를 위한 혁신적인 연구로 새로운 이니셔티브 추진

Most people like

Ready Player Me

337.3K

레디 플레이어 미는 게임과 애플리케이션을 위한 맞춤형 아바타를 생성하는 선두 개발 도구로, 독특하고 몰입감 있는 사용자 경험을 보장합니다.

캐릭터 생성기 AI Avatar Generator

HighlightFactCheck.com

신속하고 정확한 온라인 사실 확인을 위한 종합 플랫폼.

팩트체크 Other

Humanize AI

640.1K

오늘날의 디지털 환경에서 매력적인 콘텐츠를 신속하게 만드는 것은 필수적입니다. 텍스트를 매력적이고 인간적인 콘텐츠로 변환하도록 특별히 설계된 AI 기반 도구를 만나보세요. 고급 알고리즘과 자연어 처리를 통해 글쓰기를 향상시켜, 청중에게 공감을 주면서 시간과 노력을 절약할 수 있습니다. 기사, 블로그 게시물 또는 소셜 미디어 업데이트를 작성하든, AI의 가능성을 활용하여 콘텐츠를 손쉽게 강화하세요.

AI 텍스트 인간화 도구 AI Rewriter

Deep Swapper

1.4M

최고의 무료 AI 얼굴 스왑 도구를 경험해 보세요. 매끄럽고 고품질의 얼굴 스왑을 위해 설계되었습니다. 이미지를 손쉽게 변환하고 이 혁신적인 기술로 콘텐츠를 향상시켜 보세요!

인공지능 Image to Image

Find AI tools in YBX