OpenAI는 텍스트, 이미지, 비디오 생성 분야를 넘어 음성 클로닝이라는 음향 기술의 중대한 발전을 통해 영향력을 확장하고 있습니다. 오늘, 회사는 최신 AI 모델인 “Voice Engine”을 발표했습니다. 2022년부터 개발된 이 모델은 OpenAI의 텍스트 음성 변환 API와 이번 달 초 도입된 새로운 ChatGPT 음성 및 읽기 기능을 지원합니다.
음성 클로닝 작동 원리
Voice Engine은 인간 화자가 전화기나 컴퓨터 마이크를 통해 15초 동안 오디오 클립을 녹음함으로써 사실적인 음성 클론을 생성할 수 있습니다. AI는 원래 화자와 유사하게 자연스러운 음성을 생성하여 사용자가 입력한 텍스트를 말로 변환할 수 있도록 합니다.
말하는 오디오 시장에 미치는 중요한 영향
이 기술은 팟캐스터, 음성 출연자, 오디오북 내레이터, 게이머 및 고객 서비스 담당자 등 공개적으로 자주 말하는 개인들에게 큰 잠재력을 가집니다. 또한, ElevenLabs, Captions, Meta, WellSaid Labs, MyShell과 같은 경쟁 업체들에게 도전장을 내밉니다.
OpenAI는 또한 Voice Engine이 비언어적 개인들을 돕는 능력을 강조하며, 이는 언어 장애나 학습 어려움을 겪는 개인들에게 치료적 및 교육적 환경에서 중요한 역할을 합니다.
초기 사용 사례
OpenAI는 Voice Engine이 현재 신뢰할 수 있는 파트너 소규모 그룹에 제공되고 있다고 밝혔습니다:
- Age of Learning: Voice Engine과 GPT-4를 활용해 다양한 학생 맞춤 음성 콘텐츠를 제작합니다.
- HeyGen: 비디오 번역을 위해 이 기술을 사용하여 실제 같은 다국적 음성을 가진 맞춤 아바타를 만들어 국제적인 커뮤니케이션을 향상시킵니다.
- Dimagi: 커뮤니티 건강 작업자에게 인터랙티브하고 다국어 피드백을 제공하기 위해 Voice Engine을 통합하여 원격 지역 서비스 개선에 기여합니다.
- Livox: Voice Engine으로 AAC 앱의 기능을 강화하여 언어 및 청각 장애인에게 독특한 음성을 제공합니다.
- Norman Prince Neurosciences Institute at Lifespan: 언어 장애가 있는 환자들을 돕기 위해 이 기술을 사용하며, 과거 오디오 샘플을 기반으로 뇌종양 환자의 목소리를 복원하는 데 도움을 주었습니다.
OpenAI는 기술의 가능성을 보여주는 오디오 샘플을 제공하며, 환자의 원래 음성과 Voice Engine을 사용한 클론 버전의 비교를 포함합니다.
제한적 접근 및 조심스러운 배포
현재 Voice Engine은 일반 대중에게 제공되지 않습니다. OpenAI는 소규모 미리 보기를 통해 신뢰할 수 있는 파트너와만 통찰 및 결과를 공유하고 있습니다. 회사는 “합성 음성이 남용될 가능성을 고려하여 보다 폭넓은 배포에 대해 신중하고 정보에 기반한 접근을 하고 있습니다.”라고 밝혔습니다. OpenAI는 합성 음성의 책임 있는 사용에 대한 논의를 시작하고 사회가 이러한 발전에 어떻게 적응할 수 있을지 평가할 계획입니다.
OpenAI의 Voice Engine 배포 접근 방식은 AI 음성 모방에 대한 규제 요구와 일치합니다. 윤리적 사용을 보장하기 위해 기술을 테스트하는 파트너는 무단 모방을 금지하는 엄격한 정책을 준수하고 음성 제공자로부터 정보에 입각한 동의를 받아야 합니다. 또한, OpenAI는 책임 있는 기술 사용을 촉진하기 위해 워터마킹 및 선제적 모니터링과 같은 안전 조치를 구현하고 있습니다.