목소리 클로닝 회사 Resemble AI, 고급 딥페이크 탐지 모델 출시
Resemble AI가 약 94%의 높은 정확도를 자랑하는 딥페이크 탐지 모델 Detect-2B를 공개했습니다.
혁신적인 모델 아키텍처
Detect-2B는 일련의 사전 훈련된 서브 모델을 활용하여 오디오 클립을 분석하고 AI 생성 여부를 판단합니다. 회사 블로그에서 "기존 Detect 모델의 탄탄한 기반 위에 DETECT-2B는 모델 아키텍처, 훈련 데이터 및 전체 성능에서 중요한 발전을 이룬다"며 "결과적으로 신뢰성 높은 딥페이크 탐지 도구가 탄생했으며, 실제와 조작된 오디오 클립에 대해 뛰어난 정확도를 제공합니다."라고 밝혔습니다.
오디오 아티팩트에 집중
Resemble에 따르면, Detect-2B는 고정된 오디오 표현 모델과 전략적으로 배치된 적응 모듈을 사용하여 실제 오디오와 인공 오디오를 구별하는 세밀한 소리인 아티팩트에 주목합니다. AI가 생성한 오디오는 종종 "너무 깔끔하게" 들리지만, Detect-2B는 각 입력에 대한 재훈련 없이도 클립의 AI 생성 비율을 추정할 수 있습니다. 서브 모델은 신뢰성을 향상시키기 위해 방대한 데이터셋에서 훈련되었습니다.
효율적인 예측 과정
Detect-2B는 예측 점수를 집계하여 "신중하게 조정된 임계값"과 비교함으로써 녹음의 진위를 판단합니다. Resemble는 Detect-2B가 효율적인 훈련을 위해 설계되어 있어 적은 컴퓨팅 파워로도 작동한다는 점을 강조했습니다.
무작위 모델 아키텍처
모델의 구조는 정적 데이터나 반복 패턴에 의존하지 않는 Mamba-SSM 또는 상태 공간 모델을 사용합니다. 대신 랜덤 모델을 적용하여 다양한 오디오 조건에 효과적으로 적응할 수 있습니다. 이 구조는 오디오 동적 캡처에 뛰어나며, 저품질 녹음에서도 신뢰할 수 있는 성능을 발휘합니다.
강력한 다국어 성능
Resemble는 Detect-2B를 평가하기 위해 보이지 않는 화자, 딥페이크 오디오 및 여러 언어를 포함한 다양한 테스트 세트를 통해 검증했습니다. 이 모델은 6개 언어의 딥페이크 오디오를 정확히 식별하며, 최소 93%의 정확도를 달성했습니다.
통합 및 접근성
Detect-2B는 다양한 애플리케이션에 원활하게 통합할 수 있도록 API를 통해 제공될 예정입니다. 이번 출시 이전, Resemble는 4월에 AI 음성 플랫폼인 Rapid Voice Cloning을 출시한 바 있습니다.
현재 맥락에서의 딥페이크 탐지 중요성
2024년 미국 대통령 선거가 다가오면서 AI 생성 음성과 영상을 식별할 필요성이 더욱 중요해지고 있습니다. AI 음성이 유권자를 혼란스럽게 하거나 허위 정보를 퍼뜨릴 가능성은 특히 공적인 인물의 딥페이크와 관련해 심각한 우려를 불러일으킵니다. 미디어에서의 허위 정보 표기는 소비자의 신뢰를 저하시켰으며, Detect-2B와 같은 도구의 필요성이 커지고 있습니다.
지속적인 연구 및 개발
Resemble는 탐지 기술의 여정이 이제 시작되었다고 인정했습니다. "생성 AI 기능이 발전함에 따라 우리의 탐지 기술도 함께 발전해야 합니다. 우리는 DETECT-2B를 개선하기 위한 여러 흥미로운 연구 방향을 계획하고 있으며, 대표성 학습, 고급 모델 아키텍처 및 데이터 확장을 중점적으로 추진할 것입니다."라고 회사는 언급했습니다.