探索Resemble AI前沿音频检测模型Detect-2B,AI分析准确率高达94%

语音克隆公司 Resemble AI 推出先进的深度伪造检测模型

Resemble AI 最新发布了深度伪造检测模型 Detect-2B,准确率高达约 94%。

创新模型架构

Detect-2B 利用一系列经过预训练的子模型,通过微调进行增强,可分析音频片段并判断其是否为 AI 生成。公司在博客中表示:“在原有 Detect 模型的坚实基础上,DETECT-2B 在模型架构、训练数据和整体性能上实现了重大突破。最终成果是一个高度可靠的深度伪造检测工具,能够对大量真实和虚构的音频片段实现出色的准确性。”

关注音频特征

Resemble 透露,Detect-2B 采用了冻结的音频表示模型,并在关键层中嵌入了适应模块。该模块的作用是将模型的关注点转向音频特征——那些微妙的声音,能区分真实音频和人工音频。AI 生成的音频通常显得“过于干净”,但 Detect-2B 能在无需对每个新输入进行重新训练的情况下估算音频片段的 AI 生成比例。相关子模型在庞大的数据集中训练,以增强可靠性。

简化的预测过程

Detect-2B 综合预测分数,并与“经过精心调整的阈值”进行比较,以判断录音的真实性。Resemble 强调,研究人员设计 Detect-2B 时考虑了高效训练,降低了计算资源的需求。

随机模型架构

该模型采用 Mamba-SSM 或状态空间模型,避免依赖静态数据或重复模式。相反,Detect-2B 运用随机模型,有效适应各种音频条件。这种结构在捕捉音频动态方面表现优异,即使在低质量录音中也能确保可靠性。

强大的多语言性能

为了评估其能力,Resemble 对 Detect-2B 进行了多样化的测试,包括未见过的发言者、深度伪造音频和多种语言。该模型在六种语言中准确识别深度伪造音频,准确率达到了至少 93%。

集成与可访问性

Detect-2B 将通过 API 提供,便于与各种应用无缝集成。这次发布是继 Resemble 在四月推出 AI 语音平台快速语音克隆之后的又一重要进展。

深度伪造检测的重要性

随着 2024 年美国总统选举的临近,识别 AI 生成的声音和视频的需求愈发重要。AI 声音有误导选民和传播虚假信息的潜在风险,尤其是针对公众人物的深度伪造音频,令人担忧。媒体中的误导信息侵蚀了消费者的信任,使得 Detect-2B 等工具对验证内容在传播到公众之前变得至关重要。

持续的研究与发展

Resemble 认识到,检测技术的发展刚刚开始。“随着生成 AI 能力的不断提升,我们的检测技术也必须不断进步。我们计划开展一些令人振奋的研究方向,以增强 DETECT-2B,专注于表示学习、先进的模型架构和数据扩展,”公司指出。

Most people like

Find AI tools in YBX