發現Resemble AI的尖端音頻檢測模型Detect-2B,實現94%準確率的AI分析。

語音克隆公司 Resemble AI 推出先進的深偽檢測模型 Detect-2B

Resemble AI 發布了其深偽檢測模型的下一代產品 Detect-2B,具有約 94% 的準確率,令人印象深刻。

創新模型架構

Detect-2B 採用一系列經過預訓練的子模型,並通過微調來分析音頻片段,以辨別其是否由 AI 生成。公司在博客中表示,「在我們原始的 Detect 模型基礎上,DETECT-2B 在模型架構、訓練數據和整體性能上均有顯著進步,最終產出了一款高度可靠的深偽檢測工具,可以對大量真實與虛構的音頻片段提供卓越的準確性。」

專注於音頻特徵

根據 Resemble 的說法,Detect-2B 結合了冷凍音頻表徵模型,並在其關鍵層中巧妙地放置了一個調適模塊。該模塊使模型的注意力集中在特徵上,即區分真實音頻與人工音頻的微妙聲音。通常,AI 生成的音頻聽起來「過於乾淨」,但 Detect-2B 能夠在不需要為每個新輸入重新訓練的情況下,估算片段中 AI 生成的比例。該子模型在廣泛數據集上進行訓練,以提高可靠性。

簡化的預測過程

Detect-2B 聚合預測分數,並將其與「精心調整的閾值」進行比較,以判定錄音的真實性。Resemble 強調,研究人員設計 Detect-2B 時考慮了高效訓練,並要求更少的計算資源。

隨機化模型架構

該模型的架構利用 Mamba-SSM 或狀態空間模型,無需依賴靜態數據或重複模式。相反,它採用隨機模型,能夠有效適應各種音頻條件。這一結構在捕捉音頻動態方面表現出色,即使在低質量錄音中也能穩定地運行。

強大的多語言性能

為評估其能力,Resemble 將 Detect-2B 置於多樣化的測試集上,涵蓋未見的說話者、深偽音頻和多種語言。該模型在六種語言中準確識別深偽音頻,達到至少 93% 的準確率。

集成及可接入性

Detect-2B 將通過 API 提供,便於無縫集成到各種應用中。此次發布緊隨 Resemble 於四月推出的 AI 語音平台 Rapid Voice Cloning。

深偽檢測在當前背景下的重要性

隨著 2024 年美國總統大選的臨近,識別 AI 生成的聲音和視頻的需求愈加迫切。 AI 聲音可能會誤導選民及散播錯誤信息,特別是針對公共人物的深偽技術引發了重大關注。媒體中的錯誤表述已削弱了消費者的信任,因此如 Detect-2B 這樣的工具對於在內容面世前進行驗證至關重要。

持續的研究與發展

Resemble 認識到,檢測技術的旅程才剛剛開始。「隨著生成 AI 能力的不斷提升,我們的檢測技術也必須跟上。我們有幾個令人興奮的研究方向計劃,以提升 DETECT-2B,重點在於表徵學習、先進模型架構和數據擴展。」公司表示。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles