今日は、音声セキュリティ、身分確認、詐欺検出のリーダーであるPindropが、デジタルオーディオおよびビデオファイル内のAI生成音声を99%の高精度で検出できるウェブベースのツール「Pulse Inspect」を発表しました。現在、PindropのPulseスイートの一環としてプレビュー版が利用可能であり、Pulse Inspectは、生成に使用されたツールやモデルに関係なくAI生成コンテンツを検出できます。この革新的なソリューションは、AIベンダーが通常、自社プラットフォームで生成されたコンテンツのみを検出する分類器を発売するのとは異なり、広範な音声ディープフェイクリスクに対応するための年間サブスクリプションで提供されています。CEOのビジャイ・バラスブラマニヤンは、市場の需要に応じて、個人向けにチェック数を制限したお手頃価格のプランを導入する可能性を示唆しています。
音声ディープフェイクの増加に対処
ディープフェイクは数年前から存在していますが、テキストベースの生成AIの普及により、オンラインでの可視性が高まっています。MicrosoftやElevenLabsなどの企業のツールを使用して、著名人や企業の人物、政治家を模した偽の音声および映像コンテンツが作成され、誤情報や評判の損害を引き起こしています。Pindropの内部報告書によれば、1200万人以上のアメリカ成人が、同意なしにディープフェイクが作成された被害者を知っています。これらのレプリカは、画像、動画、オーディオを含み、ウイルス性を利用してソーシャルメディアで急速に広がります。この緊急の問題に対処するため、Pindropは今年初めにPulseスイートを立ち上げ、最初のソリューションはコールセンターへのディープフェイク電話を検出することに焦点を当てています。Pulse Inspectを使うことで、PindropはAI生成の人工音声を検出する能力を拡充しました。
効率的な音声分析
Pulse Inspectは、ユーザーが疑わしいファイルを即座にアップロードして分析できるシンプルなウェブアプリケーションとして機能します。以前は、合成音声の特定には手間のかかる法医学的作業が必要でしたが、今では数秒でファイルを処理し、「ディープフェイクスコア」を生成し、AI生成音声を含むセクションを特定します。この迅速な分析により、企業はブランドの信頼性を保ちながら、誤情報に対処することができます。
高度な検出訓練
Pindropの独自の検出モデルは、350以上のディープフェイク生成ツールと4000万以上のユニークな発話を40以上の言語で学習し、約200,000サンプルから成るデータセットの内部評価によると、99%の精度でディープフェイク音声を検出しています。このモデルは、4秒ごとにメディアファイルを総合的に分析し、異なるメディア環境でも正確な分類を行います。バラスブラマニヤン氏は、「Pindropの技術は、深層ニューラルネットワーク(DNN)と複雑なスペクトロテンポラル分析を利用して、さまざまな方法で合成音声を検出します」と説明しています。
包括的な検出能力
Pulse Inspectの強みは、ベンダーに依存しない形でディープフェイクを認識する能力にあります。バラスブラマニヤン氏は、多くの普及したディープフェイクは商業ツールよりもオープンソースツールから生じていることを指摘しました。Pindropの検出ツールは、複数の生成システムにわたる合成音声を特定するために重要です。ただし、このツールは、2秒未満の音声や過剰なバックグラウンドノイズを含むファイルの検出に難しさがあることも認識することが重要です。チームはこの課題の解決に向けて積極的に作業しています。
現在、Pindropは音声メディア会社、非営利団体、政府機関、著名人マネジメント会社、法律事務所、ソーシャルメディアプラットフォームなど、さまざまな組織を対象にPulse Inspectを提供しています。バラスブラマニヤン氏は具体的な顧客数を明らかにしませんでしたが、いくつかのパートナーがTrueMedia.orgを通じて、重要な選挙の文脈でディープフェイクを特定する手助けをしているなど、多数の年契約を活用していることを確認しました。手動アップロードに加え、Pulse InspectはAPIを介してカスタム法医学ワークフローに統合でき、ソーシャルメディア上の有害なAI生成コンテンツを警告し削除するなどの大量プロセスを便利にします。
今後、PindropはPulseスイートをさらに強化し、ツールの説明可能性を向上させ、ディープフェイク生成の元を追跡する機能を追加し、さらなるモダリティへのサポートを拡大する予定です。