新しいAI画像生成技術「InstantID」は、北京のInstantXチームによる最近の論文で発表され、単一の参照画像に基づいて迅速に画像を識別し生成できることが示されています。
フォーチュン500企業のエンタープライズAIコンサルタントであるリューウェン・コーエン氏は、InstantIDを「AI画像生成の新たな最先端技術」と称賛しています。しかし、彼は、2024年の選挙が迫る中で、この技術がディープフェイクコンテンツ(音声、画像、動画)の急増を招く恐れがあると警告しています。「InstantIDのようなツールを使ったディープフェイクは、作成の容易さや出力の一貫性から、重大な懸念を引き起こします。特に訓練や微調整も不要です。」とコーエン氏は述べています。InstantIDは、わずかな計算リソースを使用して非常にリアルなディープフェイクを生成できることを強調しました。「CPUが少し必要で、GPUは不要で、高い忠実度を保ったアイデンティティ保持コンテンツを効率的に生成できます。」
InstantIDとLoRA:革新的な進展
コーエン氏は、InstantIDがLoRAを上回る性能を持つと説明しています。LoRAは、特定のキャラクターや芸術スタイルなどの限られたパラメーターで訓練された小型の微調整されたモデルを使用しています。LoRAは、AI生成のファンフィクションからフォトリアリズムに至るまで幅広い創作を可能にしましたが、ポルノやディープフェイクの生成で物議を醸していることでも知られています。LinkedInの投稿で、コーエン氏は「さようなら、LoRA」と記し、InstantIDは「ディープフェイクの性能向上版」であると評しました。
InstantXチームの論文「InstantID: Zero-shot Identity-Preserving Generation in Seconds」によれば、LoRAのような従来の手法には、高いストレージ要件、広範な微調整、複数の参照画像が必要という制約があります。一方、InstantIDは「プラグアンドプレイモジュール」を提供し、1つの顔画像を使用してさまざまなスタイルで効率的に画像をパーソナライズでき、高い忠実度を維持します。
コーエン氏は、InstantIDがアイデンティティ保護生成のためにゼロショットを目的として設計されていることを説明しました。これは、資源要件を減らすためにモデルデータを単純化するQLoRAのような既存技術とは根本的に異なります。以前は最先端の手法であったQLoRAに対し、コーエン氏は、InstantIDが入力データのアイデンティティ特性を保持した迅速な出力生成に焦点を当てていると強調しました。
ディープフェイク生成の簡易化
InstantIDの主な機能は、生成されたコンテンツにおいて個人のアイデンティティを保持することです。「一貫性を考えてみてください。例えば、ドナルド・トランプは常にドナルド・トランプに見えるのです。」と彼は指摘しました。コーエン氏は、ディープフェイクの作成がこれまでになく容易になったことに警鐘を鳴らしています。「たった1クリックで、Hugging Faceでこれを展開したり、再現したりできます。」
技術が進化する中、InstantIDのようなアクセス可能なディープフェイクツールの影響は多大であり、真実性やデジタルコンテンツの未来について重要な質問を提起しています。