バイトダンス社(TikTokの親会社)のAI研究者たちは、「ImageDream」という新しいAIモデルを発表しました。これは、画像から驚くべき3Dモデルを生成するための最先端の技術です。このモデルは、単一の画像を入力として使用し、どの角度からも物体の多視点ディフュージョンを生成するのに優れています。例えば、黒い海賊帽をかぶったブルドッグの写真を入力すると、ImageDreamはその犬の複数の視点を生成し、それに基づいてリアルな3Dモデルを作成します。
開発チームは、画像を用いた3Dモデル生成が、ユーザーが創造的なアイデアを表現するための直感的でシンプルな方法を提供することを強調しています。このアプローチは、テキストでの表現が難しいと感じる人々に特に恩恵をもたらします。
AIによる3D生成モデルは以前から存在しますが、ImageDreamはその中で際立っています。チームは、昨年10月に発表されたGoogleのDreamFusionや、テキスト入力を基に3Dスカルプチャを生成するOpenAIのPoint-Eからインスパイアを受けたと認めています。ImageDreamの発表前、バイトダンス社は8月にMVDreamという3D生成モデルも開発しました。このディフュージョンモデルは、テキスト記述から高品質な3Dレンダリングを生成することに特化しており、カリフォルニア大学サンディエゴ校と共同で開発されました。MVDreamは、DreamBooth3Dのようなツールを使って個別の3D生成に合わせた微調整が可能です。
ImageDreamの特筆すべき点は、画像から直接正確なジオメトリを持つ3Dオブジェクトを生成できることです。これにより、MVDreamなどのテキストのみのモデルと比べて、画像とテキストの整合性の可能性が高まります。研究論文では、「ImageDreamは、Magic123のような既存の最先端(SoTA)ゼロショット単一画像3Dモデル生成器をジオメトリとテクスチャの品質において上回っています」と述べられています。
この優れた機能にもかかわらず、ImageDreamには限界もあります。特に、全身アバターの顔の特徴をレンダリングする際に詳細な部分に苦労することがあり、改善の余地があることを示しています。
AIを用いた3D生成の応用は急速に拡大しており、ImageDreamのようなモデルは、バーチャルリアリティ(VR)や拡張現実(AR)、さらにはゲームにおいて資産を作成する可能性を秘めています。ImageDreamが生成したオブジェクトの例としては、刀やAK47、さらには帽子をかぶったピカチュウなどがあります。
ImageDreamが生み出すさまざまな3Dクリエーションに興味がある方は、バイトダンス社の専用プロジェクトページをご覧ください。ただし、現状ではImageDreamのコードに関してアクセスの問題があるため、この件についてのさらなる確認が求められています。