Googleは、テキストから画像を生成するモデル「Imagen 3」の大規模なアップデートを発表しました。この新モデルは、詳細な描写の向上、自然言語理解の改善、優れたテキストのレンダリングを約束します。Imagen 3は、現在、特定のクリエイター向けにImageFXでプライベートプレビュー中で、開発者はアクセスを得るための待機リストに登録できます。さらに、Imagen 3はVertex AIに統合される予定です。
「これは私たちの最も進化した画像生成モデルです」と、Google DeepMindのシニアリサーチディレクター、ダグラス・エック氏がI/O開発者カンファレンスで述べました。「Imagen 3は、フォトリアリズムや豊かなディテールを提供し、視覚的アーチファクトや歪みを大幅に減少させます。プロンプトを会話的に理解し、創造性や詳細を多く提供するほど、より良い出力が得られます。Imagen 3は長文のプロンプトにおける微妙な要素の取り入れが得意で、画像生成モデルが直面してきたテキストレンダリングの課題に対して、これまでの最高の成果を示しています。」
この発表は、Googleが前回の生成モデルImagen 2をVertex AIで広く公開したわずか6か月後に行われました。この時期には、4月にテキストからライブ機能の導入もあり、AI画像生成ツールの競争が激化する中で、Googleは競争力を維持する必要があります。他のツールには、OpenAIのDALL-E、Midjourney、AdobeのFirefly、MetaのAI、MicrosoftのDesignerなどがあります。
ただし、Googleのこの分野での道のりには課題もありました。今年初め、AI生成の画像に対して一部の批評家から「過剰に政治的」とされる批判を受けました。これには、アメリカの建国の父たちを黒人男性と共に描写したり、第二次世界大戦のドイツ兵と黒人男性およびアジア系女性を一緒に描写したりしたことが含まれます。Googleはこの誤りを認め、CEOのサンダー・ピチャイはBloombergとのインタビューで謝罪を再確認しました。
Imagen 3の発表は、Google I/Oでのいくつかのエキサイティングなアップデートの一環であり、新しい動画生成モデル「Veo」の発表も含まれています。