GoogleのImagen 3: Vertex AIで利用可能になった高度なテキストから画像への生成モデル

Googleの高度なテキストから画像への変換モデル「Imagen 3」が、Vertex AIプラットフォームでの発売を控えています。この次世代のAIツールは、選ばれた顧客向けにプレビュー版として提供され、開発者に対してより迅速な画像生成、向上したプロンプト理解、よりフォトリアルな人物描写、そしてテキストレンダリング機能の強化を実現します。

Imagen 3は、5月のGoogle I/Oで初めて発表され、特定のクリエイター向けにImageFXでプライベートプレビューが開始されました。Googleの発表によると、この強力なAIモデルは近日中にVertex AIを通じて利用可能になるとのことです。

Google DeepMindの上級研究ディレクター、ダグラス・エック氏はその特徴について次のように述べています。「これは私たちがこれまでに開発した中で最も優れた画像生成モデルです。Imagen 3は、フォトリアリスティックであり、詳細も豊富で、視覚的なアーティファクトを最小限に抑えています。また、自然で創造的な方法で作成されたプロンプトを理解する能力があり、詳細な指示が最高の結果をもたらします。さらに、長いプロンプトからの微細な詳細を組み込むのが得意で、以前の画像生成モデルにおける持続的な課題であるテキストレンダリングも改善されています。」

Vertex AIへの移行に伴い、Imagen 3は多言語サポート、Google DeepMindのSynthIDデジタルウォーターマーキングなどの堅牢な安全機能、さまざまなアスペクト比のサポートを導入します。

ストックフォトのリーダーであるShutterstockは、このモデルをすでに統合しています。同社のデータサービス担当副社長ジャスティン・ヒザ氏は、「Imagenを私たちのAI画像生成ツールに組み込んで以来、ユーザーは何百万もの画像を生成しています。Imagen 3の改善により、ユーザーはアイデアをより迅速に実現できるようになりました。これは、品質を損なうことなく、倫理的に調達されたAI画像生成のコミットメントをさらに強固にするものです。」と述べています。

GoogleはImagenの進化を続けていますが、Gemini AIが画像生成を再開する時期については明らかにしていません。最近のプレスブリーフィングで、Google CloudのCEOトーマス・クリアン氏は、2つのモデルの違いについて説明しました。「Geminiは、画像、動画、音声などの多様なタイプの入力を処理するために設計されたマルチモーダルモデルであり、これらのモダリティ間での推論を可能にします。対照的に、Imagenは高精度なテキストから画像への出力を生成することに特化した拡散モデルです。それぞれ異なる目的を持っています。」

Geminiの画像機能再有効化のタイムラインについての質問は依然として未解決のままです。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles