アイデオグラムが進化したテキストから画像へのモデルを公開してからわずか1ヶ月余りのことで、新たなアップデートが発表されました。このアップデートでは、説明に基づいたリファレンス機能やネガティブプロンプトなど、いくつかの新機能が追加されています。これらの機能は、ユーザーが画像生成に対するコントロールを強化し、出力の質と一貫性を向上させることを目的としています。このアップデートは、MidjourneyやDALL-Eといった確立された競合相手に対抗するための重要なステップです。
アイデオグラムの新機能
2月にリリースされたバージョン1.0では、ユーザーが入力を豊かにするマジックプロンプト機能が利用可能になりました。その基盤をもとに、アイデオグラムは新たに「ディスクリプション」機能を導入しました。この機能を使うことで、参照画像からキャプションを生成することができます。ユーザーはアイデオグラムが生成した公共の画像や自分自身の画像をアップロードし、それに応じてAIがテキストベースの説明を生成します。生成された説明は、特定のニーズに合わせた類似の画像を作成するためにさらに調整が可能です。
加えて、アイデオグラムではネガティブプロンプト機能も導入され、出力に含めたくない要素をユーザーが指定できます。この機能により、特定のオブジェクトやスタイルを最終生成物から排除できます。
ユーザーは出力生成のために、ファスト、デフォルト、クオリティのモードを選択できます。ファストモードでは基本的な画像を約5秒で生成し、クオリティモードはフォトリアリズムを重視し、約20秒かかります。デフォルトモードは、その中間を取り、約12秒で画像を生成します。これらのモードの採用状況は今後の観察が必要ですが、アイデオグラムはまず基本的な画像を迅速に生成し、その後に高品質な結果を得るために調整することを推奨しています。
フォトリアリズムとテキストレンダリングの向上
アイデオグラムは、テキストレンダリング機能の向上も図っており、エラー率を15%削減しました。この改善は一見控えめに見えるかもしれませんが、同社はDALL-3 Vividよりもキャラクターや単語の生成が優れていると主張しています。また、Midjourneyとの直接的な比較統計は公開されていませんが、アイデオグラムの最新バージョンは画像の一貫性やフォトリアリズムを向上させており、ヒューマンレイターからは前バージョンよりもプロンプトの整合性、画像の一貫性、テキストレンダリングの質で30-50%も優れていると評価されています。昨年のパブリックベータ開始以来、アイデオグラムは700万人以上のクリエイターを惹きつけています。
現在、ネガティブプロンプト機能とスピードモードは、アイデオグラムのベーシックおよびプラスプランユーザーのみに提供されています。参照画像キャプショニング機能の利用可能性は不明ですが、リミックス機能のように無料で提供される可能性があります。テキストと画像の一貫性向上の機能はすべてのユーザーが利用可能です。