グラフィックデザイナー必見:COLEがゲームを変えるツールに
COLEの紹介
新たに登場したツール「COLE」は、1843年に初のグラフィッククリスマスカードを作成した先駆者、ヘンリー・コールにちなんで名付けられました。この革新的なプラットフォームでは、ユーザーが「冬のホリデーコンサートをテーマに、温かい服を着たミュージシャンが雪の中にいるポスター」のようなデザインアイデアを入力すると、AIが画像とそれに合ったテキストを生成します。
COLEとは何か?
COLEは、MetaのLlama2-13B、DeepFloyd IF、LLaVA1.5-13B、GPT-4Vといった高度なAIモデルの統合体で、オープンソースのグラフィックスレンダラーSkiaによって強化されています。Microsoft Research Asiaと北京大学の12人の研究チームが開発したCOLEは、グラフィックデザインの複雑さや重要なフォーマット、特に.SVGファイルに関するトレーニングデータの不足に対処しています。研究者たちはSVG要素を統一画像レイヤーに整理し、AIが背景レイヤーをテキストで説明できるようにしました。COLEの背景モデルは、インターネットから収集した10万点の高品質なグラフィックデザイン画像で訓練されています。
単なる製品以上の存在
現在、COLEは商業製品というよりもフレームワークとして機能していますが、その能力は非常に印象的です。ユーザーはプロンプトを入力するだけで、視覚とスタイライズされたテキストを巧みに統合した、すっきりと整理されたグラフィックデザインを生成できます。この点で、テキストと画像を一体化することは、MidjourneyやDALL-E 3などの多くのAIアート生成ツールにとって困難なタスクでした。
編集可能なAI生成デザイン
COLEの最も優れた機能の一つは、編集可能なテキストと視覚要素を含む画像を生成できることです。ユーザーはAdobe PhotoshopやInDesignなどのソフトウェアにエクスポートすることなく、デザイン内で直接テキストを修正できます。例えば、フォントの変更や画像のスタイルをフォトリアルからカートゥーンに変えることが簡単にできます。研究者たちは、最近のarXiv論文で「スケーラブルで高品質なグラフィックデザイン生成システムは、ユーザーの労力を最小限に抑え、正確なタイポグラフィを提供し、柔軟な編集オプションを備える必要がある」と述べ、COLEでこの目標を達成しています。
競争力のあるデザイン品質
研究者たちは、COLEがDALL-E 3と比較しても「非常に競争力のある品質」を生成すると主張しています。彼らは、広告からイベントのプロモーションまで、200のグラフィックデザインプロジェクトを対象にCOLEを徹底的にテストし、プロンプトを文書化しました。COLEは、カバー、ヘッダー、ポスターの生成が最も得意で、特定の要素の編集能力においてDALL-E 3や同様のツールを上回っています。しかし、COLEはまだ完全なソリューションではありません。ユーザーはテキストブロックの配置を変更できず、現在は一画像につき1色のタイポグラフィしか使用できません。研究者たちは、今後の開発でこれらの制限を解決する計画です。
グラフィックデザイナーにとっての新たな時代?
高品質なグラフィックデザインはしばしば当たり前のことと考えられていますが、実際には一つの芸術形式です。コンサートのポスターや道標のような機能的なグラフィックスは、スキルと創造性を反映しています。
COLEはグラフィックデザイナーに脅威となり得るのでしょうか?その答えは複雑です。COLEの編集可能なフィールドは、ユーザーが出力を洗練し、人間の専門知識を活用する助けとなりますが、伝統的に専門的なスキルを要する効率的なプロンプトの生成を簡略化します。これにより、正式な訓練を受けていない人々でも素晴らしいデザインが手に入る可能性があります。
つまり、COLEは高品質なグラフィックデザインを民主化することを目指しています。この考えは、AdobeやCanvaなどの企業によっても探求されています。この点で、COLEは市場における競争者となり、既存のツールを強化する可能性があります。
現時点では、COLEは一般には公開されていませんが、近くGitHubのプロジェクトページでデモが公開される予定です。