OpenAIの社長、グレッグ・ブロックマンが自身のXアカウントで、同社の新しいGPT-4oモデルによって生成された初の公開画像を共有しました。この画像には、OpenAIのロゴが入った黒いTシャツを着た人物が黒板に文字を書いている姿が映っています。黒板の上には「モダリティ間の転送。P(テキスト、ピクセル、音声)を一つの大きな自己回帰型トランスフォーマーで直接モデル化すると仮定した場合の利点と欠点は?」と書かれています。
月曜日に発表されたGPT-4oモデルは、以前のGPT-4ファミリー(GPT-4、GPT-4ビジョン、GPT-4ターボを含む)を基に、処理速度の向上やコスト削減、音声やビジュアルなどの多様な入力からの情報保持力の向上を実現しています。
OpenAIは、GPT-4oのトレーニングにマルチメディアトークンを使用する新たなアプローチを採用し、音声やビジュアルデータを事前にテキストに変換する必要を排除しました。これにより、モデルは直接これらのメディア形式を解析・解釈できるようになり、従来のGPT-4モデルの複雑な相互接続構造に比べて、よりシームレスかつ効率的な操作が実現されています。
新しい画像を、2023年9月にリリースされたOpenAIのDALL-E 3による生成画像と比較すると、GPT-4oモデルの品質、フォトリアリズム、テキスト精度において大きな向上が見られます。
現在、GPT-4oのネイティブな画像生成機能は一般には公開されていません。ブロックマンはその投稿で「チームはそれを世に広めるために懸命に取り組んでいます」と述べています。