ChatGPTのローンチから1周年を迎えるにあたり、この強力な言語モデルは大きな進化を遂げています。OpenAIはDALL-E 3による画像生成機能やBingを通じたリアルタイム情報アクセスといった新機能を統合しましたが、特に音声と画像機能の導入がユーザー体験を一新する重要なアップグレードとなっています。
これらの革新の中心には、GPT-4V(GPT-4ビジョン)が位置しています。この最先端のマルチモーダルモデルは、ユーザーがテキストと画像をシームレスに操作できる能力を提供します。Microsoftの研究者によるテストでは、OpenAIの主要パートナーである同社がサポートした結果、GPT-4Vは従来の未検証の能力を示しました。その成果は「LMMの夜明け:GPT-4V(ビジョン)による予備探査」という研究発表で強調され、複雑な入力を処理するモデルの広範な可能性が明らかになりました。例えば、メニューの画像とそのテキストを同時に理解することができるのです。
GPT-4Vとは?
GPT-4V(ビジョン)は、OpenAIが開発した革新的なマルチモーダルAIモデルです。このモデルを通じて、ユーザーはアップロードした画像について質問をすることができる「視覚的質問応答」(VQA)機能を利用できます。10月からは、月額20ドルのChatGPT PlusサブスクリプションまたはEnterprise版のユーザーが、デスクトップやiOSプラットフォームでGPT-4Vの機能にアクセス可能になります。
GPT-4Vの主な機能
- 視覚的推論: 複雑な視覚関係と文脈を理解し、画像に基づいて質問に回答できます。
- 命令の実行: テキストコマンドを提供すると、新しい視覚・言語タスクを容易に実行できます。
- インコンテキスト学習: 少数の例から新しいタスクに適応する強力な少数-shot学習を示します。
- 視覚的参照: 矢印やボックスなどの視覚的手がかりを認識し、正確な指示に従います。
- 詳細なキャプション生成: 複雑なコンテンツ関係を伝える多文の詳細説明が可能です。
- 物体のカウント: ユーザーの問い合わせに基づいて画像内の物体を正確にカウントできます。
- コーディング: 視覚的入力に基づいてJSON解析などのコードを生成する能力を示しています。
これらの機能により、GPT-4Vは以前のマルチモーダルモデルに比べて視覚と言語の理解力が著しく向上し、AIアプリケーションにおける変革の可能性を強調しています。
GPT-4Vの制限
その一方で、GPT-4Vにはいくつかの制約もあります。非常に複雑なタスクに対応しようとするユーザーは、特に独自または特別に設計されたプロンプトに直面した場合、課題に直面するかもしれません。また、新しいまたは未確認のサンプルに対しては性能が制限され、特定の複雑なシナリオでは効果的に機能するために調整されたプロンプトが必要です。
大規模マルチモーダルモデル(LMM)の出現
マルチモーダルAIの進化は、テクノロジーにおける重要な変化を表しています。テキスト生成モデルは、画像を処理する能力によって強化され、ユーザーの問い合わせやインタラクションをシンプルにしています。この進化は、OpenAIが人工一般知能(AGI)という長年の目標に向かって一歩近づくことを可能にしています。OpenAIは、安全で強力なAGIの創出に取り組んでおり、その発展に関する規制の整備を政府に促しています。
OpenAIはこの取り組みの中で孤立しているわけではありません。Metaなどの他のテック大手もマルチモーダルAIの研究に投資しています。チューリング賞受賞の科学者ヤン・ルカンの指導の下、MetaはSeamlessM4T、AudioCraft、Voiceboxなどのモデルを開発し、包括的なMetaバースの構築を目指しています。さらに、OpenAI、Microsoft、Google、Anthropicなどの主要AI開発者によって構成される新たに設立されたFrontier Model Forumは、次世代のマルチモーダルモデルの推進に専念し、この分野の重要性を再確認しています。
これらの進展により、人工知能の分野は急速に進化しており、創造的な用途やユーザー体験の向上に対する大きな期待が寄せられています。