OpenAIの最新で最も進化した大規模言語モデル(LLM)、GPT-4oが登場しました。このモデルは、無料および有料ユーザー向けに革新的な機能を多数搭載しており、マルチモーダルAIとしてChatGPTの体験を向上させます。速いレスポンス、向上した理解力、今後数週間で発表される新機能群が特徴です。
Meta社のLlama 3やGoogle社のGeminiとの競争が激化する中、OpenAIの最新モデルは先頭を切ることを目指しています。GPT-4oの魅力をご紹介しましょう。
無料版のChatGPTを利用している方、ChatGPT Plusの機能がうらやましい場合に朗報です!画像認識、ファイルアップロード、GPTストアでのカスタムGPTの検索、会話履歴を保持するためのメモリ機能、複雑なデータ分析や計算を行うことが可能になりました。
GPT-4oは、標準的なGPT-4モデルと同様の知能を持っていますが、マルチモーダルAIとしてゼロから開発されました。GPT-4oの大きな利点は、計算コストの削減です。必要なトークン数が少なく、より多くの人々が利用できるようになります。ただし、無料ユーザーは1日に送信できるメッセージ数に制限があります。その制限に達すると、GPT-3.5モデルにアクセスが戻ります。
GPT-4はGPT-3.5に比べて多くの改善点があり、特に速度が重要です。GPT-4は改善が見られるものの、通常より遅く動作します。それに対し、GPT-4oはほぼ瞬時に応答し、リアルタイムの翻訳や会話支援などのタスクで、より迅速で実用的なインタラクションを実現します。
GPT-4oは、テキストと画像の両方をサポートし、将来的には音声コマンドを使ったユーザーとの対話も可能にする設計です。従来のGPT-4は音声をテキストに変換し、応答を処理して再度音声に戻していましたが、GPT-4oは直接音声入力を理解し、適切に応答することができます。この高速な処理により、トーンやペース、感情を理解し、より自然な会話が可能です。GPT-4oは、笑ったり皮肉を言ったり、即興で応答を調整したり、リアルタイム翻訳に対応するために複数の言語を理解したりする能力があります。また、歌ったりデュエットを作ったりすることもできます。
これにより、特に口頭でのインタラクションにおいて、ユーザーの理解が大いに向上します。トーンや意図をより正確に解釈し、リラックスした友好的な態度を維持します。コードやテキストの分析においては、ユーザーの意図を考慮に入れ、よりパーソナライズされた応答が得られ、特別な指示が少なくなります。ビデオや画像の分析能力は、周囲の世界に対する理解を深めます。
現在、Windowsユーザーは基本的なCopilot機能しか利用できませんが、macOSユーザーはまもなくデスクトップから直接ChatGPTおよびGPT-4oを活用できるようになります。新しいネイティブデスクトップアプリは、アクセシビリティを向上させ、操作インターフェースを改良し、インタラクションを効率化します。このアプリは、ほぼ全てのChatGPT Plusユーザーに間もなく提供され、無料ユーザーにも数週間以内に配信される予定です。Windows版は今年後半に登場予定です。
現在、一般ユーザーはGPT-4oのテキストおよび画像機能にアクセスできますが、高度な音声サポートやリアルタイムの動画理解機能は今後提供され、macOSデスクトップアプリの広範な展開も決まっています。これらのエキサイティングなアップデートとChatGPTのさらなる改善が、間もなく実現される予定です。