昨日、OpenAIはGoogleのI/O開発者会議を前にして、最新のAI言語モデルGPT-4o(GPT-4 Omniの略)を発表しました。この強力なモデルは、ChatGPTのエンジンとしてエンドユーザーに無料で提供されるほか、ソフトウェア開発者向けにOpenAIのAPIを通じて有料サービスとして利用可能です。これにより、開発者はクライアントやチームのためにカスタムアプリケーションを作成できます。
GPT-4oはマルチモーダルモデルとして設計されており、従来のモデルや競合他社に比べて大幅に高速化され、コスト効率が向上し、より堅牢です。これは、AI機能をアプリケーションに統合したいソフトウェア開発者にとって、非常に重要な進展です。OpenAIのプロダクトAPI責任者オリビエ・ゴダモンとプロダクトマネージャーのオーウェン・キャンベル=ムーアが、専用メディアカンファレンスコールでこのモデルの意義について詳しく説明しました。
ゴダモンは「コンピュータは人間のインタラクションに適応すべきであり、我々が技術的制約に従うべきではない」と述べています。GPT-4oを使うことで、開発者はカスタマーサービスチャットボットや、社員がポリシー、経費、サポートチケットについての質問に答えるための内部ツールなど、幅広いアプリケーションを強化できます。GPT-4oの柔軟性により、開発者はこの最先端技術を基にビジネス全体を構築することが可能になります。
GPT-4oの革新性
従来のモデルは音声インタラクションを処理するために複雑なセットアップが必要でしたが、GPT-4oはこのプロセスを簡素化しました。様々なメディアを直接トークンに変換し、本当の意味でのマルチモーダルAIとしての革命的な一歩を踏み出しています。この移行により、著しい速度向上が実現され、GPT-4oは音声入力に232ミリ秒で応答でき、従来のGPT-4の数秒に比べて人間と同等の会話スピードを達成しています。
さらに、GPT-4oは複雑な刺激からより微細な情報を捉え、ユーザー入力の理解を深めます。先代のモデルが感情や文脈を把握しづらかったのに対し、GPT-4oはトーンや話し手のダイナミクスを巧みに解釈し、対話を通じて感情を表現することができます。ゴダモンは「一つのモデルであれば、信号の損失はありません」と説明しました。
コスト効率とスケーラビリティ
OpenAIは運用コストの削減を開発者に還元し、GPT-4oの料金はGPT-4の半額となり、入力トークンは100万トークンあたり5ドル、出力トークンは15ドルと設定されています。画像分析のコストも下がり、開発者にとってさらにアクセスしやすくなりました。加えて、メッセージリミットは200万トークンから1000万トークンに増加し、アプリのパフォーマンスが大幅に向上しました。
キャンベル=ムーアは「この効率は開発者にとって非常に重要です」と述べ、LLMs(大規模言語モデル)における速度とコストの課題を認めました。「GPT-4oは、より多くの開発者がOpenAIをアプリケーションに組み込むことを促すでしょう。」
潜在的なアプリケーション機会
GPT-4oは、特に個人アシスタントや音声中心のアプリケーションにおいて、既存のAIフレームワークを容易に置き換えることができます。ゴダモンは、モデルが革新的な音声優先アプリケーションの創出を促進し、人間とコンピュータのインタラクションを根本的に変えると考えています。
データセキュリティ基準
ChatGPTの個別ユーザーには、「設定」メニュー内にデータ保持の選択肢があります。一方、OpenAIはAPIユーザーデータを30日以上保存せず、第三者開発者のプライバシーとセキュリティを確保しています。音声、視覚、テキストの入力は、一時的に保持され信頼と安全性の監査に使用されますが、その後すぐに削除されます。
競合他社との比較における制限
GPT-4oは素晴らしい機能を持っていますが、コンテキストウィンドウは128,000トークンで、Google GeminiやMetaのLlama 3(最大100万トークン)のような競合製品よりも小さいです。それでも、約300ページ分のテキストに相当し、豊かなインタラクションのための十分な容量を提供します。
現在、GPT-4oはOpenAIのAPIを通じて開発者に利用可能で、テキストと視覚機能に限定されています。音声と動画の機能は近日中に導入される予定で、OpenAIの公式チャネルで今後の発表が行われます。