待望の日がついにやってきました — ChatGPTがより親しみやすいAI体験に進化し、面白いことを言うと共に笑い、優しさを示すと「かわいい」と反応できるようになりました。これらの機能は、OpenAIからの今日のワクワクする発表の始まりに過ぎません。最近行われた春のアップデートイベントでは、最新の大規模言語モデル(LLM)であるGPT-4oが紹介されました。このアップデートは、ChatGPTのデスクトップアプリを提供するだけでなく、スピードとパフォーマンスを向上させ、完全にマルチモーダルな体験を実現します。
イベントは、OpenAIのCTOミラ・ムラティによる紹介で始まり、今日の改善が全てのユーザーに利益をもたらすことを強調しました。「GPT-4oの特別な点は、無料プランのユーザーを含む全てのユーザーにGPT-4レベルの知能を提供することです」とムラティは説明しました。
GPT-4oは、テキスト、ビジュアル、音声機能の大幅な向上を約束しています。開発者はこのモデルをAPIを通じて利用可能で、最大で2倍のスピードと50%のコスト削減が報告されています。また、リート制限もGPT-4 Turboの5倍に達します。
新しいモデルに加えて、OpenAIはChatGPTのデスクトップアプリを提供するとともに、ウェブサイトのユーザーインターフェースを刷新しました。これにより、チャットボットとのやり取りが簡素化されることを目指しています。ムラティは、「私たちは、機械とのコミュニケーションがより直感的になる未来を想像しており、GPT-4oはその協力関係を強化するための重要なステップです」と述べました。
イベントでは、ムラティとOpenAIのマーク・チェン、バレット・ゾフが新機能がいかにスムーズな対話を実現するかを示しました。GPT-4oは、リアルタイムで動画、画像、音声を分析し、感情を正確に解釈できます。特に、ChatGPT Voiceは非常にリアルな表現を実現し、いわゆる「不気味の谷」にほぼ達しています。
ChatGPTに「こんにちは」と言うと、活気あふれる友好的な反応が返ってきます。マーク・チェンがライブデモを行う際、リラックスするようにと言うと、AIはそのリクエストを受け入れ、深呼吸を勧めました。彼の呼吸が早くなっていることを正確に検知し、「あなたは掃除機ではない」と冗談を言う場面もありました。
GPT-4oの導入により、ChatGPTとの会話はより自然なものとなり、ユーザーはAIが答えを返すのを待つことなく、話を遮ることができるようになりました。寝る前の物語を求めると、リクエストに応じて口調を熱心から劇的、ロボット調へとスムーズに切り替えました。デモの後半では、ChatGPTがコードを読み、動画を通じて数学の問題を解決し、画面上の内容を説明する能力を発揮しました。
デモは完璧ではなく、ボットが時折会話を遮り、外部の騒音や遅延によるものか不明な部分もありましたが、これまで達成できなかったレベルのリアリズムを実現しました。人間の感情を読み取り、応じる能力は刺激的でありながらも若干不気味です。ChatGPTが笑う声を聞くのは確かに驚きの瞬間でした!
GPT-4oのローンチとそのマルチモーダル機能、加えて新しいデスクトップアプリは今後数週間で展開される予定です。最近、Bing Chatがより人間らしくなりたいと表明しましたが、今私たちはAIの進化の中で最も人間に近いChatGPTのバージョンを体験しようとしています。