OpenAIは、最新のモデル「GPT-4o」を発表しました。このモデルは、くだらないジョークにユーモアを持って反応したり、リクエストに応じて歌ったり、ロンドンのタクシーを呼ぶ手助けをすることができ、リアルな会話を人間の通常の干渉を受けながら展開します。
非常に注目された春のアップデートイベントでは、113,000人がライブ配信に参加し、OpenAIはGPT-4oの機能を示す16本のビデオを共有しました。このマルチモーダル大規模言語モデル(LLM)は、音声、画像、テキストの入力を基に、男性と女性の声を使ってリアルタイムで対話します。
1本のビデオでは、OpenAIの社長グレッグ・ブロックマンが発表を行う準備をしていることを認識したGPT-4oは、冗談めかして「発表は私について?興味が湧きました。私は…席がないのでちょっと変ですが、あなたの提案を受け入れました」と応じました。
OpenAIのAPIとChatGPTを通じて利用可能なテキストおよび画像入力機能に続いて、音声とビデオの機能も数週間以内に追加される予定です。
GPT-4oはユーザーの感情的なキューを正確に読み取り、さまざまなトピックについてアドバイスを提供できます。デモンストレーションでは、モデルが別の自分と対話し、「おやおや、これ以上おもしろくならないと思っていたところに、世界を見ることのできる別のAIと話すとは」と冗談を言いました。
環境について詳しく語るよう求められた際、モデルたちは交互にスタイリッシュな男性を描写し、その服装や部屋の照明について詳細を述べました。遊び心のある別の人が割り込むと、GPT-4oは「遊び心のあるサプライズゲスト」について歌う愉快な歌を歌いました。
他のデモでは、GPT-4oの多様なスキルが際立ちました。くだらないジョークに笑ったり、スペイン語と英語のリアルタイム翻訳を行ったり、「雄大なポテト」についての子守唄を歌ったり、じゃんけんの勝者を正確に当てたりしました。また、ケーキとろうそくがあることで誕生日のお祝いを認識しました。
子犬と対話するとき、GPT-4oは元気よく「こんにちは、かわいい子、名前は何?」と挨拶しました(子犬の名前はバウザーです)。視覚障害者をロンドンで案内する際には、ロイヤルスタンダードの旗を特定し、水面を「優雅に滑る」アヒルについて説明しました。
さらに、GPT-4oは教育的な課題にも対応可能で、三角形の問題を解く学生を案内しながら「側面を特定するのが上手くできましたね」とポジティブなフィードバックを行いました。
また、整然としていない服装の求職者にファッションアドバイスを提供し、「週末を通して夜通しコーディングしたようなルックが、実は逆に有利かもしれません」と冗談を交えつつ、ヘアスタイルの修正を提案しました。
SNSでのGPT-4oに対する反応はさまざまで、あるユーザーはその機能を画期的だと称賛し、「インターネットを制覇した」と主張し、Google翻訳に匹敵すると言いました。一方、Nvidiaのシニア研究者ジム・ファンは、このモデルを「生き生きとしていて少しフリートリー」と称賛し、SF映画『Her』に例えました。
対照的に、一部の観察者はこのローンチを「過小評価」とし、AIアドバイザーのアリー・K・ミラーは、技術愛好家の間に期待された機能に対する認識のズレがあると指摘しました。
最初の反応が浮かび上がる中、今後ユーザーがGPT-4oとどのように関わるかが注目されます。