OpenAIの最新モデル「ストロベリー(O1)」:推論能力の革命的な飛躍
2023年9月12日、OpenAIは待望の「ストロベリー」モデルを突如発表しました。このモデルは、新しい推論モデルのラインであるO1の初版です。現在、O1のプレビュー版(o1-preview)とミニ版(o1-mini)は、ChatGPT PlusおよびTeamのサブスクライバーが利用可能で、エンタープライズおよび教育ユーザーは来週初めにアクセスが可能になります。OpenAIは、O1-miniを全ての無料ユーザーにも最終的に提供する計画ですが、具体的な日にちはまだ未定です。
OpenAIによると、O1モデルは人間の推論に近いアプローチで問題解決を行い、数学、コーディング、科学のタスクにおいて優れた成果を示しています。
O1モデの推論能力
O1モデルは、人間に近いAIの実現に向けたOpenAIの重要な一歩を示しています。OpenAIは、O1モデルに「GPT」というブランド名を使用しないことを決定しました。これは根本的に新しい能力を表しているからです。O1は、問題を人間の思考プロセスを模倣した段階的なアプローチで体系的に解決します。
OpenAIのチーフサイエンティスト、ヤクブ・パホツキは、O1が問い合わせに対してより慎重なアプローチを示し、問題を段階的に分析して改善された回答を提供することが、人間の思考過程を反映していると述べています。
徹底したテスト結果
1. ストロベリーテスト
記者が「ストロベリー」という単語に含まれる「r」の数を尋ねたところ、O1-previewは予想以上に正確な回答を示し、以前のモデルを上回りました。
2. コーディング
プログラミングタスクでは、「Two Sum」の問題に対し、O1-previewは解答と共に詳細な推論過程を示しました。回答の最適化を求めると、O1は最適解を確認するのに9秒を要し、思慮深く非最適なバリアントも提案しました。
3. ミニゲーム作成
ミニゲーム作成のテストでは、O1-previewがPongゲームのコードを19秒で生成し、学習ガイドと励ましのコメントを付けました。より複雑なゲームを作成するタスクでは、O1はイノベーティブな推論能力を駆使して魅力的なジャンプゲームを制作しました。
4. 科学的テスト
数学や経済のテストにおいて、O1-previewはオイラーの方程式などの著名な問題について基礎的な洞察を提供し、全体的に明確な論理を維持しました。複雑な経済システムの質問に対しては、多面的な思考と解決策を提示しました。
5. 事実認識
事実認識の応用では、O1-previewは単純な質問を誤解し、雑学を実際の歴史的イベントと混同しました。一方、GPT-4oはこの領域で優れたパフォーマンスを示しました。
結論
要約すると、O1モデルが人間レベルの推論に近づいているというOpenAIの主張は誇張ではありません。その思考プロセスはより人間らしい言語使用を見せていますが、OpenAIはその設計とテキスト処理能力がGPT-4oにはまだ劣ることを認めています。
O1は多くの点で優れている一方で、単純なリクエストに対する処理には変動が見られます。OpenAIは、今後のアップデートでこれらの課題に取り組むことを示しており、これはあくまで推論モデルの初期プレビュー段階であると強調しています。