OpenAI 最新的“草莓”模型 O1:推理能力的革命性飞跃
2023年9月12日,OpenAI 意外推出了备受期待的“草莓”模型,这是其新一代推理模型 O1 的首个版本。目前,O1 的预览版(o1-preview)和迷你版(o1-mini)已向 ChatGPT Plus 和 Team 订阅用户开放,企业和教育用户将在下周初获得访问权限。OpenAI 计划最终将 O1-mini 提供给所有免费用户,但具体日期尚未确定。
OpenAI 表示,O1 模型在问题解决上的方法类似于人类推理,特别擅长数学、编程和科学等任务。
评估 o1-preview 模型能力的过程中,《每日经济新闻》的一名记者在五个维度进行了测试:草莓测试、编程、迷你游戏创建、数学与经济学以及事实知识。结果表明,o1-preview 在编程和数学推理上超越了此前的 OpenAI 模型,能够生成高效的代码并在复杂场景中自主得出解决方案。此外,o1-preview 展现出显著增强的人类推理风格,但在事实知识评估中表现稍显不足。
O1 的推理能力
O1 模型标志着 OpenAI 在创建类人智能方面的一大进展。OpenAI 决定完全放弃“GPT”品牌,因为这一模型具备根本性的新能力。它通过分步解决问题的方式,模拟人类的推理过程。
OpenAI 首席科学家 Jakub Pachocki 指出,O1 在面对问询时采取更谨慎的态度,逐步分析和分解问题,以提供更好的答案,这反映了人类的思维方式。在竞赛编程和数学领域,O1 的表现位于顶级水平,其在物理、生物和化学基准测试中的准确度甚至超越了人类博士生。
综合测试结果
1. 草莓测试
记者提出了一个简单的问题:“‘草莓’一词中有多少个'r'?”O1-preview 提供了意想不到的精准答案,超越了早期模型。
2. 编程
在编程任务中,当提出经典的“两数之和”问题时,o1-preview 不仅给出了解决方案,还详细描述了推理过程。在被要求优化答案时,O1 花费九秒确认其提供的是最优解,并巧妙地建议了一种次优变体。
3. 迷你游戏创建
在迷你游戏创建测试中,o1-preview 在19秒内生成了顺畅运行的 Pong 游戏代码,并附上了学习指南和激励语。在被委托创建一个更复杂的游戏时,O1 迭代生成了一个引人入胜的跳跃游戏,展示了其创新的推理能力。
4. 科学测试
在数学和经济学测试中,o1-preview 为著名问题(如欧拉方程)提供了基础洞察,保持了整体逻辑的清晰性。对于复杂的经济系统查询,O1 提供了多维思考和解决方案。
5. 事实知识
在事实知识应用中,o1-preview 对简单查询的理解存在误差,将琐事与实际历史事件混淆,而 GPT-4o 在这一领域表现优越。
结论
总而言之,OpenAI 宣称 O1 模型接近人类水平的推理能力并非夸大。其思维过程中展现了更为人性化的语言使用,尽管 OpenAI 承认其设计和文本处理能力仍未及 GPT-4o。
虽然 O1 在多个方面表现出色,但在处理简单请求时依然存在波动。OpenAI 表示,未来的更新将解决这些不足,强调这仅是推理模型的早期预览阶段。