OpenAI新O1模型评测：在编程与游戏开发中表现优异，然而事实知识仍显不足

Home AI News CN OpenAI新O1模型评测：在编程与游戏开发中表现优异，然而事实知识仍显不足

OpenAI 最新的“草莓”模型 O1：推理能力的革命性飞跃

2023年9月12日，OpenAI 意外推出了备受期待的“草莓”模型，这是其新一代推理模型 O1 的首个版本。目前，O1 的预览版（o1-preview）和迷你版（o1-mini）已向 ChatGPT Plus 和 Team 订阅用户开放，企业和教育用户将在下周初获得访问权限。OpenAI 计划最终将 O1-mini 提供给所有免费用户，但具体日期尚未确定。

OpenAI 表示，O1 模型在问题解决上的方法类似于人类推理，特别擅长数学、编程和科学等任务。

评估 o1-preview 模型能力的过程中，《每日经济新闻》的一名记者在五个维度进行了测试：草莓测试、编程、迷你游戏创建、数学与经济学以及事实知识。结果表明，o1-preview 在编程和数学推理上超越了此前的 OpenAI 模型，能够生成高效的代码并在复杂场景中自主得出解决方案。此外，o1-preview 展现出显著增强的人类推理风格，但在事实知识评估中表现稍显不足。

O1 的推理能力

O1 模型标志着 OpenAI 在创建类人智能方面的一大进展。OpenAI 决定完全放弃“GPT”品牌，因为这一模型具备根本性的新能力。它通过分步解决问题的方式，模拟人类的推理过程。

OpenAI 首席科学家 Jakub Pachocki 指出，O1 在面对问询时采取更谨慎的态度，逐步分析和分解问题，以提供更好的答案，这反映了人类的思维方式。在竞赛编程和数学领域，O1 的表现位于顶级水平，其在物理、生物和化学基准测试中的准确度甚至超越了人类博士生。

综合测试结果

1. 草莓测试

记者提出了一个简单的问题：“‘草莓’一词中有多少个'r'？”O1-preview 提供了意想不到的精准答案，超越了早期模型。

2. 编程

在编程任务中，当提出经典的“两数之和”问题时，o1-preview 不仅给出了解决方案，还详细描述了推理过程。在被要求优化答案时，O1 花费九秒确认其提供的是最优解，并巧妙地建议了一种次优变体。

3. 迷你游戏创建

在迷你游戏创建测试中，o1-preview 在19秒内生成了顺畅运行的 Pong 游戏代码，并附上了学习指南和激励语。在被委托创建一个更复杂的游戏时，O1 迭代生成了一个引人入胜的跳跃游戏，展示了其创新的推理能力。

4. 科学测试

在数学和经济学测试中，o1-preview 为著名问题（如欧拉方程）提供了基础洞察，保持了整体逻辑的清晰性。对于复杂的经济系统查询，O1 提供了多维思考和解决方案。

5. 事实知识

在事实知识应用中，o1-preview 对简单查询的理解存在误差，将琐事与实际历史事件混淆，而 GPT-4o 在这一领域表现优越。

结论

总而言之，OpenAI 宣称 O1 模型接近人类水平的推理能力并非夸大。其思维过程中展现了更为人性化的语言使用，尽管 OpenAI 承认其设计和文本处理能力仍未及 GPT-4o。

虽然 O1 在多个方面表现出色，但在处理简单请求时依然存在波动。OpenAI 表示，未来的更新将解决这些不足，强调这仅是推理模型的早期预览阶段。

谷歌诉讼：深入分析对Gemini聊天工具的商标侵权指控

OpenAI推出革命性AI模型“o1”：开启复杂推理的新纪元

Most people like

BiGe AIPPT

65.1K

AI驱动的PPT创作工具：提升演示效果的智能助手在现代工作和学习中，PowerPoint 演示文稿是传递信息和观点的重要工具。随着人工智能的快速发展，AI驱动的PPT创作工具应运而生，为用户提供了更高效、便捷的演示制作体验。这些智能助手不仅能自动生成内容、设计美观的幻灯片布局，还能帮助用户优化陈述技巧，从而让每一场演示更加引人注目。通过使用这些先进的AI工具，您可以轻松创建专业级的PPT，提升您的演示效果和观众的参与感。

人工智能驱动 AI演示生成器