OpenAI发布o1推理模型:超越GPT-4,具备物理和生物学领域的博士级人类能力

最近,OpenAI推出了最新的“草莓”模型——“o1”。这一新系列的人工智能模型旨在在回答问题之前进行更深入的思考。

与以往专注于科学、编程和数学的模型不同,o1模型在复杂推理任务和解决更具挑战性的问题上表现尤为出色。通过增强训练,o1系列不仅优化了思维过程,还探索了多种解决策略,具备自我纠错的能力。

OpenAI的评估显示,o1模型在物理、化学和生物学等基准测试中达到了博士级水平。在数学和编程方面,o1同样表现优异:在国际数学奥林匹克(IMO)资格考试中,以前的GPT-4o模型仅正确回答了13%的问题,而o1模型的准确率高达83%。此外,在Codeforces比赛中,o1也排名第89百分位,展示了其卓越的编程才能。

尽管o1尚未具备某些ChatGPT的实用功能,如网络浏览和文件上传,OpenAI强调o1特别擅长解决复杂的科学和数学问题。医学研究人员可以利用o1分析细胞测序数据,物理学家可以为量子光学生成复杂的数学方程,开发人员则可以利用o1创造多步骤工作流程。

OpenAI同时推出了o1-mini,这是一款更快速且更具成本效益的推理模型,适用于编程应用。o1-mini的价格比o1低80%,非常适合需要推理但不需要广泛世界知识的场景。

在安全性方面,OpenAI引入了一种新的训练方法,利用o1模型的推理能力来增强其符合安全和对齐标准的能力。在越狱测试中,o1-preview得分为84,而GPT-4o仅为22,显示了在保持安全性方面的显著改进。

目前,o1和o1-mini的预览版本已在ChatGPT(Plus和Team)及API中上线,未来计划使o1-mini对所有ChatGPT免费用户开放。

Most people like

Find AI tools in YBX