最近,OpenAI 推出了最新的「草莓」模型,即「o1」。這一系列人工智慧模型旨在在回答問題之前進行更深入的思考。與之前專注於科學、編程和數學的模型相比,o1 模型在複雜推理任務和挑戰性問題上表現更為優秀。通過加強訓練,o1 系列不僅改善了思考過程,還探索了各種解決策略並具備自我修正的能力。
OpenAI 的評估顯示,o1 模型在物理、化學和生物等基準測試中的表現達到博士水平。在數學和編程方面,o1 也大放異彩:在國際數學奧林匹亞(IMO)資格考試中,之前的 GPT-4o 模型僅正確回答了 13% 的問題,而 o1 模型則以驚人的準確率 83% 輕鬆超越。此外,o1 在 Codeforces 比賽中排名第 89 百分位,展現出其卓越的編程才能。
儘管 o1 尚未具備 ChatGPT 的一些實用功能,如網頁瀏覽和文件上傳,但 OpenAI 強調 o1 在解決複雜科學和數學問題方面特別擅長。醫學研究人員可以利用 o1 分析細胞測序數據,物理學家可以為量子光學生成複雜的數學方程,而開發者則可運用 o1 創建多步驟工作流程。
OpenAI 還推出了 o1-mini,這是一種更快且成本更低的推理模型,特別適合編碼應用。o1-mini 的價格比 o1 低 80%,使其成為在不需要 extensive world knowledge 的場景下,經濟實惠的選擇。
在安全性方面,OpenAI 採用了新的訓練方法,利用 o1 模型的推理能力來提升對安全和合規標準的遵循。在越獄測試中,o1-preview 的得分為 84,遠超 GPT-4o 的 22,顯示出在維持安全性方面的顯著進步。
目前,o1 和 o1-mini 的預覽版本已在 ChatGPT(Plus 和 Team)及 API 中提供,未來有計劃讓所有 ChatGPT 免費用戶都能使用 o1-mini。