OpenAI 最新的「草莓」模型 O1:推理能力的革命性突破
在 9 月 12 日,OpenAI 出乎意料地推出了期待已久的「草莓」模型,這是其新的推理模型系列中的第一個版本 O1。目前,O1 的預覽版(o1-preview)和迷你版(o1-mini)已向 ChatGPT Plus 和 Team 訂閱者開放,企業和教育用戶將在下週初獲得訪問權限。OpenAI 計畫最終向所有免費用戶提供 O1-mini,但具體日期尚待確認。
根據 OpenAI 的說法,O1 模型在問題解決方面的表現類似於人類推理,特別擅長數學、編程和科學任務。
為評估 o1-preview 模型的能力,《每日經濟新聞》的記者在五個維度上進行了測試:草莓測試、編程、小遊戲創建、數學與經濟學,以及事實知識。結果顯示,o1-preview 在編程和數學推理上超越了之前的 OpenAI 模型,能生成順利運行的代碼並自主推導出複雜情境中的解決方案。此外,o1-preview 顯示出顯著改善的類人推理風格,但在事實知識評估中表現不佳。
O1 的推理能力
O1 模型標誌著 OpenAI 在創造類人 AI 方面的一大步。 OpenAI 決定完全放棄「GPT」品牌,因為該模型體現了一種根本新的能力,系統性地通過離散步驟來模擬人類的推理。
OpenAI 的首席科學家 Jakub Pachocki 表示,O1 在面對詢問時更為謹慎,能循序漸進地分析和拆解問題,從而產出更佳答案,反映了人類的思考過程。
在競爭性編程和數學領域,O1 的表現位居頂尖,其在物理、生物和化學基準中的準確性甚至超過了人類的博士生。
綜合測試結果
1. 草莓測試
記者提出簡單問題「‘strawberry’ 這個詞中有多少個 'r'?」 O1-preview 給出了意想不到的準確回答,超越了早期模型。
2. 編程
在編程任務中,面對經典的「兩數之和」問題,o1-preview 提供了詳細的推理過程和解答。當被要求優化答案時,O1 花了九秒確認提供了最佳解,並還提供了一個次優變體的建議。
3. 小遊戲創建
在小遊戲創建測試中,o1-preview 在 19 秒內生成了順利運行的 Pong 遊戲代碼,附有學習指南和激勵語言。當被要求創建更複雜的遊戲時,O1 迭代出一款吸引人的跳躍遊戲,展示了其創新的推理能力。
4. 科學測試
在數學和經濟學測試中,o1-preview 提供了著名問題如歐拉方程的基礎見解,保持了清晰的總體邏輯。對於複雜的經濟系統問題,O1 提供了多維度的思考和解決方案。
5. 事實知識
在事實知識應用中,o1-preview 錯誤地解讀了簡單的查詢,將小知識與實際歷史事件混淆,而 GPT-4o 在這方面展現了更優秀的表現。
結論
總結而言,OpenAI 宣稱 O1 模型接近人類推理能力並非誇張。其思維過程顯示出更符合人類的語言運用,儘管 OpenAI 承認其設計和文本處理能力仍然落後於 GPT-4o。
雖然 O1 在多個方面表現出色,但在處理簡單請求時仍顯示出性能波動。OpenAI 指出,未來的更新將針對這些不足進行改進,強調目前仍為推理模型的早期預覽階段。