OpenAI 新款 O1 模型評價：在編程和遊戲開發方面表現優異，但事實知識略顯不足

Home AI新聞 OpenAI 新款 O1 模型評價：在編程和遊戲開發方面表現優異，但事實知識略顯不足

OpenAI 最新的「草莓」模型 O1：推理能力的革命性突破

在 9 月 12 日，OpenAI 出乎意料地推出了期待已久的「草莓」模型，這是其新的推理模型系列中的第一個版本 O1。目前，O1 的預覽版（o1-preview）和迷你版（o1-mini）已向 ChatGPT Plus 和 Team 訂閱者開放，企業和教育用戶將在下週初獲得訪問權限。OpenAI 計畫最終向所有免費用戶提供 O1-mini，但具體日期尚待確認。

根據 OpenAI 的說法，O1 模型在問題解決方面的表現類似於人類推理，特別擅長數學、編程和科學任務。

為評估 o1-preview 模型的能力，《每日經濟新聞》的記者在五個維度上進行了測試：草莓測試、編程、小遊戲創建、數學與經濟學，以及事實知識。結果顯示，o1-preview 在編程和數學推理上超越了之前的 OpenAI 模型，能生成順利運行的代碼並自主推導出複雜情境中的解決方案。此外，o1-preview 顯示出顯著改善的類人推理風格，但在事實知識評估中表現不佳。

O1 的推理能力

O1 模型標誌著 OpenAI 在創造類人 AI 方面的一大步。 OpenAI 決定完全放棄「GPT」品牌，因為該模型體現了一種根本新的能力，系統性地通過離散步驟來模擬人類的推理。

OpenAI 的首席科學家 Jakub Pachocki 表示，O1 在面對詢問時更為謹慎，能循序漸進地分析和拆解問題，從而產出更佳答案，反映了人類的思考過程。

在競爭性編程和數學領域，O1 的表現位居頂尖，其在物理、生物和化學基準中的準確性甚至超過了人類的博士生。

綜合測試結果

1. 草莓測試

記者提出簡單問題「‘strawberry’ 這個詞中有多少個 'r'？」 O1-preview 給出了意想不到的準確回答，超越了早期模型。

2. 編程

在編程任務中，面對經典的「兩數之和」問題，o1-preview 提供了詳細的推理過程和解答。當被要求優化答案時，O1 花了九秒確認提供了最佳解，並還提供了一個次優變體的建議。

3. 小遊戲創建

在小遊戲創建測試中，o1-preview 在 19 秒內生成了順利運行的 Pong 遊戲代碼，附有學習指南和激勵語言。當被要求創建更複雜的遊戲時，O1 迭代出一款吸引人的跳躍遊戲，展示了其創新的推理能力。

4. 科學測試

在數學和經濟學測試中，o1-preview 提供了著名問題如歐拉方程的基礎見解，保持了清晰的總體邏輯。對於複雜的經濟系統問題，O1 提供了多維度的思考和解決方案。

5. 事實知識

在事實知識應用中，o1-preview 錯誤地解讀了簡單的查詢，將小知識與實際歷史事件混淆，而 GPT-4o 在這方面展現了更優秀的表現。

結論

總結而言，OpenAI 宣稱 O1 模型接近人類推理能力並非誇張。其思維過程顯示出更符合人類的語言運用，儘管 OpenAI 承認其設計和文本處理能力仍然落後於 GPT-4o。

雖然 O1 在多個方面表現出色，但在處理簡單請求時仍顯示出性能波動。OpenAI 指出，未來的更新將針對這些不足進行改進，強調目前仍為推理模型的早期預覽階段。

Google 罷訴：深入分析對 Gemini 聊天工具的商標侵權指控

OpenAI 推出革命性 AI 模型 o1：開創複雜推理的新時代

Most people like

Abacus.AI

1.3M

介紹一個創新的AI平台，旨在輕鬆創建先進的AI代理和強大系統。了解這個平台如何使用戶能夠駕馭人工智慧，簡化流程，並輕鬆提升生產力。今天就來解鎖自動化和機器學習的潛力！

人工智慧平台 Large Language Models (LLMs)

Instabase

71.1K

精簡您的操作，利用人工智能的力量自動化流程，並從您的數據中揭示寶貴的洞察。

人工智慧 Large Language Models (LLMs)

InteriorDecorator.ai

6.4K

歡迎來到 InteriorDecorator.ai，一個創新的 AI 平台，透過生成量身定制的室內設計理念來改變您的家居環境。利用先進的 AI 演算法，我們為您提供獨特的裝潢建議，旨在提升您的居住空間。今天就與我們一起探索家居設計的未來吧！

室內設計 AI Interior & Room Design

Convai - Conversational AI for Virtual Worlds

72.6K

Convai 透過先進的對話式人工智慧，為虛擬世界提升用戶互動和創造沉浸式體驗。

對話式人工智慧 AI Character

Find AI tools in YBX