自OpenAI於2023年3月推出強大的GPT-4大型語言模型(LLM)以來,使用者和開發者們對其後繼者GPT-5的推出充滿期待。然而,OpenAI選擇了一條不同的路徑,推出了一系列新模型:o1系列。
o1模型家族介紹
OpenAI新近發布的AI模型o1-preview和o1-mini,專為解決複雜任務和挑戰性問題而設計,性能優於GPT系列。今天,ChatGPT Plus的使用者可使用o1-preview,每周限制30條消息,而o1-mini則支持50條消息。值得注意的是,作為早期模型,它們的功能仍在開發中,當前缺乏如網頁瀏覽和文件上傳等功能,這些在GPT-4中已可用。
o1模型的卓越能力
OpenAI聲稱,o1系列在科學、醫療和技術等多個領域中擅長處理複雜問題。這些模型旨在幫助物理學家推導複雜方程,並協助醫療研究人員有效標註細胞排序數據。o1-mini模型為開發者提供了強大的功能,適合執行多步驟工作流程、調試代碼和解決編程挑戰。
o1-preview:博士級表現
o1-preview模型將更多時間用於深思熟慮的回應,模仿人類的問題解決方式。測試顯示,其在物理、化學和生物學方面的表現可與博士生媲美。在編程方面,它在Codeforces競賽中排名第89百分位,顯示出高超的調試和解決方案生成能力。在國際數學奧林匹亞資格考試中,它解決了83%的問題,顯著提高了GPT-4的13%成功率。該模型目前可供ChatGPT Plus和Team使用者使用,Enterprise和Edu使用者下周將獲得訪問權限。符合API 5級的開發者也可以利用o1模型,但初期將有使用限額。
o1-mini:經濟高效
隨著o1-preview的推出,OpenAI還推出了o1-mini模型,這是一個精簡版,提供更快且更經濟的推理能力。儘管專注於編程和STEM領域,o1-mini在IMO數學基準測試中也取得了70%的驚人成績,接近o1-preview的74%得分,但成本卻低得多。在編程評估中,它在Codeforces上獲得了1650的Elo分數,位於程序員的前86%。o1-mini的價格比o1-preview降低80%,非常適合尋求推理能力但不需要深厚知識的開發者和研究人員。它將可供ChatGPT Plus、Team、Enterprise和Edu使用者使用,未來也計畫將ChatGPT Free使用者納入。
安全性與保護改進
OpenAI對安全的承諾在兩個模型中均有體現,這些模型具備了增強的安全訓練機制。o1-preview模型在一項最具挑戰性的越獄評估中取得了84的高分,大幅高於GPT-4的22分。這些模型在上下文中對安全協議的推理能力,使其更能有效處理不安全的提示並降低生成不當內容的風險。OpenAI還與美國和英國的AI安全研究所建立了合作夥伴關係,以促進未來AI系統的評估和測試。
o1系列的未來發展
儘管o1-preview和o1-mini是強大的問題解決工具,OpenAI意識到這只是個開始。公司計畫定期增強這些模型,未來將添加網頁瀏覽、文件上傳和功能調用等新特性。隨著OpenAI持續開發GPT和o1系列,用戶可期待在各種應用中增強AI的能力和可及性。