AI 模型自評安全性:OpenAI 最新對齊研究的洞見

OpenAI推出了一種新的方法,旨在使AI模型符合安全政策,稱為基於規則的獎勵(Rules-Based Rewards,RBR)。OpenAI安全系統負責人Lilian Weng解釋說,RBR自動化了模型微調的部分工作,顯著縮短了防止模型產生意外反應所需的時間。

傳統上,模型在對齊訓練中依賴於來自人類反饋的增強學習,Weng指出這雖然有效,但耗時冗長。“我們經常花費大量時間討論政策細節,結果到最後政策可能已經改變,”她在一次訪談中提到。

來自人類反饋的增強學習涉及激發模型並根據準確性和偏好評估其反應。如果模型被編程為不以某種方式回應—例如拒絕危險請求—那麼人類評估者將檢查其是否符合安全指導方針。

通過RBR,OpenAI使安全和政策團隊能夠利用一個根據既定規則評估反應的模型。例如,一個心理健康應用程式開發團隊可能要求其AI模型在拒絕不安全的請求時不帶有評判性,同時鼓勵用戶尋求幫助。這需要制定三項規則:模型必須拒絕請求、保持非評判性語氣並提供支持性提醒。

RBR模型根據這三項規則評估心理健康AI的反應以確定其合規性。Weng報告稱,使用RBR的測試結果與人類主導的增強學習獲得的結果相當。

儘管RBR展現了潛力,但確保AI模型在定義範圍內運行依然存在挑戰,有時會引發爭議。例如,Google在2月遭遇批評,其Gemini模型過度修正,拒絕生成白人的圖像,反而產生了歷史不準確的輸出。

減少人類主觀性

AI監管另一個AI的安全性引發合理的擔憂。然而,Weng認為RBR有助於最小化主觀性,這是人類評估者常面臨的挑戰。“與人類訓練者合作時,模糊的指示會產生較低質量的數據,”她指出。明確的規則更有效地指導模型的行為。

OpenAI承認,雖然RBR可能減少人類監管,但也帶來了道德挑戰,如潛在的偏見增加。該公司強調設計公平和準確的RBR系統的重要性,建議結合RBR和人類反饋。

RBR可能在需要主觀判斷的任務中遇到困難,例如創意寫作。OpenAI在開發GPT-4期間開始探索RBR方法,Weng表示該方法自那時以來已有顯著進步。

OpenAI對其安全承諾面臨審查。今年三月,前研究員Jan Leike批評該公司的安全文化和流程,表示這些已被追求創新產品的目標所掩蓋。聯合創始人兼首席科學家Ilya Sutskever,此前與Leike共同領導超對齊團隊,已離開OpenAI,建立一家專注於安全AI系統的新公司。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles