AI 模型自評安全性：OpenAI 最新對齊研究的洞見

Home AI新聞 AI 模型自評安全性：OpenAI 最新對齊研究的洞見

OpenAI推出了一種新的方法，旨在使AI模型符合安全政策，稱為基於規則的獎勵（Rules-Based Rewards，RBR）。OpenAI安全系統負責人Lilian Weng解釋說，RBR自動化了模型微調的部分工作，顯著縮短了防止模型產生意外反應所需的時間。

傳統上，模型在對齊訓練中依賴於來自人類反饋的增強學習，Weng指出這雖然有效，但耗時冗長。“我們經常花費大量時間討論政策細節，結果到最後政策可能已經改變，”她在一次訪談中提到。

來自人類反饋的增強學習涉及激發模型並根據準確性和偏好評估其反應。如果模型被編程為不以某種方式回應—例如拒絕危險請求—那麼人類評估者將檢查其是否符合安全指導方針。

通過RBR，OpenAI使安全和政策團隊能夠利用一個根據既定規則評估反應的模型。例如，一個心理健康應用程式開發團隊可能要求其AI模型在拒絕不安全的請求時不帶有評判性，同時鼓勵用戶尋求幫助。這需要制定三項規則：模型必須拒絕請求、保持非評判性語氣並提供支持性提醒。

RBR模型根據這三項規則評估心理健康AI的反應以確定其合規性。Weng報告稱，使用RBR的測試結果與人類主導的增強學習獲得的結果相當。

儘管RBR展現了潛力，但確保AI模型在定義範圍內運行依然存在挑戰，有時會引發爭議。例如，Google在2月遭遇批評，其Gemini模型過度修正，拒絕生成白人的圖像，反而產生了歷史不準確的輸出。

減少人類主觀性

AI監管另一個AI的安全性引發合理的擔憂。然而，Weng認為RBR有助於最小化主觀性，這是人類評估者常面臨的挑戰。“與人類訓練者合作時，模糊的指示會產生較低質量的數據，”她指出。明確的規則更有效地指導模型的行為。

OpenAI承認，雖然RBR可能減少人類監管，但也帶來了道德挑戰，如潛在的偏見增加。該公司強調設計公平和準確的RBR系統的重要性，建議結合RBR和人類反饋。

RBR可能在需要主觀判斷的任務中遇到困難，例如創意寫作。OpenAI在開發GPT-4期間開始探索RBR方法，Weng表示該方法自那時以來已有顯著進步。

OpenAI對其安全承諾面臨審查。今年三月，前研究員Jan Leike批評該公司的安全文化和流程，表示這些已被追求創新產品的目標所掩蓋。聯合創始人兼首席科學家Ilya Sutskever，此前與Leike共同領導超對齊團隊，已離開OpenAI，建立一家專注於安全AI系統的新公司。

Nvidia新推出的AI工具引發定制模型的潛在黃金熱潮

Stack Overflow 調查：開發者對 AI 取代工作的擔憂毫不在意

Most people like

DeepL

202.2M

DeepL 是一款強大的翻譯工具，能夠快速且高度準確地翻譯文本和文件。憑藉其先進技術，它確保翻譯的清晰和精確，使其成為跨語言無縫溝通的首選之一。

翻譯者 Translate

Secta Labs

62.9K

在當今的數位世界，良好的第一印象至關重要。 AI 生成的專業頭像不僅提升您的線上形象，還傳達出專業性和親和力。這些頭像利用先進的人工智慧技術，專為個人和企業的獨特風格及品牌需求而打造。了解如何擁抱 AI 生成的影像，能夠改變您的個人和專業品牌，讓您在競爭激烈的環境中脫穎而出。

人工智慧 AI Photo & Image Generator

SciSummary

239.8K

利用SciSummary的人工智慧平台，快速總結並理解科學文章。體驗我們的創新工具帶來的深入理解與高效閱讀，旨在簡化複雜的研究成果。

人工智慧 Summarizer

August Melon Technology

336.5K

在當今競爭激烈的環境中，有效的全球專利檢索與分析在推動創新和保護知識產權方面扮演著至關重要的角色。透過系統性地收集和檢視來自世界各地的專利數據，企業和研究人員能夠識別趨勢、揭示競爭情報並做出明智的決策。這一過程不僅提升了策略規劃，還藉由緊跟技術進步和市場變化促進增長。加入我們，探索導航全球專利資訊複雜性所需的基本方法和工具，以助力您的創新策略。

專利檢索 Other

Find AI tools in YBX