OpenAI 利用遊戲提升 AI 模型的自我解釋能力

Home AI新聞 OpenAI 利用遊戲提升 AI 模型的自我解釋能力

在Reddit上出現的一個引人入勝且實用的俚語是「ELI5」，即「像我五歲一樣解釋」。這個用語鼓勵專家將複雜的概念簡化，就像在向五歲小孩解釋一樣，使所有人，包括那些沒有正式教育背景的人，能夠理解這些複雜的想法。這種直接的方式對AI模型也有益，尤其是在解決「可讀性」問題上，這是指理解AI系統如何得出結論的能力。

今天，OpenAI的研究人員在其網站和arXiv.org上發佈了一篇重要的科學論文，題為「Prover-Verifier Games Improve Legibility of LLM Outputs」，揭示了在這方面的重大進展。他們的工作探索了一種新算法，使大型語言模型（LLMs），如GPT-4，能夠更清晰地表達它們的推理過程。

在AI系統中建立信任至關重要，特別是在醫療、法律、軍事及關鍵基礎設施等敏感領域，因為不準確的結果可能導致危險後果。即使是這些行業之外的公司，對於錯誤輸出也可能會猶豫採用AI。OpenAI的研究旨在提供一個框架，使AI模型能夠清晰地解釋其決策過程，從而增強用戶的信任。

OpenAI研究人員Jan Hendrik Kirchner評論道：「這是我們剛剛完成的新研究，我們渴望與社群分享這些見解，以提高對可讀性問題的認識，並鼓勵合作以尋求解決方案。」

理解Prover-Verifier遊戲

OpenAI開發的算法基於「Prover-Verifier遊戲」，這一概念最早由多倫多大學和向量人工智慧研究所的研究人員在2021年詳細說明。該遊戲涉及兩個AI模型：一個先進的「證明者」與一個較簡單的「驗證者」。證明者的目標是說服驗證者其答案是正確的，而驗證者則努力找出準確的答案。

這個遊戲旨在促進AI模型「展示其過程」，向人類用戶解釋其推理，實際上是推廣可驗證的問題解決方法。OpenAI研究人員Yining Chen指出：「隨著大型語言模型越來越多地應用於複雜和關鍵領域，確保其輸出是可信的至關重要。Prover-Verifier遊戲方法增強了清晰度和可驗證性，這是可信度的關鍵要素。」

實施Prover-Verifier遊戲

OpenAI使用了兩個經過自訂微調的GPT-4模型，進行了一系列回合來解決小學數學題。其方法的關鍵在於交替證明者模型的行為，分別為「有幫助」（旨在提供正確答案）和「狡猾」（試圖誤導驗證者）。驗證者模型在不知情的情況下，基於其訓練來評估答案。

在每輪遊戲後，兩個模型都會根據先前的表現進行再訓練，增強其評估正確性及用更易於理解的方式表達解釋的能力。人類評估員則被徵集來評價證明者模型的答案可讀性。經過幾輪後，研究人員觀察到，驗證者模型對狡猾證明者的說服技巧的抵抗力有所提高，而證明者模型在解釋推理過程方面變得更為有效。

論文中指出：「難以被較小驗證者檢測的狡猾解答對人類而言同樣具挑戰性，而更易於被較小驗證者理解的有幫助解答對人類來說也更容易理解。」通過這些實驗產生的算法，優化了LLMs在正確性和清晰度上的表現，OpenAI相信這將促進AI系統的發展，使其不僅產生正確輸出，還能提供透明的解釋，從而提高在現實應用中的安全性和信任度。

正如Chen所強調，這種方法有助於將更先進的AI系統與人類評估者對齊，這是模型接近或超越人類智能的重要步驟。Kirchner補充道：「在這個階段，人類可能會越來越難以可靠地判斷AI生成內容的準確性。」

將現實轉化為幻想：Live2Diff AI 即時為您的影片進行風格化

Capgemini 探討為何生成式人工智慧的概念驗證常常無法獲得關注