在Reddit上出現的一個引人入勝且實用的俚語是「ELI5」,即「像我五歲一樣解釋」。這個用語鼓勵專家將複雜的概念簡化,就像在向五歲小孩解釋一樣,使所有人,包括那些沒有正式教育背景的人,能夠理解這些複雜的想法。這種直接的方式對AI模型也有益,尤其是在解決「可讀性」問題上,這是指理解AI系統如何得出結論的能力。
今天,OpenAI的研究人員在其網站和arXiv.org上發佈了一篇重要的科學論文,題為「Prover-Verifier Games Improve Legibility of LLM Outputs」,揭示了在這方面的重大進展。他們的工作探索了一種新算法,使大型語言模型(LLMs),如GPT-4,能夠更清晰地表達它們的推理過程。
在AI系統中建立信任至關重要,特別是在醫療、法律、軍事及關鍵基礎設施等敏感領域,因為不準確的結果可能導致危險後果。即使是這些行業之外的公司,對於錯誤輸出也可能會猶豫採用AI。OpenAI的研究旨在提供一個框架,使AI模型能夠清晰地解釋其決策過程,從而增強用戶的信任。
OpenAI研究人員Jan Hendrik Kirchner評論道:「這是我們剛剛完成的新研究,我們渴望與社群分享這些見解,以提高對可讀性問題的認識,並鼓勵合作以尋求解決方案。」
理解Prover-Verifier遊戲
OpenAI開發的算法基於「Prover-Verifier遊戲」,這一概念最早由多倫多大學和向量人工智慧研究所的研究人員在2021年詳細說明。該遊戲涉及兩個AI模型:一個先進的「證明者」與一個較簡單的「驗證者」。證明者的目標是說服驗證者其答案是正確的,而驗證者則努力找出準確的答案。
這個遊戲旨在促進AI模型「展示其過程」,向人類用戶解釋其推理,實際上是推廣可驗證的問題解決方法。OpenAI研究人員Yining Chen指出:「隨著大型語言模型越來越多地應用於複雜和關鍵領域,確保其輸出是可信的至關重要。Prover-Verifier遊戲方法增強了清晰度和可驗證性,這是可信度的關鍵要素。」
實施Prover-Verifier遊戲
OpenAI使用了兩個經過自訂微調的GPT-4模型,進行了一系列回合來解決小學數學題。其方法的關鍵在於交替證明者模型的行為,分別為「有幫助」(旨在提供正確答案)和「狡猾」(試圖誤導驗證者)。驗證者模型在不知情的情況下,基於其訓練來評估答案。
在每輪遊戲後,兩個模型都會根據先前的表現進行再訓練,增強其評估正確性及用更易於理解的方式表達解釋的能力。人類評估員則被徵集來評價證明者模型的答案可讀性。經過幾輪後,研究人員觀察到,驗證者模型對狡猾證明者的說服技巧的抵抗力有所提高,而證明者模型在解釋推理過程方面變得更為有效。
論文中指出:「難以被較小驗證者檢測的狡猾解答對人類而言同樣具挑戰性,而更易於被較小驗證者理解的有幫助解答對人類來說也更容易理解。」通過這些實驗產生的算法,優化了LLMs在正確性和清晰度上的表現,OpenAI相信這將促進AI系統的發展,使其不僅產生正確輸出,還能提供透明的解釋,從而提高在現實應用中的安全性和信任度。
正如Chen所強調,這種方法有助於將更先進的AI系統與人類評估者對齊,這是模型接近或超越人類智能的重要步驟。Kirchner補充道:「在這個階段,人類可能會越來越難以可靠地判斷AI生成內容的準確性。」