Google DeepMind 推出「超越人類」的 AI 系統:革新事實查核、降低成本並提升準確性

谷歌DeepMind最近的一項研究顯示,一個人工智慧系統在評估大型語言模型生成信息的準確性方面,表現優於人類事實核查員。這篇題為《大型語言模型的長文事實性》(Long-form factuality in large language models)的論文,已發表於arXiv,介紹了搜尋增強事實性評估器(Search-Augmented Factuality Evaluator,簡稱SAFE)。這一創新方法利用大型語言模型將生成的文本拆解為個別事實,並通過利用谷歌搜索結果來評估每個聲明的準確性。

SAFE的工作過程包括將長篇回應拆分為不同事實,並通過多步推理對每個事實進行評估,其中包括在谷歌上進行查詢以驗證信息是否有相關資料支持。

對“超人”表現的爭論

研究人員對比了SAFE與人類標註者的表現,使用了大約16,000個事實的數據集。他們發現,SAFE的評估與人類評分在72%的情況下一致。在100個不一致的樣本中,SAFE的判斷正確率為76%。雖然論文聲稱“LLM代理可以實現超人級的評分表現”,但一些專家對這一“超人”定義提出挑戰。著名AI研究人員Gary Marcus在Twitter上表示,“超人”可能指的是“比低薪的群眾工作者更好,而不是值得信賴的人類事實核查員”。他比擬說,這就像在說1985年的棋類軟件代表了超人的能力。

Marcus主張,為了證實超人表現的主張,SAFE應當與專業人類事實核查員進行基準測試,而不是隨意的群眾工作者。了解人類評分者的資格和方法對準確解讀這些結果至關重要。

成本節省與模型基準測試

SAFE的一大優勢在於其成本效益;研究人員發現,使用這個AI系統的費用約為聘用人類核查員的20倍。隨著大型語言模型生成信息的數量增長,擁有一種經濟實惠且可擴展的解決方案來驗證聲明至關重要。

DeepMind團隊應用了SAFE來評估來自四個家族(Gemini、GPT、Claude和PaLM-2)的13種主要語言模型的事實準確性,使用了一個新的基準名為LongFact。他們的研究結果顯示,較大的模型通常會犯較少的事實錯誤。然而,即便是表現最佳的模型,仍然會產生相當數量的錯誤,這凸顯了在依賴可能傳達誤導信息的語言模型時需謹慎。像SAFE這樣的工具可能對降低這些風險至關重要。

對透明度和人類基準的需求

雖然SAFE的程式碼和LongFact數據集已在GitHub上公開,便於進一步檢視和開發,但對於研究中使用的人類基準仍需更多透明度。了解群眾工作者的資格和流程對於上下文化SAFE的性能至關重要。

隨著科技公司努力開發越來越先進的語言模型以應用於各種情境,自動核查其輸出信息的能力可能變得至關重要。像SAFE這樣的創新標誌著在建立AI生成信息的信任和負責任方面取得了重大進展。

然而,這類影響深遠的技術必須在透明的情況下發展,納入來自各方利益相關者的意見,而非僅僅依賴單一機構。與真正的專家進行全面和透明的基準測試,而不僅僅是群眾工作者,將是衡量真實進展的關鍵。只有這樣,我們才能真正理解自動事實核查在對抗虛假信息中的有效性。

Most people like

Find AI tools in YBX