Google DeepMind 推出「超越人類」的 AI 系統：革新事實查核、降低成本並提升準確性

Home AI新聞 Google DeepMind 推出「超越人類」的 AI 系統：革新事實查核、降低成本並提升準確性

谷歌DeepMind最近的一項研究顯示，一個人工智慧系統在評估大型語言模型生成信息的準確性方面，表現優於人類事實核查員。這篇題為《大型語言模型的長文事實性》（Long-form factuality in large language models）的論文，已發表於arXiv，介紹了搜尋增強事實性評估器（Search-Augmented Factuality Evaluator，簡稱SAFE）。這一創新方法利用大型語言模型將生成的文本拆解為個別事實，並通過利用谷歌搜索結果來評估每個聲明的準確性。

SAFE的工作過程包括將長篇回應拆分為不同事實，並通過多步推理對每個事實進行評估，其中包括在谷歌上進行查詢以驗證信息是否有相關資料支持。

對“超人”表現的爭論

研究人員對比了SAFE與人類標註者的表現，使用了大約16,000個事實的數據集。他們發現，SAFE的評估與人類評分在72%的情況下一致。在100個不一致的樣本中，SAFE的判斷正確率為76%。雖然論文聲稱“LLM代理可以實現超人級的評分表現”，但一些專家對這一“超人”定義提出挑戰。著名AI研究人員Gary Marcus在Twitter上表示，“超人”可能指的是“比低薪的群眾工作者更好，而不是值得信賴的人類事實核查員”。他比擬說，這就像在說1985年的棋類軟件代表了超人的能力。

Marcus主張，為了證實超人表現的主張，SAFE應當與專業人類事實核查員進行基準測試，而不是隨意的群眾工作者。了解人類評分者的資格和方法對準確解讀這些結果至關重要。

成本節省與模型基準測試

SAFE的一大優勢在於其成本效益；研究人員發現，使用這個AI系統的費用約為聘用人類核查員的20倍。隨著大型語言模型生成信息的數量增長，擁有一種經濟實惠且可擴展的解決方案來驗證聲明至關重要。

DeepMind團隊應用了SAFE來評估來自四個家族（Gemini、GPT、Claude和PaLM-2）的13種主要語言模型的事實準確性，使用了一個新的基準名為LongFact。他們的研究結果顯示，較大的模型通常會犯較少的事實錯誤。然而，即便是表現最佳的模型，仍然會產生相當數量的錯誤，這凸顯了在依賴可能傳達誤導信息的語言模型時需謹慎。像SAFE這樣的工具可能對降低這些風險至關重要。

對透明度和人類基準的需求

雖然SAFE的程式碼和LongFact數據集已在GitHub上公開，便於進一步檢視和開發，但對於研究中使用的人類基準仍需更多透明度。了解群眾工作者的資格和流程對於上下文化SAFE的性能至關重要。

隨著科技公司努力開發越來越先進的語言模型以應用於各種情境，自動核查其輸出信息的能力可能變得至關重要。像SAFE這樣的創新標誌著在建立AI生成信息的信任和負責任方面取得了重大進展。

然而，這類影響深遠的技術必須在透明的情況下發展，納入來自各方利益相關者的意見，而非僅僅依賴單一機構。與真正的專家進行全面和透明的基準測試，而不僅僅是群眾工作者，將是衡量真實進展的關鍵。只有這樣，我們才能真正理解自動事實核查在對抗虛假信息中的有效性。

伊隆·馬斯克推出Grok-1.5：接近GPT-4的性能里程碑

SambaNova 發布 AI Samba-CoE v0.2：在創新與性能上超越 Databricks DBRX

Most people like

Whatmore

12.9K

在當今的數位環境中，人工智慧與視頻商務的交匯點正在徹底改變消費者的在線購物方式。我們的人工智慧驅動視頻商務平台無縫結合引人入勝的視頻內容與電子商務功能，創造出一種獨特的購物體驗，吸引顧客並推動銷售。透過先進的分析工具和個性化推薦，企業不僅能提升客戶參與度，還能優化轉換率。探索我們的創新解決方案如何改變您的電子商務策略，並在日益競爭的市場中提升您的品牌。

視頻商務 AI Analytics Assistant

Question AI

34.7K

在當今快速變化的教育環境中，學生們常常面對多重責任，使得家庭作業成為一項挑戰。人工智慧（AI）作業輔助正在徹底改變學生處理作業的方式，提供個性化的支持和即時資源。這種創新方法使學習者能夠提升對複雜科目的理解，改善成績，並有效管理時間，同時增進對課程的深入參與。探索AI如何成為您終極的學習夥伴，簡化您的學業旅程！

AI 家教助手 Homework Helper

WhisperBot

16.9K

介紹 WhisperBot，您智能的 WhatsApp AI 助手，無縫將語音消息轉換為準確的文本轉錄。體驗使用尖端 AI 技術帶來的便利，輕鬆閱讀消息，而不必聆聽它們。

WhatsApp 語音消息 AI Advertising Assistant

JobsRemote.ai

18.4K

解鎖無縫的遠端工作機會，徹底改變你的遠程工作旅程！

遠端工具 AI Productivity Tools

Find AI tools in YBX