打擊聊天機器人錯誤資訊:Google DeepMind 與史丹佛大學推出 AI 事實查核工具

最近的報導指出,儘管人工智慧聊天機器人的技術不斷進步,但仍然存在一個普遍的問題:這些系統經常提供事實錯誤的答案。這種現象被稱為「幻覺」,指的是AI生成的信息雖然看似可信,但實際上卻是錯誤的。

為了解決這一挑戰,Google DeepMind和斯坦福大學的研究團隊開發了一種名為搜索增強事實評估器(SAFE)的工具。該工具利用大型語言模型來核實聊天機器人生成的冗長回答的準確性。他們的研究成果、實驗代碼和數據集已公開供大家使用。

SAFE系統通過四個步驟檢查AI生成的回覆的準確性和真實性:首先,將回答拆分為需要驗證的單獨陳述;其次,根據需要修正這些陳述;第三,將陳述與Google搜索結果進行比較;最後,評估每個事實與原始查詢的相關性。

為了評估系統的有效性,研究人員創建了一個名為LongFact的數據集,其中包含約16,000個事實,並在包括Claude、Gemini、GPT和PaLM-2在內的13個大型語言模型上測試了SAFE。結果顯示,在分析100個有爭議的事實時,SAFE在進一步審查後達到了76%的準確率。此外,該框架展現出顯著的成本效益,開支比手動標註低20倍以上。這一進展標誌著提升AI聊天機器人可靠性的重要一步。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles