打擊聊天機器人錯誤資訊：Google DeepMind 與史丹佛大學推出 AI 事實查核工具

Home 硬體打擊聊天機器人錯誤資訊：Google DeepMind 與史丹佛大學推出 AI 事實查核工具

最近的報導指出，儘管人工智慧聊天機器人的技術不斷進步，但仍然存在一個普遍的問題：這些系統經常提供事實錯誤的答案。這種現象被稱為「幻覺」，指的是AI生成的信息雖然看似可信，但實際上卻是錯誤的。

為了解決這一挑戰，Google DeepMind和斯坦福大學的研究團隊開發了一種名為搜索增強事實評估器（SAFE）的工具。該工具利用大型語言模型來核實聊天機器人生成的冗長回答的準確性。他們的研究成果、實驗代碼和數據集已公開供大家使用。

SAFE系統通過四個步驟檢查AI生成的回覆的準確性和真實性：首先，將回答拆分為需要驗證的單獨陳述；其次，根據需要修正這些陳述；第三，將陳述與Google搜索結果進行比較；最後，評估每個事實與原始查詢的相關性。

為了評估系統的有效性，研究人員創建了一個名為LongFact的數據集，其中包含約16,000個事實，並在包括Claude、Gemini、GPT和PaLM-2在內的13個大型語言模型上測試了SAFE。結果顯示，在分析100個有爭議的事實時，SAFE在進一步審查後達到了76%的準確率。此外，該框架展現出顯著的成本效益，開支比手動標註低20倍以上。這一進展標誌著提升AI聊天機器人可靠性的重要一步。

三星透過生成式人工智慧功能強化Bixby，提供更智慧的助手服務

Google：移動人工智慧模型消耗大量記憶體資源

Most people like

GVA NDAチェック

563.1K

使用人工智能驅動的保密協議驗證工具來保障您的協議。

保密協議 Other

Shortwave

949.8K

介紹 Shortwave：一款專為專業人員設計的 AI 驅動郵件服務，旨在提高工作效率並消除壓力。

智能郵件 AI Email Assistant

Devv AI Search Engine

464.1K

介紹以開發者為中心的 AI 搜尋引擎，這是一款專為程序員和開發者設計的強大工具。這個創新的平台徹底改變了您尋找和利用程式碼資源、文檔和技術解決方案的方式。通過利用先進的人工智慧，我們的搜尋引擎提供專門針對您特定編程需求的精確結果，提升您的生產力並簡化開發流程。體驗我們直觀的 AI 驅動搜尋引擎，探索編程的未來，旨在賦能每一位開發者。

人工智慧搜尋引擎 Other

Xtransfer

173.5K

提升全球貿易支付的安全性在當今互聯網經濟中至關重要。隨著企業日益依賴國際交易，確保支付流程的安全和可靠性變得愈加重要。通過實施適當的措施，公司可以降低風險、簡化運營，並促進跨境貿易的信任。優先考慮安全支付解決方案不僅保護了您的財務利益，還為在全球市場上的可持續增長鋪平了道路。

全球貿易付款 Other

Find AI tools in YBX