排行榜:OpenAI 的 GPT-4 實現最低的幻覺率

OpenAI 的 GPT-4 在最近由 Vectara 進行的評估中,成為減少文件摘要時幻覺的領先大型語言模型 (LLM)。該公司在 GitHub 上推出了一個綜合領導榜,使用其幻覺評估模型對主要 LLM 進行基準測試。此模型量化了在文件摘要過程中,AI 生成不準確或虛構信息的頻率。

GPT-4 和其變體 GPT-4 Turbo 表現卓越,準確率高達 97%,幻覺率僅為 3%。位居其後的 GPT-3.5 Turbo 也展現出色,準確率達 96.5%,幻覺率稍高,為 3.5%。在非 OpenAI 的競爭者中,Meta 的 700 億參數版本 Llama 2 表現突出,準確率為 94.9%,幻覺率僅 5.1%。相形之下,Google 的模型則在這個領導榜上表現不佳。Google Palm 2 的準確率為 87.9%,幻覺率高達 12.1%,而其經過對話優化的版本準確率更是僅有 72.8%,幻覺率高達 27.2%。

值得注意的是,Google Palm 2 Chat 在每個摘要中生成的平均字數為 221 字,GPT-4 則為每個摘要提供了平均 81 字的內容。

評估方法

Vectara 的評估旨在識別 LLM 輸出中的幻覺,使用開源數據集。該公司針對 1,000 篇簡短文檔對每個模型進行測試,要求根據文檔內容生成摘要。然而,僅有 831 篇文檔被所有模型摘要,其餘則因內容限制被篩除。對於所有模型共用的文檔,Vectara 計算了整體準確率和幻覺率。

需要注意的是,雖然測試內容未包含非法或「不適合工作的」素材,但某些觸發詞的出現導致部分模型的內容受限。

解決幻覺挑戰

幻覺問題一直是生成式 AI 在企業中廣泛應用的重大障礙。Vectara 產品負責人 Shane Connelly 在博客中強調,以前在量化幻覺方面的努力常常過於抽象或涉及爭議話題,限制了其在商業中的實用性。

Vectara 創建的幻覺評估模型是開源的,允許組織用來評估其語言模型在檢索增強生成 (RAG) 框架中的可靠性。該模型可通過 Hugging Face 獲得,使使用者能依據其特定需求進行自定義。

正如 Connelly 所述,「我們的目標是為企業提供必要的洞察,以便通過徹底而量化的分析,自信地實施生成系統。」通過提供對 AI 輸出的更清晰理解,企業能更好地應對生成 AI 技術的微妙之處。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles