OpenAI 的 GPT-4 在最近由 Vectara 進行的評估中,成為減少文件摘要時幻覺的領先大型語言模型 (LLM)。該公司在 GitHub 上推出了一個綜合領導榜,使用其幻覺評估模型對主要 LLM 進行基準測試。此模型量化了在文件摘要過程中,AI 生成不準確或虛構信息的頻率。
GPT-4 和其變體 GPT-4 Turbo 表現卓越,準確率高達 97%,幻覺率僅為 3%。位居其後的 GPT-3.5 Turbo 也展現出色,準確率達 96.5%,幻覺率稍高,為 3.5%。在非 OpenAI 的競爭者中,Meta 的 700 億參數版本 Llama 2 表現突出,準確率為 94.9%,幻覺率僅 5.1%。相形之下,Google 的模型則在這個領導榜上表現不佳。Google Palm 2 的準確率為 87.9%,幻覺率高達 12.1%,而其經過對話優化的版本準確率更是僅有 72.8%,幻覺率高達 27.2%。
值得注意的是,Google Palm 2 Chat 在每個摘要中生成的平均字數為 221 字,GPT-4 則為每個摘要提供了平均 81 字的內容。
評估方法
Vectara 的評估旨在識別 LLM 輸出中的幻覺,使用開源數據集。該公司針對 1,000 篇簡短文檔對每個模型進行測試,要求根據文檔內容生成摘要。然而,僅有 831 篇文檔被所有模型摘要,其餘則因內容限制被篩除。對於所有模型共用的文檔,Vectara 計算了整體準確率和幻覺率。
需要注意的是,雖然測試內容未包含非法或「不適合工作的」素材,但某些觸發詞的出現導致部分模型的內容受限。
解決幻覺挑戰
幻覺問題一直是生成式 AI 在企業中廣泛應用的重大障礙。Vectara 產品負責人 Shane Connelly 在博客中強調,以前在量化幻覺方面的努力常常過於抽象或涉及爭議話題,限制了其在商業中的實用性。
Vectara 創建的幻覺評估模型是開源的,允許組織用來評估其語言模型在檢索增強生成 (RAG) 框架中的可靠性。該模型可通過 Hugging Face 獲得,使使用者能依據其特定需求進行自定義。
正如 Connelly 所述,「我們的目標是為企業提供必要的洞察,以便通過徹底而量化的分析,自信地實施生成系統。」通過提供對 AI 輸出的更清晰理解,企業能更好地應對生成 AI 技術的微妙之處。