排行榜：OpenAI 的 GPT-4 實現最低的幻覺率

Home AI新聞排行榜：OpenAI 的 GPT-4 實現最低的幻覺率

OpenAI 的 GPT-4 在最近由 Vectara 進行的評估中，成為減少文件摘要時幻覺的領先大型語言模型 (LLM)。該公司在 GitHub 上推出了一個綜合領導榜，使用其幻覺評估模型對主要 LLM 進行基準測試。此模型量化了在文件摘要過程中，AI 生成不準確或虛構信息的頻率。

GPT-4 和其變體 GPT-4 Turbo 表現卓越，準確率高達 97%，幻覺率僅為 3%。位居其後的 GPT-3.5 Turbo 也展現出色，準確率達 96.5%，幻覺率稍高，為 3.5%。在非 OpenAI 的競爭者中，Meta 的 700 億參數版本 Llama 2 表現突出，準確率為 94.9%，幻覺率僅 5.1%。相形之下，Google 的模型則在這個領導榜上表現不佳。Google Palm 2 的準確率為 87.9%，幻覺率高達 12.1%，而其經過對話優化的版本準確率更是僅有 72.8%，幻覺率高達 27.2%。

值得注意的是，Google Palm 2 Chat 在每個摘要中生成的平均字數為 221 字，GPT-4 則為每個摘要提供了平均 81 字的內容。

評估方法

Vectara 的評估旨在識別 LLM 輸出中的幻覺，使用開源數據集。該公司針對 1,000 篇簡短文檔對每個模型進行測試，要求根據文檔內容生成摘要。然而，僅有 831 篇文檔被所有模型摘要，其餘則因內容限制被篩除。對於所有模型共用的文檔，Vectara 計算了整體準確率和幻覺率。

需要注意的是，雖然測試內容未包含非法或「不適合工作的」素材，但某些觸發詞的出現導致部分模型的內容受限。

解決幻覺挑戰

幻覺問題一直是生成式 AI 在企業中廣泛應用的重大障礙。Vectara 產品負責人 Shane Connelly 在博客中強調，以前在量化幻覺方面的努力常常過於抽象或涉及爭議話題，限制了其在商業中的實用性。

Vectara 創建的幻覺評估模型是開源的，允許組織用來評估其語言模型在檢索增強生成 (RAG) 框架中的可靠性。該模型可通過 Hugging Face 獲得，使使用者能依據其特定需求進行自定義。

正如 Connelly 所述，「我們的目標是為企業提供必要的洞察，以便通過徹底而量化的分析，自信地實施生成系統。」通過提供對 AI 輸出的更清晰理解，企業能更好地應對生成 AI 技術的微妙之處。

突破性進展：兩個人工智慧系統成功談判自己的合約

OpenAI 追求與 Anthropic 合併：山姆·奧特曼被譽為「犧牲者」