排行榜：OpenAI 的 GPT-4 實現最低的幻覺率

Home AI新聞排行榜：OpenAI 的 GPT-4 實現最低的幻覺率

OpenAI 的 GPT-4 在最近由 Vectara 進行的評估中，成為減少文件摘要時幻覺的領先大型語言模型 (LLM)。該公司在 GitHub 上推出了一個綜合領導榜，使用其幻覺評估模型對主要 LLM 進行基準測試。此模型量化了在文件摘要過程中，AI 生成不準確或虛構信息的頻率。

GPT-4 和其變體 GPT-4 Turbo 表現卓越，準確率高達 97%，幻覺率僅為 3%。位居其後的 GPT-3.5 Turbo 也展現出色，準確率達 96.5%，幻覺率稍高，為 3.5%。在非 OpenAI 的競爭者中，Meta 的 700 億參數版本 Llama 2 表現突出，準確率為 94.9%，幻覺率僅 5.1%。相形之下，Google 的模型則在這個領導榜上表現不佳。Google Palm 2 的準確率為 87.9%，幻覺率高達 12.1%，而其經過對話優化的版本準確率更是僅有 72.8%，幻覺率高達 27.2%。

值得注意的是，Google Palm 2 Chat 在每個摘要中生成的平均字數為 221 字，GPT-4 則為每個摘要提供了平均 81 字的內容。

評估方法

Vectara 的評估旨在識別 LLM 輸出中的幻覺，使用開源數據集。該公司針對 1,000 篇簡短文檔對每個模型進行測試，要求根據文檔內容生成摘要。然而，僅有 831 篇文檔被所有模型摘要，其餘則因內容限制被篩除。對於所有模型共用的文檔，Vectara 計算了整體準確率和幻覺率。

需要注意的是，雖然測試內容未包含非法或「不適合工作的」素材，但某些觸發詞的出現導致部分模型的內容受限。

解決幻覺挑戰

幻覺問題一直是生成式 AI 在企業中廣泛應用的重大障礙。Vectara 產品負責人 Shane Connelly 在博客中強調，以前在量化幻覺方面的努力常常過於抽象或涉及爭議話題，限制了其在商業中的實用性。

Vectara 創建的幻覺評估模型是開源的，允許組織用來評估其語言模型在檢索增強生成 (RAG) 框架中的可靠性。該模型可通過 Hugging Face 獲得，使使用者能依據其特定需求進行自定義。

正如 Connelly 所述，「我們的目標是為企業提供必要的洞察，以便通過徹底而量化的分析，自信地實施生成系統。」通過提供對 AI 輸出的更清晰理解，企業能更好地應對生成 AI 技術的微妙之處。

突破性進展：兩個人工智慧系統成功談判自己的合約

OpenAI 追求與 Anthropic 合併：山姆·奧特曼被譽為「犧牲者」

Most people like

JCV - Japan Computer Vision

25.9K

以尖端計算機視覺技術革新各行各業。

電腦視覺 AI Image Recognition

Pixellot

281K

探索人工智慧驅動的運動攝影機如何改變體育報導、直播和分析的市場格局。這些創新的系統提升了現場廣播的質量，並提供深入的表現分析，為粉絲和教練提供無與倫比的每場比賽洞見。與我們一起探索體育科技的未來以及自動化在捕捉體育賽事精彩瞬間中的影響。

人工智慧相機 Other

Nextpart.ai

275.4K

探索下一代人工智慧聊天應用程式，讓您創建並自訂獨特的角色，進行引人入勝的對話。體驗這個創新平台所帶來的新互動層次，旨在提升您的聊天體驗。

AI 聊天應用程式 NSFW

Audimee

255K

釋放您聲音的力量，使用我們先進的語音轉語音工具，專為提升您的聲音表現而設計。無論您是音樂家、播客主持人或內容創作者，這項變革性的技術使您能夠輕鬆修改和增強您的聲音。告別限制，迎接無盡的音效可能性。探索我們的工具如何幫助您實現吸引觀眾的專業品質效果！

聲音轉換工具 Voice & Audio Editing

Find AI tools in YBX