伽利略幻覺指數顯示，GPT-4 在多種使用案例中表現最佳，成為頂尖大型語言模型。

Home AI新聞伽利略幻覺指數顯示，GPT-4 在多種使用案例中表現最佳，成為頂尖大型語言模型。

Updated on 十一月 15 2023

一家位於舊金山的公司 Galileo 發佈了一個全新的幻覺指數，該指數協助企業開發、改進和監控大型語言模型（LLM）應用。指數顯示，OpenAI 的 GPT-4 模型在各項任務中展現出最少幻覺現象。

本日發佈的指數評估了近十種開放源碼和封閉源碼的 LLM，包括 Meta 的 Llama 系列，並比較它們的表現，以確定哪些模型的幻覺現象最少。結果顯示，儘管所有 LLM 在不同任務中表現各異，但 OpenAI 的模型在多種場景中始終超越其他競爭者。這一指數旨在幫助企業克服幻覺問題，這是阻礙 LLM 在醫療等關鍵領域普及的重大障礙。

追蹤 LLM 幻覺：具有挑戰性的任務

儘管企業對生成式 AI 及 LLM 部署充滿興趣，但性能差距卻時常出現。由於 LLM 倚賴向量數據庫來判斷相關術語和概念，該模型可能產生不完全準確的回答。Galileo 的共同創辦人及首席技術官 Atindriyo Sanyal 解釋道：「許多因素影響生成式 AI 產品的部署。比如，您的工具是設計來從簡單提示生成故事，還是作為聊天機器人基於專有信息回答客戶查詢？」

目前，企業雖然使用基準測試來評估模型性能，但卻缺乏全面評估幻覺出現的標準，這直到現在才有所改進。為了解決這個問題，Sanyal 和他的團隊針對三個常見任務評估了十種主要的開源和封閉源 LLM，這三個任務分別是無檢索增強生成（RAG）的問答、一個有 RAG 的問答以及長文本生成。

Sanyal 指出：「我們選擇了七個被認可為嚴格基準的熱門數據集，以有效挑戰每個模型在任務相關能力上的表現。」例如，在無 RAG 的問答類別中，他們利用 TruthfulQA 和 TriviaQA 數據集來測量模型處理一般查詢的能力。

Galileo 團隊縮小了數據集的規模並進行標註，以建立準確性的基準。他們使用自有的正確性和上下文遵循度指標來評估結果。Sanyal 詳細說明道：「這些指標使工程師和數據科學家能有效識別幻覺。正確性專注於邏輯和推理錯誤，測量無 RAG 的問答和長文本生成，而上下文遵循度則評估在提供的文檔中的推理，適用於有 RAG 的問答。」

性能概況

在無檢索任務中，OpenAI 的 GPT 模型表現出色，GPT-4-0613 的正確性得分為 0.77，緊隨其後的是 GPT-3.5 Turbo-1106，得分為 0.74，以及 GPT-3.5-Turbo-Instruct 和 GPT-3.5-Turbo-0613，均為 0.70。Meta 的 Llama-2-70b 以 0.65 成為最接近的競爭者，而 Llama-2-7b-chat 和 Mosaic ML 的 MPT-7b-instruct 則分別得分 0.52 和 0.40。

在檢索任務中，GPT-4-0613 再次居於首位，其上下文遵循度得分為 0.76，緊隨其後的 GPT-3.5-Turbo-0613 和 -1106 分別得分 0.75 和 0.74。Hugging Face 的 Zephyr-7b 驚人地以 0.71 超過 Meta 的 Llama-2-70b（得分 = 0.68）。阿聯酋的 Falcon-40b 和 Mosaic ML 的 MPT-7b 則在改進空間中，得分分別是 0.60 和 0.58。

在長文本生成任務中，GPT-4-0613 和 Llama-2-70b 的得分分別為 0.83 和 0.82，顯示出極少的幻覺現象。GPT-3.5-Turbo-1106 與 Llama 的得分相同，而 0613 版本則緊隨其後，得分 0.81。MPT-7b 的得分為 0.53。

平衡性能和成本

儘管 OpenAI 的 GPT-4 在各項任務中保持卓越表現，但其 API 價格可能顯著增加成本。Galileo 建議團隊考慮使用 GPT-3.5-Turbo 模型，以更低的費用獲得可比的性能。此外，開源模型如 Llama-2-70b 可在性能和可負擔性之間取得平衡。

重要的是要認識到，這個指數將隨著新模型的出現和現有模型的改進而演變。Galileo 計畫每季度更新該指數，以便為團隊提供 LLM 在各項任務中幻覺傾向的準確排名。

Sanyal 補充說：「我們的目標是為團隊提供解決幻覺問題的堅實基礎。雖然我們不期望幻覺指數被視為定論，但我們希望它能作為其生成式 AI 計畫的一個全面起點。」

Ramp，這家企業卡創新公司，與 Microsoft Teams 和 365 Copilot 無縫整合，提升生產力。

微軟大膽進軍生成性人工智慧：2023年Ignite大會的主要公告

Most people like

MovieWiser

362.6K

MovieWiser 是一個智能的 AI 驅動平台，旨在根據您的獨特品味推薦電影和電視劇。憑藉其先進的算法，MovieWiser 簡化了尋找您下一部最愛的影片或節目的過程，使個性化娛樂推薦變得比以往更簡單。發現一個符合您喜好的精選內容世界！

電影 Other

Noota

107.3K

Noota 是一款先進的 AI 助手，旨在通過自動化筆記和輕鬆生成全面的會議報告，來簡化您的工作流程。

其他 AI CRM Assistant

Radiant Imaging Labs

54K

Radiant Photo 讓您的圖片更加生動，並迅速提供卓越的色彩與品質。體驗先進技術的力量，輕鬆改變您的照片。

照片編輯 AI Image Enhancer

LiteLLM

154.5K

LiteLLM 是一個開源庫，旨在簡化 LLM 完成和嵌入的調用，使開發者能夠更輕鬆和高效地使用。

LLM 完成 Large Language Models (LLMs)

Find AI tools in YBX