一家位於舊金山的公司 Galileo 發佈了一個全新的幻覺指數,該指數協助企業開發、改進和監控大型語言模型(LLM)應用。指數顯示,OpenAI 的 GPT-4 模型在各項任務中展現出最少幻覺現象。
本日發佈的指數評估了近十種開放源碼和封閉源碼的 LLM,包括 Meta 的 Llama 系列,並比較它們的表現,以確定哪些模型的幻覺現象最少。結果顯示,儘管所有 LLM 在不同任務中表現各異,但 OpenAI 的模型在多種場景中始終超越其他競爭者。這一指數旨在幫助企業克服幻覺問題,這是阻礙 LLM 在醫療等關鍵領域普及的重大障礙。
追蹤 LLM 幻覺:具有挑戰性的任務
儘管企業對生成式 AI 及 LLM 部署充滿興趣,但性能差距卻時常出現。由於 LLM 倚賴向量數據庫來判斷相關術語和概念,該模型可能產生不完全準確的回答。Galileo 的共同創辦人及首席技術官 Atindriyo Sanyal 解釋道:「許多因素影響生成式 AI 產品的部署。比如,您的工具是設計來從簡單提示生成故事,還是作為聊天機器人基於專有信息回答客戶查詢?」
目前,企業雖然使用基準測試來評估模型性能,但卻缺乏全面評估幻覺出現的標準,這直到現在才有所改進。為了解決這個問題,Sanyal 和他的團隊針對三個常見任務評估了十種主要的開源和封閉源 LLM,這三個任務分別是無檢索增強生成(RAG)的問答、一個有 RAG 的問答以及長文本生成。
Sanyal 指出:「我們選擇了七個被認可為嚴格基準的熱門數據集,以有效挑戰每個模型在任務相關能力上的表現。」例如,在無 RAG 的問答類別中,他們利用 TruthfulQA 和 TriviaQA 數據集來測量模型處理一般查詢的能力。
Galileo 團隊縮小了數據集的規模並進行標註,以建立準確性的基準。他們使用自有的正確性和上下文遵循度指標來評估結果。Sanyal 詳細說明道:「這些指標使工程師和數據科學家能有效識別幻覺。正確性專注於邏輯和推理錯誤,測量無 RAG 的問答和長文本生成,而上下文遵循度則評估在提供的文檔中的推理,適用於有 RAG 的問答。」
性能概況
在無檢索任務中,OpenAI 的 GPT 模型表現出色,GPT-4-0613 的正確性得分為 0.77,緊隨其後的是 GPT-3.5 Turbo-1106,得分為 0.74,以及 GPT-3.5-Turbo-Instruct 和 GPT-3.5-Turbo-0613,均為 0.70。Meta 的 Llama-2-70b 以 0.65 成為最接近的競爭者,而 Llama-2-7b-chat 和 Mosaic ML 的 MPT-7b-instruct 則分別得分 0.52 和 0.40。
在檢索任務中,GPT-4-0613 再次居於首位,其上下文遵循度得分為 0.76,緊隨其後的 GPT-3.5-Turbo-0613 和 -1106 分別得分 0.75 和 0.74。Hugging Face 的 Zephyr-7b 驚人地以 0.71 超過 Meta 的 Llama-2-70b(得分 = 0.68)。阿聯酋的 Falcon-40b 和 Mosaic ML 的 MPT-7b 則在改進空間中,得分分別是 0.60 和 0.58。
在長文本生成任務中,GPT-4-0613 和 Llama-2-70b 的得分分別為 0.83 和 0.82,顯示出極少的幻覺現象。GPT-3.5-Turbo-1106 與 Llama 的得分相同,而 0613 版本則緊隨其後,得分 0.81。MPT-7b 的得分為 0.53。
平衡性能和成本
儘管 OpenAI 的 GPT-4 在各項任務中保持卓越表現,但其 API 價格可能顯著增加成本。Galileo 建議團隊考慮使用 GPT-3.5-Turbo 模型,以更低的費用獲得可比的性能。此外,開源模型如 Llama-2-70b 可在性能和可負擔性之間取得平衡。
重要的是要認識到,這個指數將隨著新模型的出現和現有模型的改進而演變。Galileo 計畫每季度更新該指數,以便為團隊提供 LLM 在各項任務中幻覺傾向的準確排名。
Sanyal 補充說:「我們的目標是為團隊提供解決幻覺問題的堅實基礎。雖然我們不期望幻覺指數被視為定論,但我們希望它能作為其生成式 AI 計畫的一個全面起點。」