斯坦福研究揭示：人工智慧法律研究工具常常產生虛假資訊

Home AI新聞斯坦福研究揭示：人工智慧法律研究工具常常產生虛假資訊

法律研究中的人工智慧挑戰：法律AI工具中幻覺現象的研究

大型語言模型（LLM）越來越多地被用於需要大量資訊處理的任務，許多公司正在開發專門利用LLM和資訊檢索系統的法律研究工具。然而，斯坦福大學的最新研究顯示，儘管供應商聲稱這些工具已經改善，它們仍然顯示出相當高比例的“幻覺”——即事實上不準確的輸出。

研究概覽

這項具有開創性的研究是首個“預註冊的人工智慧法律研究工具實證評估”，比較了主要法律研究供應商的產品與OpenAI的GPT-4在200多個精心設計的法律問題上的表現。研究發現，雖然與通用聊天機器人相比幻覺現象有所減少，但法律AI工具仍在17-33%的案例中出現幻覺，顯示出令人擔憂的普遍性。

理解法律領域中的檢索增強生成

許多法律AI工具使用檢索增強生成（RAG）技術來減少幻覺。與標準LLM不同，RAG系統會從知識庫中檢索相關文件，並將其情境化以生成模型回應。儘管RAG在各個領域被認為是減少幻覺的金標準，但法律問題通常缺乏明確答案，這使得資訊檢索變得複雜。研究人員指出，確定要檢索的內容可能會成為問題，特別是在新穎或法律模糊的問題中。他們將幻覺定義為不准確或不適當的回應，包括事實上不正確或情境不相關的情況。此外，在法律領域中，文件的相關性不僅僅是文本相似性，因此檢索外觀相似但不相關的文件可能會影響系統的有效性。

評估法律研究的AI工具

研究人員設計了一系列反映現實研究情境的法律問題，測試三個主要的AI驅動法律研究工具：Lexis+ AI（LexisNexis提供）、Westlaw AI輔助研究和Thomson Reuters的Ask Practical Law AI。儘管這些專有工具利用了RAG，研究發現其表現仍然存在缺陷，仍然出現了相當多的幻覺現象。研究強調了這些系統在基本法律理解任務中所面臨的困難，引發了對法律AI工具封閉性質的擔憂，這限制了法律專業人士的透明度。

法律研究中AI的進展與限度

儘管存在限制，AI輔助法律研究相比傳統的關鍵詞搜尋方法仍顯示出價值，尤其是在作為起始點而非最終權威時。共同作者Daniel E. Ho指出，RAG在減少法律幻覺方面優於通用AI，但不當的文件檢索仍可能導致錯誤，強調法律檢索特別複雜。

透明度的重要性

Ho強調法律AI迫切需要透明度和基準測試。與通用AI研究不同，法律科技行業一直保持封閉的方法，提供的技術資訊或性能證據很少。這種缺乏透明度對依賴這些工具的律師造成風險。針對該研究，Westlaw產品管理負責人Mike Dahn強調公司的測試承諾以及法律問題的複雜性，暗示研究結果可能反映AI輔助研究中不常見的問題。另一方面，LexisNexis承認儘管沒有任何AI工具能保證完美，但其關注重點在於增強而非取代律師的判斷。LexisNexis首席產品官Jeff Pfeifer表示，研究人員使用的標準可能不足以充分反映幻覺率，並提到正在持續改進中。展望未來，LexisNexis與斯坦福大學正在討論確立AI應用於法律研究的基準和性能報告框架，以期改善更好地服務法律專業人士並減少幻覺現象的發生。

總之，儘管AI在法律研究中展現出潛力，但幻覺現象的挑戰和透明度的需求仍是行業需解決的關鍵問題。

人工智慧驅動的身份攻擊如何塑造不斷演變的網絡威脅格局

Snowflake 客戶違規事件：2024 年為何成為身份安全威脅的興起之年