斯坦福研究揭示:人工智慧法律研究工具常常產生虛假資訊

法律研究中的人工智慧挑戰:法律AI工具中幻覺現象的研究

大型語言模型(LLM)越來越多地被用於需要大量資訊處理的任務,許多公司正在開發專門利用LLM和資訊檢索系統的法律研究工具。然而,斯坦福大學的最新研究顯示,儘管供應商聲稱這些工具已經改善,它們仍然顯示出相當高比例的“幻覺”——即事實上不準確的輸出。

研究概覽

這項具有開創性的研究是首個“預註冊的人工智慧法律研究工具實證評估”,比較了主要法律研究供應商的產品與OpenAI的GPT-4在200多個精心設計的法律問題上的表現。研究發現,雖然與通用聊天機器人相比幻覺現象有所減少,但法律AI工具仍在17-33%的案例中出現幻覺,顯示出令人擔憂的普遍性。

理解法律領域中的檢索增強生成

許多法律AI工具使用檢索增強生成(RAG)技術來減少幻覺。與標準LLM不同,RAG系統會從知識庫中檢索相關文件,並將其情境化以生成模型回應。儘管RAG在各個領域被認為是減少幻覺的金標準,但法律問題通常缺乏明確答案,這使得資訊檢索變得複雜。研究人員指出,確定要檢索的內容可能會成為問題,特別是在新穎或法律模糊的問題中。他們將幻覺定義為不准確或不適當的回應,包括事實上不正確或情境不相關的情況。此外,在法律領域中,文件的相關性不僅僅是文本相似性,因此檢索外觀相似但不相關的文件可能會影響系統的有效性。

評估法律研究的AI工具

研究人員設計了一系列反映現實研究情境的法律問題,測試三個主要的AI驅動法律研究工具:Lexis+ AI(LexisNexis提供)、Westlaw AI輔助研究和Thomson Reuters的Ask Practical Law AI。儘管這些專有工具利用了RAG,研究發現其表現仍然存在缺陷,仍然出現了相當多的幻覺現象。研究強調了這些系統在基本法律理解任務中所面臨的困難,引發了對法律AI工具封閉性質的擔憂,這限制了法律專業人士的透明度。

法律研究中AI的進展與限度

儘管存在限制,AI輔助法律研究相比傳統的關鍵詞搜尋方法仍顯示出價值,尤其是在作為起始點而非最終權威時。共同作者Daniel E. Ho指出,RAG在減少法律幻覺方面優於通用AI,但不當的文件檢索仍可能導致錯誤,強調法律檢索特別複雜。

透明度的重要性

Ho強調法律AI迫切需要透明度和基準測試。與通用AI研究不同,法律科技行業一直保持封閉的方法,提供的技術資訊或性能證據很少。這種缺乏透明度對依賴這些工具的律師造成風險。針對該研究,Westlaw產品管理負責人Mike Dahn強調公司的測試承諾以及法律問題的複雜性,暗示研究結果可能反映AI輔助研究中不常見的問題。另一方面,LexisNexis承認儘管沒有任何AI工具能保證完美,但其關注重點在於增強而非取代律師的判斷。LexisNexis首席產品官Jeff Pfeifer表示,研究人員使用的標準可能不足以充分反映幻覺率,並提到正在持續改進中。展望未來,LexisNexis與斯坦福大學正在討論確立AI應用於法律研究的基準和性能報告框架,以期改善更好地服務法律專業人士並減少幻覺現象的發生。

總之,儘管AI在法律研究中展現出潛力,但幻覺現象的挑戰和透明度的需求仍是行業需解決的關鍵問題。

Most people like

Find AI tools in YBX