斯坦福研究揭示:人工智能法律研究工具常产生虚假信息

法律研究中人工智能的挑战:法律人工智能工具的“幻觉”研究

随着大型语言模型(LLM)在信息处理领域的广泛应用,越来越多的公司开发了专门的工具,将LLM和信息检索系统结合用于法律研究。然而,斯坦福大学的最新研究表明,尽管厂商声称其工具可靠,但这些工具仍然存在较高的“幻觉”率,即生成的不准确输出。

研究概述

这项开创性研究是对“人工智能驱动的法律研究工具”的首次“预注册实证评估”,比较了主要法律研究供应商与OpenAI的GPT-4在超过200个精心设计的法律查询中的表现。尽管与通用聊天机器人相比,法律人工智能工具的幻觉现象有所减少,但仍在17%至33%的案例中出现,表明问题的严重性。

理解法律背景下的检索增强生成

许多法律人工智能工具采用了检索增强生成(RAG)技术来降低幻觉的发生。与标准的LLM不同,RAG系统从知识库中检索相关文档,并为模型响应提供上下文。然而,由于法律问题往往没有明确答案,信息检索变得更加复杂。研究人员指出,确定检索何种文档可能存在困难,特别是在新的或法律模糊的查询中。他们将幻觉定义为不准确或缺乏依据的反应,可能是事实错误或上下文无关。

此外,在法律领域,文档的相关性不仅限于文本相似性,检索到表面相似但无关的文档可能会削弱系统的有效性。

法律研究中人工智能工具的评估

研究人员设计了一系列多样化的法律查询,反映现实中的研究场景,并对三款知名的人工智能法律研究工具进行了测试:LexisNexis的Lexis+ AI、西法律的AI辅助研究,以及汤森路透的Ask Practical Law AI。尽管这些专有工具均使用RAG,但研究发现其性能并不尽如人意,仍存在大量幻觉现象。

该研究突显了这些系统在基本法律理解任务中的困难,引发了关于法律人工智能工具透明性不足的担忧。

人工智能在法律研究中的进展与局限

尽管存在局限,人工智能辅助的法律研究相较于传统关键词检索仍具价值,特别是作为起点而非最终权威。研究的共同作者丹尼尔·霍表示,RAG相比于通用人工智能确实能减少法律幻觉,但因不当的文档检索,错误依然可能发生,显示法律检索的复杂性。

透明度的重要性

霍强调了法律人工智能领域迫切需要透明度与基准测试。与通用人工智能研究不同,法律技术行业一直保持封闭,提供的技术信息和性能证据很少。这种缺乏透明度的状况对依赖这些工具的律师构成了风险。

作为对此研究的回应,西法律产品管理负责人迈克·达恩强调了公司对全面测试的承诺以及法律问题的复杂性,认为研究结果可能反映出在AI辅助研究中较少遇到的问题。与此同时,LexisNexis承认尽管没有任何人工智能工具能够保证完美,但其目标在于增强律师判断而非替代。LexisNexis首席产品官杰夫·费费尔指出,研究人员使用的标准可能不足以准确反映幻觉发生率,并着眼于持续改进。

展望未来,LexisNexis与斯坦福大学正在讨论建立法律研究中人工智能应用的基准和性能报告框架,旨在为法律专业人士提供更好的服务,减少幻觉现象的发生。

总结

虽然人工智能在法律研究中展现出潜力,幻觉现象的挑战及透明度的需求仍然是行业亟需解决的关键问题。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles