Проблемы ИИ в юридических исследованиях: исследование галлюцинаций в юридических инструментах ИИ
Большие языковые модели (LLM) все чаще используются для задач, требующих обширной обработки информации. Многие компании разрабатывают специализированные инструменты, которые используют LLM и системы поиска информации для юридических исследований. Однако недавнее исследование, проведенное учеными Стэнфордского университета, показывает, что, несмотря на утверждения поставщиков, эти инструменты по-прежнему демонстрируют значительный уровень "галлюцинаций" — фактически неверных результатов.
Обзор исследования
Это groundbreaking исследование стало первой "предварительно зарегистрированной эмпирической оценкой инструментов ИИ для юридических исследований", сравнивающей предложения основных поставщиков юридических исследований с GPT-4 от OpenAI по более чем 200 заранее подготовленным юридическим запросам. Хотя было установлено, что галлюцинации уменьшаются по сравнению с универсальными чат-ботами, юридические инструменты ИИ все равно допустили галлюцинации в 17-33% случаев, что указывает на тревожную распространенность.
Понимание генерации с помощью поиска в юридических контекстах
Многие юридические инструменты ИИ используют технологии генерации с помощью поиска (RAG) для уменьшения галлюцинаций. В отличие от стандартных LLM, системы RAG извлекают соответствующие документы из базы знаний и контекстуализируют их для ответов модели. Хотя RAG является эталоном для снижения галлюцинаций в различных областях, юридические запросы часто не имеют однозначных ответов, что усложняет процесс извлечения информации.
Исследователи отмечают, что проблема определения, что именно нужно извлекать, возникает особенно для новых или юридически двусмысленных запросов. Они определяют галлюцинации как некорректные или неправильно обоснованные ответы — независимо от того, являются ли они фактически неверными или контекстуально неуместными. Кроме того, релевантность документов в юриспруденции выходит за пределы простой текстовой схожести, что означает, что извлечение документов, которые выглядят похожими, но неуместными, может снизить эффективность системы.
Оценка инструментов ИИ для юридических исследований
Исследователи разработали разнообразные юридические запросы, отражающие реальные сценарии исследований, протестировав три ведущих инструмента ИИ для юридических исследований: Lexis+ AI от LexisNexis, Westlaw AI-Assisted Research и Ask Practical Law AI от Thomson Reuters. Несмотря на то что эти проприетарные инструменты используют RAG, исследование показало, что их производительность не без недостатков, поскольку они все равно демонстрировали значительное количество галлюцинаций.
Исследование выявило трудности, с которыми сталкиваются эти системы в базовых задачах правового понимания, что вызывает опасения по поводу закрытого характера инструментов ИИ для юриспруденции, ограничивающего прозрачность для специалистов в области права.
Достижения и ограничения ИИ в юридических исследованиях
Несмотря на ограничения, ИИ-поддерживаемые юридические исследования представляют ценность по сравнению с традиционными методами поиска по ключевым словам, особенно когда используются как отправная точка, а не окончательный авторитет. По словам соавтора Дэниела Е. Хо, RAG снижает юридические галлюцинации по сравнению с общим ИИ, однако ошибки могут возникать из-за неподходящего извлечения документов, что подчеркивает сложность правового извлечения.
Важность прозрачности
Хо подчеркнул неотложную необходимость в прозрачности и бенчмаркинге в юридическом ИИ. В отличие от исследований общего ИИ, сектор юридических технологий придерживается закрытого подхода, предоставляя мало технической информации или доказательств производительности. Эта нехватка прозрачности создает риски для адвокатов, полагающихся на эти инструменты.
В ответ на исследование, Майк Дахн, директор по продуктам Westlaw, подчеркнул обязательство компании к тщательному тестированию и сложности юридических вопросов, предположив, что результаты исследования могут отражать вопросы, с которыми редко сталкиваются в ИИ-поддерживаемых исследованиях. Напротив, LexisNexis признала, что ни один инструмент ИИ не может гарантировать совершенства, и сосредоточила внимание на улучшении, а не замене адвокатского суждения. Джефф Пайфер, главный продуктовый директор LexisNexis, указал, что критерии, использованные исследователями, могут не адекватно отражать уровни галлюцинаций и сослался на их постоянные улучшения.
Смотрев вперед, LexisNexis и Стэнфордский университет ведут обсуждения о создании эталонов и отчетных структур производительности в применении ИИ к юридическим исследованиям, стремясь к улучшениям, которые лучше удовлетворяют потребности юридических специалистов и снижают количество галлюцинаций.
В заключение, хотя ИИ в юридических исследованиях демонстрирует потенциал, проблемы с галлюцинациями и необходимость прозрачности остаются критическими вопросами, которые отрасли необходимо решить.