Os Desafios da IA na Pesquisa Jurídica: Um Estudo sobre Alucinações em Ferramentas de IA Jurídica
Modelos de linguagem de grande porte (LLMs) estão sendo cada vez mais utilizados em tarefas que requerem processamento extensivo de informações, com várias empresas desenvolvendo ferramentas especializadas que aproveitam LLMs e sistemas de recuperação de informações para pesquisa jurídica. No entanto, um estudo recente de pesquisadores da Universidade de Stanford revela que, apesar das alegações dos fornecedores, essas ferramentas ainda apresentam uma taxa considerável de "alucinações"—resultados que são factualmente incorretos.
Visão Geral do Estudo
Esta pesquisa inovadora é a primeira "avaliação empírica pré-registrada de ferramentas de pesquisa jurídica impulsionadas por IA", comparando as ofertas de grandes provedores de pesquisa jurídica com o GPT-4 da OpenAI em mais de 200 consultas jurídicas cuidadosamente elaboradas. Embora as alucinações tenham sido reduzidas em comparação com chatbots de uso geral, as ferramentas de IA jurídica ainda alucinaram em 17-33% dos casos, indicando uma prevalência preocupante.
Compreendendo a Geração Aumentada por Recuperação em Contextos Jurídicos
Muitas ferramentas de IA jurídica utilizam técnicas de geração aumentada por recuperação (RAG) para mitigar alucinações. Diferentemente dos LLMs padrão, os sistemas RAG recuperam documentos relevantes de uma base de conhecimento e os contextualizam para as respostas do modelo. Embora o RAG atue como um padrão de excelência para reduzir alucinações em vários domínios, as consultas jurídicas frequentemente não têm respostas simples, complicando a recuperação de informações. Os pesquisadores destacam que determinar o que recuperar pode ser problemático, especialmente para consultas novas ou juridicamente ambíguas, definindo alucinações como respostas incorretas ou mal fundamentadas—seja por serem factualmente imprecisas ou irrelevantes no contexto. Além disso, a relevância de documentos na lei vai além da mera similaridade textual, o que significa que a recuperação de documentos que parecem similares, mas são irrelevantes, pode comprometer a eficácia do sistema.
Avaliação de Ferramentas de IA para Pesquisa Jurídica
Os pesquisadores elaboraram uma ampla variedade de consultas jurídicas que refletem cenários de pesquisa do mundo real, testando três ferramentas proeminentes de pesquisa jurídica assistidas por IA: Lexis+ AI da LexisNexis, Westlaw AI-Assisted Research e Ask Practical Law AI da Thomson Reuters. Embora essas ferramentas proprietárias utilizem RAG, o estudo descobriu que seu desempenho não era isento de falhas, já que ainda apresentavam um número significativo de alucinações. A pesquisa destacou as dificuldades enfrentadas por esses sistemas em tarefas fundamentais de compreensão legal, levantando preocupações sobre a natureza fechada das ferramentas de IA jurídica que limita a transparência para profissionais do direito.
Avanços e Limitações da IA na Pesquisa Jurídica
Apesar de suas limitações, a pesquisa jurídica assistida por IA apresenta valor em comparação com métodos tradicionais de busca por palavras-chave, especialmente quando usada como ponto de partida em vez da autoridade final. Segundo o coautor Daniel E. Ho, o RAG reduz as alucinações legais em comparação à IA geral, mas erros ainda podem surgir da recuperação inadequada de documentos, enfatizando que a recuperação jurídica permanece especialmente complexa.
A Importância da Transparência
Ho destacou a necessidade urgente de transparência e benchmarking na IA jurídica. Diferentemente da pesquisa em IA geral, o setor de tecnologia jurídica manteve uma abordagem fechada, oferecendo pouca informação técnica ou evidência de desempenho. Essa falta de transparência representa riscos para advogados que dependem dessas ferramentas. Em resposta ao estudo, Mike Dahn, chefe de Gestão de Produtos da Westlaw, enfatizou o compromisso da empresa com testes rigorosos e a complexidade das questões jurídicas, sugerindo que as descobertas da pesquisa podem refletir perguntas raramente encontradas na pesquisa assistida por IA. Por outro lado, a LexisNexis reconheceu que, embora nenhuma ferramenta de IA possa garantir perfeição, seu foco está em aprimorar, em vez de substituir, o julgamento do advogado. Jeff Pfeifer, Chief Product Officer da LexisNexis, indicou que os critérios utilizados pelos pesquisadores podem não refletir adequadamente as taxas de alucinação e apontou para suas melhorias contínuas.
Olhando para o futuro, a LexisNexis e a Universidade de Stanford estão em discussões para estabelecer benchmarks e estruturas de relatório de desempenho na aplicação da IA à pesquisa jurídica, visando aprimoramentos que melhor atendam os profissionais do direito e reduzam a incidência de alucinações.
Em conclusão, embora a IA na pesquisa jurídica mostre promessas, os desafios das alucinações e a necessidade de transparência continuam a ser questões críticas que a indústria precisa abordar.