Die Herausforderungen von KI in der juristischen Forschung: Eine Studie zu Halluzinationen in juristischen KI-Tools
Große Sprachmodelle (LLMs) werden zunehmend für Aufgaben eingesetzt, die umfangreiche Informationsverarbeitung erfordern. Verschiedene Unternehmen entwickeln spezialisierte Tools, die LLMs und Informationsretrieval-Systeme für die juristische Forschung nutzen. Eine kürzlich veröffentlichte Studie von Forschern der Stanford Universität zeigt jedoch, dass diese Tools trotz der Behauptungen der Anbieter weiterhin eine beträchtliche Rate an „Halluzinationen“ aufweisen – Ausgaben, die faktisch inkorrekt sind.
Überblick über die Studie
Diese bahnbrechende Forschung ist die erste „vorregistrierte empirische Evaluierung von KI-gesteuerten Juraforschungs-Tools“, die Angebote führender Anbieter mit OpenAIs GPT-4 anhand von über 200 sorgfältig formulierten juristischen Anfragen vergleicht. Obwohl Halluzinationen im Vergleich zu allgemein verwendbaren Chatbots reduziert wurden, traten sie bei den juristischen KI-Tools in 17-33 % der Fälle auf, was auf ein besorgniserregendes Ausmaß hinweist.
Verständnis von Retrieval-Augmented Generation im juristischen Kontext
Viele juristische KI-Tools verwenden Techniken der retrieval-augmentierten Generierung (RAG), um Halluzinationen zu mindern. Im Gegensatz zu Standard-LLMs beschaffen RAG-Systeme relevante Dokumente aus einer Wissensdatenbank und kontextualisieren sie für die Modellantworten. Obwohl RAG als Goldstandard zur Reduzierung von Halluzinationen in verschiedenen Bereichen dient, weisen juristische Anfragen oft keine straightforward Antworten auf, was das Informationsabrufen erschwert. Die Forscher betonen, dass es problematisch sein kann, festzulegen, was abgerufen werden sollte, insbesondere bei neuen oder rechtlich mehrdeutigen Anfragen. Sie definieren Halluzinationen als inkorrekte oder unpassende Antworten – sei es faktisch falsch oder kontextuell irrelevant. Darüber hinaus geht die Relevanz von Dokumenten im Recht über bloße Textähnlichkeit hinaus, sodass das Abrufen ähnlicher, aber irrelevanter Dokumente die Effektivität des Systems beeinträchtigen könnte.
Bewertung von KI-Tools für die juristische Forschung
Die Forscher entwarfen eine Vielzahl juristischer Anfragen, die reale Forschungsszenarien widerspiegeln, und testeten drei prominente KI-gestützte juristische Recherche-Tools: Lexis+ AI von LexisNexis, Westlaw KI-unterstützte Recherche und Ask Practical Law AI von Thomson Reuters. Obwohl diese proprietären Tools RAG verwenden, zeigte die Studie, dass ihre Leistung nicht fehlerfrei war, da sie weiterhin eine erhebliche Anzahl von Halluzinationen aufwiesen. Die Studie hob die Schwierigkeiten hervor, die diese Systeme bei grundlegenden Aufgaben des juristischen Verständnisses haben, und äußerte Bedenken hinsichtlich der geschlossenen Natur juristischer KI-Tools, die die Transparenz für juristische Fachleute einschränkt.
Fortschritte und Einschränkungen der KI in der juristischen Forschung
Trotz ihrer Einschränkungen bietet die KI-gestützte juristische Forschung im Vergleich zu traditionellen Keyword-Suchmethoden Vorteile, insbesondere wenn sie als Ausgangspunkt und nicht als endgültige Autorität verwendet wird. Laut Co-Autor Daniel E. Ho reduziert RAG juristische Halluzinationen im Vergleich zu allgemeiner KI, jedoch können Fehler durch unangemessenes Dokumentenabrufen entstehen, was darauf hinweist, dass die juristische Informationsbeschaffung besonders komplex bleibt.
Die Bedeutung von Transparenz
Ho betonte den dringenden Bedarf an Transparenz und Benchmarking in der juristischen KI. Im Gegensatz zur allgemeinen KI-Forschung hat der Bereich der juristischen Technologie einen geschlossenen Ansatz beibehalten, der wenig technische Informationen oder Leistungsnachweise bietet. Diese mangelnde Transparenz birgt Risiken für Anwälte, die auf diese Tools angewiesen sind. In Reaktion auf die Studie betonte Mike Dahn, Leiter des Westlaw Produktmanagements, das Engagement des Unternehmens für umfassende Tests und die Komplexität juristischer Fragen, was darauf hindeutet, dass die Ergebnisse der Forschung Fragen widerspiegeln könnten, die in der KI-gestützten Forschung nur selten auftreten.
Im Gegensatz dazu erkannte LexisNexis an, dass kein KI-Tool Perfektion garantieren kann, wobei der Fokus darauf liegt, das Urteil der Anwälte zu verbessern und nicht zu ersetzen. Jeff Pfeifer, Chief Product Officer bei LexisNexis, wies darauf hin, dass die von den Forschern verwendeten Kriterien möglicherweise die Halluzinationsraten nicht ausreichend widerspiegeln und verwies auf laufende Verbesserungen.
Blick in die Zukunft: LexisNexis und die Stanford Universität befinden sich in Gesprächen zur Schaffung von Benchmarks und Leistungsberichterstattungsrahmen für den Einsatz von KI in der juristischen Forschung, mit dem Ziel, Verbesserungen zu erzielen, die juristischen Fachleuten besser dienen und die Häufigkeit von Halluzinationen reduzieren.
Zusammenfassend lässt sich sagen, dass die KI in der juristischen Forschung vielversprechend ist, aber die Herausforderungen von Halluzinationen und der Bedarf an Transparenz weiterhin zentrale Fragen darstellt, die die Branche angehen muss.