Große Sprachmodelle (LLMs) und große multimodale Modelle (LMMs) finden zunehmend Anwendung im Gesundheitswesen, doch diese Technologien wurden in solch kritischen Bereichen bislang nicht ausreichend getestet. Wie sehr können wir diesen Modellen in risikobehafteten, realen Szenarien vertrauen? Aktuelle Forschungen der University of California, Santa Cruz, und der Carnegie Mellon University zeigen: „Nicht viel.“
In einem kürzlichen Experiment bewerteten Forscher die Zuverlässigkeit von LMMs in der medizinischen Diagnostik, indem sie sowohl allgemeine als auch spezifische Diagnosefragen untersuchten. Sie erstellten einen neuen Datensatz und analysierten die Leistung modernster Modelle anhand von Röntgenaufnahmen, MRTs und CT-Scans von menschlichen Bauchräumen, Gehirnen, Wirbelsäulen und Brüsten. Die Ergebnisse zeigten „alarmierende“ Rückgänge in der Genauigkeit. Sogar fortschrittliche Modelle wie GPT-4V und Gemini Pro schnitten bei der Identifikation medizinischer Zustände ähnlich wie zufällige, informierte Schätzungen ab. Die Einführung von adversarialen Paaren – leichten Veränderungen der Eingabedaten – führte zu einem weiteren Rückgang der Genauigkeit, mit einem durchschnittlichen Rückgang von 42 % bei den getesteten Modellen. „Können wir KI in kritischen Bereichen wie der medizinischen Bilddiagnose wirklich vertrauen? Nein, sie sind sogar schlechter als Zufall“, erklärte Xin Eric Wang, Professor an der UCSC und Mitautor der Studie.
Drastische Genauigkeitsrückgänge mit neuem ProbMed-Datensatz
Die medizinische visuelle Fragebeantwortung (Med-VQA) bewertet die Fähigkeit von Modellen zur Interpretation medizinischer Bilder. Während LMMs in Datensätzen wie VQA-RAD (quantitative visuelle Fragen und Antworten zur Radiologie) Fortschritte gezeigt haben, versagen sie unter tiefergehender Analyse, so die Forscher.
Um dies weiter zu untersuchen, entwickelten sie den Probing Evaluation for Medical Diagnosis (ProbMed) Datensatz, der 6.303 Bilder aus zwei bedeutenden biomedizinischen Datensätzen mit verschiedenen Scans umfasst. Die Forscher nutzten GPT-4, um Metadaten über bestehende Abnormalitäten zu extrahieren, und generierten 57.132 Frage-Antwort-Paare zu Organidentifikation, klinischen Befunden und Positionierung.
Die Studie umfasste sieben modernste Modelle, darunter GPT-4V und Gemini Pro, die einer rigorosen Evaluierung unterzogen wurden. Die Forscher kombinierten ursprüngliche binäre Diagnosefragen mit adversarialen Anfragen, um die Fähigkeit der Modelle zu testen, echte medizinische Zustände korrekt zu identifizieren und falsche zu ignorieren. Zudem mussten die Modelle prozedurale Diagnosen durchführen, was einen umfassenden Ansatz erforderte, der verschiedene Aspekte der Bilder miteinander verband.
Die Ergebnisse waren ernüchternd: Selbst die stärksten Modelle erlitten auf dem ProbMed-Datensatz einen Genauigkeitsrückgang von mindestens 10,52 %, mit einem durchschnittlichen Rückgang von 44,7 %. Beispielsweise sank die Genauigkeit von LLaVA-v1-7B dramatisch auf nur 16,5 % mit einem Rückgang von 78,89 %, während Gemini Pro und GPT-4V Rückgänge von über 25 % bzw. 10,5 % verzeichneten. „Unsere Studie zeigt eine signifikante Verwundbarkeit von LMMs, wenn sie mit adversarialen Fragen konfrontiert werden“, bemerkten die Forscher.
GPT und Gemini Pro zeigen Fehler in der Diagnose
Besonders auffällig ist, dass GPT-4V und Gemini Pro bei allgemeinen Aufgaben wie der Erkennung von Bildtypen (CT, MRT oder Röntgen) und Organen gut abschnitten, jedoch bei spezialisierten Diagnosefragen versagten. Ihre Genauigkeit ähnelte dem Zufallsraten und zeigte eine besorgniserregende Unzulänglichkeit bei der Unterstützung realer Diagnosen.
Bei der Untersuchung der Fehler von GPT-4V und Gemini Pro, insbesondere im Diagnosierungsprozess, identifizierten die Forscher eine Anfälligkeit für Halluzinationsfehler. Gemini Pro neigte dazu, falsche Bedingungen zu akzeptieren, während GPT-4V oft herausfordernde Anfragen ablehnte. Beispielsweise betrug die Genauigkeit von GPT-4V bei zustandsbezogenen Fragen nur 36,9 %, und Gemini Pro wies nur in 26 % der Fälle bei positionsbezogenen Anfragen korrekte Ergebnisse auf, wobei 76,68 % der Fehler auf Halluzinationen zurückzuführen waren.
Im Gegensatz dazu erwiesen sich spezialisierte Modelle wie CheXagent, die ausschließlich auf Brust-Röntgenaufnahmen trainiert waren, als am genauesten bei der Identifizierung von Zuständen, hatten jedoch Schwierigkeiten mit allgemeinen Aufgaben wie der Erkennung von Organen. Bemerkenswert ist, dass CheXagent Kompetenztransfer zeigte, indem es Zustände bei Brust-CT-Scans und MRTs präzise identifizierte, was auf Potenzial für die Anwendung über Modalitäten hinweg in realen Szenarien hinweist.
„Diese Studie unterstreicht die dringende Notwendigkeit robusterer Bewertungen, um die Zuverlässigkeit von LMMs in kritischen Bereichen wie der medizinischen Diagnostik zu gewährleisten“, betonten die Forscher. Ihre Ergebnisse heben eine signifikante Lücke zwischen den aktuellen Fähigkeiten der LMMs und den Anforderungen der realen medizinischen Anwendungen hervor.
Vorsichtiger Optimismus in der KI-Medizin
Experten aus der Medizin- und Forschungsgemeinschaft äußern Bedenken hinsichtlich der Einsatzbereitschaft von KI für die medizinische Diagnostik. „Es ist erfreulich zu sehen, dass fachspezifische Studien bestätigen, dass LLMs und KI nicht in sicherheitskritische Infrastrukturen eingesetzt werden sollten, was ein kürzlicher erschreckender Trend in den USA ist“, erklärte Dr. Heidy Khlaaf, Ingenieurdirektorin bei Trail of Bits. „Diese Systeme benötigen mindestens 99 % Genauigkeit, und LLMs sind schlechter als Zufall. Das ist buchstäblich lebensbedrohlich.“
Dieser sentiment wird von anderen geteilt, die die Notwendigkeit von Fachwissen betonen, das den aktuellen KI-Modellen fehlt. Bedenken hinsichtlich der Datenqualität bestehen weiterhin, da Unternehmen oft Kosten über Investitionen in Fachexperten priorisieren.
Zusammenfassend verdeutlichen die Ergebnisse der Forschung von UCSC und Carnegie Mellon den dringenden Bedarf an verbesserten Evaluierungsmethoden, um die Zuverlässigkeit und Effektivität von LLMs in der medizinischen Diagnostik sicherzustellen.