Schockierend einfache Studie zeigt: Die Diagnoseleistung von KI in der medizinischen Bildgebung ist 'schlechter als Zufall'

Home KI-Nachrichten Schockierend einfache Studie zeigt: Die Diagnoseleistung von KI in der medizinischen Bildgebung ist 'schlechter als Zufall'

Große Sprachmodelle (LLMs) und große multimodale Modelle (LMMs) finden zunehmend Anwendung im Gesundheitswesen, doch diese Technologien wurden in solch kritischen Bereichen bislang nicht ausreichend getestet. Wie sehr können wir diesen Modellen in risikobehafteten, realen Szenarien vertrauen? Aktuelle Forschungen der University of California, Santa Cruz, und der Carnegie Mellon University zeigen: „Nicht viel.“

In einem kürzlichen Experiment bewerteten Forscher die Zuverlässigkeit von LMMs in der medizinischen Diagnostik, indem sie sowohl allgemeine als auch spezifische Diagnosefragen untersuchten. Sie erstellten einen neuen Datensatz und analysierten die Leistung modernster Modelle anhand von Röntgenaufnahmen, MRTs und CT-Scans von menschlichen Bauchräumen, Gehirnen, Wirbelsäulen und Brüsten. Die Ergebnisse zeigten „alarmierende“ Rückgänge in der Genauigkeit. Sogar fortschrittliche Modelle wie GPT-4V und Gemini Pro schnitten bei der Identifikation medizinischer Zustände ähnlich wie zufällige, informierte Schätzungen ab. Die Einführung von adversarialen Paaren – leichten Veränderungen der Eingabedaten – führte zu einem weiteren Rückgang der Genauigkeit, mit einem durchschnittlichen Rückgang von 42 % bei den getesteten Modellen. „Können wir KI in kritischen Bereichen wie der medizinischen Bilddiagnose wirklich vertrauen? Nein, sie sind sogar schlechter als Zufall“, erklärte Xin Eric Wang, Professor an der UCSC und Mitautor der Studie.

Drastische Genauigkeitsrückgänge mit neuem ProbMed-Datensatz

Die medizinische visuelle Fragebeantwortung (Med-VQA) bewertet die Fähigkeit von Modellen zur Interpretation medizinischer Bilder. Während LMMs in Datensätzen wie VQA-RAD (quantitative visuelle Fragen und Antworten zur Radiologie) Fortschritte gezeigt haben, versagen sie unter tiefergehender Analyse, so die Forscher.

Um dies weiter zu untersuchen, entwickelten sie den Probing Evaluation for Medical Diagnosis (ProbMed) Datensatz, der 6.303 Bilder aus zwei bedeutenden biomedizinischen Datensätzen mit verschiedenen Scans umfasst. Die Forscher nutzten GPT-4, um Metadaten über bestehende Abnormalitäten zu extrahieren, und generierten 57.132 Frage-Antwort-Paare zu Organidentifikation, klinischen Befunden und Positionierung.

Die Studie umfasste sieben modernste Modelle, darunter GPT-4V und Gemini Pro, die einer rigorosen Evaluierung unterzogen wurden. Die Forscher kombinierten ursprüngliche binäre Diagnosefragen mit adversarialen Anfragen, um die Fähigkeit der Modelle zu testen, echte medizinische Zustände korrekt zu identifizieren und falsche zu ignorieren. Zudem mussten die Modelle prozedurale Diagnosen durchführen, was einen umfassenden Ansatz erforderte, der verschiedene Aspekte der Bilder miteinander verband.

Die Ergebnisse waren ernüchternd: Selbst die stärksten Modelle erlitten auf dem ProbMed-Datensatz einen Genauigkeitsrückgang von mindestens 10,52 %, mit einem durchschnittlichen Rückgang von 44,7 %. Beispielsweise sank die Genauigkeit von LLaVA-v1-7B dramatisch auf nur 16,5 % mit einem Rückgang von 78,89 %, während Gemini Pro und GPT-4V Rückgänge von über 25 % bzw. 10,5 % verzeichneten. „Unsere Studie zeigt eine signifikante Verwundbarkeit von LMMs, wenn sie mit adversarialen Fragen konfrontiert werden“, bemerkten die Forscher.

GPT und Gemini Pro zeigen Fehler in der Diagnose

Besonders auffällig ist, dass GPT-4V und Gemini Pro bei allgemeinen Aufgaben wie der Erkennung von Bildtypen (CT, MRT oder Röntgen) und Organen gut abschnitten, jedoch bei spezialisierten Diagnosefragen versagten. Ihre Genauigkeit ähnelte dem Zufallsraten und zeigte eine besorgniserregende Unzulänglichkeit bei der Unterstützung realer Diagnosen.

Bei der Untersuchung der Fehler von GPT-4V und Gemini Pro, insbesondere im Diagnosierungsprozess, identifizierten die Forscher eine Anfälligkeit für Halluzinationsfehler. Gemini Pro neigte dazu, falsche Bedingungen zu akzeptieren, während GPT-4V oft herausfordernde Anfragen ablehnte. Beispielsweise betrug die Genauigkeit von GPT-4V bei zustandsbezogenen Fragen nur 36,9 %, und Gemini Pro wies nur in 26 % der Fälle bei positionsbezogenen Anfragen korrekte Ergebnisse auf, wobei 76,68 % der Fehler auf Halluzinationen zurückzuführen waren.

Im Gegensatz dazu erwiesen sich spezialisierte Modelle wie CheXagent, die ausschließlich auf Brust-Röntgenaufnahmen trainiert waren, als am genauesten bei der Identifizierung von Zuständen, hatten jedoch Schwierigkeiten mit allgemeinen Aufgaben wie der Erkennung von Organen. Bemerkenswert ist, dass CheXagent Kompetenztransfer zeigte, indem es Zustände bei Brust-CT-Scans und MRTs präzise identifizierte, was auf Potenzial für die Anwendung über Modalitäten hinweg in realen Szenarien hinweist.

„Diese Studie unterstreicht die dringende Notwendigkeit robusterer Bewertungen, um die Zuverlässigkeit von LMMs in kritischen Bereichen wie der medizinischen Diagnostik zu gewährleisten“, betonten die Forscher. Ihre Ergebnisse heben eine signifikante Lücke zwischen den aktuellen Fähigkeiten der LMMs und den Anforderungen der realen medizinischen Anwendungen hervor.

Vorsichtiger Optimismus in der KI-Medizin

Experten aus der Medizin- und Forschungsgemeinschaft äußern Bedenken hinsichtlich der Einsatzbereitschaft von KI für die medizinische Diagnostik. „Es ist erfreulich zu sehen, dass fachspezifische Studien bestätigen, dass LLMs und KI nicht in sicherheitskritische Infrastrukturen eingesetzt werden sollten, was ein kürzlicher erschreckender Trend in den USA ist“, erklärte Dr. Heidy Khlaaf, Ingenieurdirektorin bei Trail of Bits. „Diese Systeme benötigen mindestens 99 % Genauigkeit, und LLMs sind schlechter als Zufall. Das ist buchstäblich lebensbedrohlich.“

Dieser sentiment wird von anderen geteilt, die die Notwendigkeit von Fachwissen betonen, das den aktuellen KI-Modellen fehlt. Bedenken hinsichtlich der Datenqualität bestehen weiterhin, da Unternehmen oft Kosten über Investitionen in Fachexperten priorisieren.

Zusammenfassend verdeutlichen die Ergebnisse der Forschung von UCSC und Carnegie Mellon den dringenden Bedarf an verbesserten Evaluierungsmethoden, um die Zuverlässigkeit und Effektivität von LLMs in der medizinischen Diagnostik sicherzustellen.

Appian-CEO Matt Calkins fordert die KI-Branche auf, Vertrauen zu priorisieren und eine neue Ära verantwortungsvoller Entwicklung einzuleiten.

Kaliforniens vorgeschlagenes Gesetz zur Regulierung leistungsstarker KI-Modelle könnte die aufstrebende Branche des Bundesstaates bremsen.

Most people like

Orai

41.5K

Präsentation einer innovativen KI-gestützten Anwendung, die darauf abzielt, Ihre Präsentationsfähigkeiten zu verbessern. Dieses fortschrittliche Werkzeug bietet personalisiertes Feedback und Echtzeitanalysen, sodass Nutzer ihre Präsentationen effektiv üben und verfeinern können. Egal, ob Sie sich auf ein Vorstellungsgespräch, eine akademische Präsentation oder eine öffentliche Rede vorbereiten, diese App bietet die ideale Plattform, um Ihr Selbstvertrauen zu stärken und Ihre Darbietung zu optimieren. Verwandeln Sie Ihre Fähigkeiten im öffentlichen Sprechen heute mit unserer modernen KI-Technologie, die auf Übung und Exzellenz ausgerichtet ist.

Präsentationsübung AI Advertising Assistant

MyArchitectAI

28.4K

Entdecken Sie hochmoderne KI-Render-Software, die beeindruckende, fotorealistische architektonische Visualisierungen in Sekundenschnelle liefert. Erleben Sie die transformative Kraft der künstlichen Intelligenz, um Ihre architektonischen Präsentationen zu optimieren und Ihren Designprozess zu straffen. Egal, ob Sie Architekt, Designer oder Entwickler sind, unsere fortschrittlichen Werkzeuge helfen Ihnen, immersive Umgebungen zu schaffen, die sowohl Kunden als auch Interessengruppen fesseln. Entfalten Sie noch heute die Zukunft des architektonischen Renderings!

KI-Rendering-Software Design Assistant

Wanderboat AI Travel Planner

354K

Entdecken Sie eine neue Möglichkeit, die Welt mit unserem KI-Reiseplaner zu erkunden, der personalisierte Erlebnisse basierend auf Ihren einzigartigen Vorlieben schafft. Egal, ob Sie Abenteuer, Erholung oder kulturelle Entdeckung suchen, unsere hochmoderne Technologie analysiert Ihre Interessen, um die perfekte Reiseroute nur für Sie zu erstellen. Verwandeln Sie Ihre Reiseträume in Realität und starten Sie unvergessliche Reisen, die mit Ihrem individuellen Stil im Einklang stehen.

KI-Reiseplaner AI Trip Planner

Zebracat

283.1K

In der heutigen digitalen Landschaft erfordert effektives Marketing fesselnde visuelle Inhalte, die beim Publikum ankommen. Mit KI-gestützter Videoproduktion wird der Prozess der Erstellung hochwertiger Inhalte optimiert, sodass Marken die Zuschauer effektiver ansprechen können. Durch den Einsatz fortschrittlicher Algorithmen und maschinellen Lernens sind Unternehmen in der Lage, maßgeschneiderte Videos zu erstellen, die nicht nur Aufmerksamkeit erregen, sondern auch Konversionen fördern. Entdecken Sie, wie KI-Technologie das Videomarketing in ein dynamisches Werkzeug für Markenwachstum und Audience-Connection verwandelt.

KI Videoproduzent AI Video Generator

Find AI tools in YBX