Les grands modèles de langage (LLMs) et les grands modèles multimodaux (LMMs) s'introduisent dans les milieux médicaux, mais ces technologies n'ont pas encore été suffisamment testées dans des domaines aussi critiques. Dans quelle mesure pouvons-nous faire confiance à ces modèles dans des scénarios réels à enjeux élevés ? Des recherches récentes de l'Université de Californie à Santa Cruz et de l'Université Carnegie Mellon indiquent que la réponse est "peu de choses".
Dans une expérience récente, des chercheurs ont évalué la fiabilité des LMMs en matière de diagnostic médical en explorant des questions diagnostiques générales et spécifiques. Ils ont constitué un nouvel ensemble de données et examiné la performance des modèles de pointe sur des radiographies, IRM et scans CT d'abdomens, de cerveaux, de colonnes vertébrales et de thorax. Les résultats ont révélé des baisses d'exactitude "alarmantes".
Même des modèles avancés comme GPT-4V et Gemini Pro se sont comportés comme des suppositions aléatoires éclairées lorsqu'il s'agissait d'identifier des conditions médicales. L'introduction de paires adversariales — de légères modifications de l'entrée — a encore diminué l'exactitude, avec une baisse moyenne de 42 % parmi les modèles testés. "Pouvons-nous vraiment faire confiance à l'IA dans des domaines critiques comme le diagnostic d'images médicales ? Non, elles sont même pires que le hasard," a déclaré Xin Eric Wang, professeur à UCSC et coauteur de l'étude.
Baisse d'Exactitude Drastique avec le Nouvel Ensemble de Données ProbMed
L'outil de Réponse à des Questions Visuelles Médicales (Med-VQA) évalue la capacité des modèles à interpréter des images médicales. Bien que les LMMs aient montré certains progrès sur des ensembles tels que VQA-RAD (questions et réponses visuelles quantitatives sur la radiologie), ils échouent lors d'une analyse plus approfondie, selon les chercheurs.
Pour approfondir, ils ont développé l'ensemble de données d'Évaluation des Diagnostics Médicaux (ProbMed), comprenant 6 303 images issues de deux ensembles de données biomédicales majeurs. Les chercheurs ont utilisé GPT-4 pour extraire des métadonnées sur des anomalies existantes, générant 57 132 paires question-réponse couvrant l'identification des organes, les résultats cliniques, et le raisonnement sur les positions.
L'étude a impliqué sept modèles de pointe, dont GPT-4V et Gemini Pro, soumis à une évaluation rigoureuse. Les chercheurs ont associé des questions diagnostiques binaires originales à des requêtes adversariales pour tester la capacité des modèles à identifier correctement de réelles conditions médicales tout en écartant les fausses. Ils ont également exigé des modèles qu'ils effectuent des diagnostics procéduraux, nécessitant une approche complète reliant divers aspects des images.
Les résultats étaient préoccupants : même les modèles les plus performants ont enregistré des baisses d'exactitude d'au moins 10,52 % sur l'ensemble de données ProbMed, avec une diminution moyenne de 44,7 %. Par exemple, LLaVA-v1-7B a connu une chute spectaculaire de 78,89 %, atteignant seulement 16,5 % de précision, tandis que Gemini Pro et GPT-4V ont connu des baisses dépassant 25 % et 10,5 %, respectivement. "Notre étude révèle une vulnérabilité significative des LMMs face à des questions adversariales," ont déclaré les chercheurs.
Erreurs de Diagnostic chez GPT et Gemini Pro
Notamment, bien que GPT-4V et Gemini Pro excellent dans des tâches générales comme la reconnaissance des types d'images (CT, IRM ou radiographie) et d'organes, ils peinent avec des questions diagnostiques plus spécialisées. Leur précision ressemblait à celle d'une conjecture aléatoire, montrant une insuffisance préoccupante dans l'assistance aux diagnostics réels.
En étudiant les erreurs de GPT-4V et Gemini Pro, notamment lors du processus diagnostique, les chercheurs ont noté une vulnérabilité aux erreurs dites de hallucination. Gemini Pro était enclin à accepter des conditions incorrectes, tandis que GPT-4V rejetait souvent les questions difficiles. Par exemple, GPT-4V n'atteignait qu'une précision de 36,9 % pour des questions liées aux conditions, et Gemini Pro n'était précis que 26 % du temps pour les requêtes liées aux positions, avec 76,68 % des erreurs résultant de hallucinations.
En revanche, des modèles spécialisés comme CheXagent, formé exclusivement sur des radiographies thoraciques, se sont révélés les plus précis dans l'identification des conditions, mais ont échoué sur des tâches générales comme la reconnaissance des organes. Significativement, CheXagent a démontré un transfert d'expertise en identifiant avec précision des conditions dans des scans CT et IRM thoraciques, indiquant un potentiel d'application intermodale dans des scénarios réels.
"Cette étude souligne l'urgence d'évaluations plus robustes pour garantir la fiabilité des LMMs dans des domaines critiques comme le diagnostic médical," ont souligné les chercheurs. Leurs résultats mettent en lumière un écart significatif entre les capacités actuelles des LMMs et les exigences des applications médicales réelles.
Optimisme Prudent dans les Applications Médicales de l'IA
Les experts des communautés médicales et de recherche expriment des préoccupations quant à la préparation de l'IA pour le diagnostic médical. "Je suis heureuse de voir des études spécifiques au domaine corroborer que les LLMs et l'IA ne devraient pas être déployés dans des infrastructures critiques en matière de sécurité, une tendance choquante récente aux États-Unis," a déclaré Dr. Heidy Khlaaf, directrice d'ingénierie chez Trail of Bits. "Ces systèmes nécessitent au moins 99 % de précision, et les LLMs sont pire que le hasard. Cela est littéralement menaçant pour la vie."
Ce sentiment est partagé par d'autres qui soulignent la nécessité d'expertise dans le domaine que les modèles d'IA actuels n'ont pas. Les inquiétudes concernant la qualité des données persistent, avec des observations selon lesquelles les entreprises privilégient souvent le coût par rapport à l'investissement en experts du domaine.
En conclusion, les résultats des recherches de UCSC et Carnegie Mellon soulignent le besoin pressant de meilleures méthodologies d'évaluation pour garantir la fiabilité et l'efficacité des LLMs dans le diagnostic médical.