Sondeo Sorprendentemente Simple Revela que el Rendimiento del Diagnóstico por Imágenes Médicas de la IA es 'Peor que Aleatorio'

Home Noticias de IA Sondeo Sorprendentemente Simple Revela que el Rendimiento del Diagnóstico por Imágenes Médicas de la IA es 'Peor que Aleatorio'

Los modelos de lenguaje grandes (LLMs) y los modelos multimodales grandes (LMMs) están comenzando a integrarse en el ámbito médico, pero estas tecnologías aún no han sido probadas adecuadamente en áreas tan críticas. ¿Cuánto podemos confiar en estos modelos en escenarios del mundo real de alto riesgo? La investigación actual de la Universidad de California, Santa Cruz, y de la Universidad Carnegie Mellon sugiere: "No mucho".

En un experimento reciente, los investigadores evaluaron la fiabilidad de los LMMs en la diagnosis médica al explorar tanto preguntas diagnósticas generales como específicas. Crearon un nuevo conjunto de datos y examinaron el rendimiento de modelos de última generación en radiografías, resonancias magnéticas y tomografías computarizadas de abdomen, cerebro, columna y tórax humano. Los hallazgos revelaron descensos "alarmantes" en la precisión.

Incluso modelos avanzados como GPT-4V y Gemini Pro mostraron un rendimiento similar al de conjeturas educadas aleatorias al identificar condiciones médicas. La introducción de pares adversariales—alteraciones ligeras en la entrada—redujo aún más la precisión, con una disminución promedio del 42% en todos los modelos evaluados. "¿Realmente podemos confiar en la IA en áreas críticas como el diagnóstico de imágenes médicas? No, son incluso peores que las conjeturas aleatorias," afirmó Xin Eric Wang, profesor en UCSC y coautor del estudio.

Caídas Drásticas en la Precisión con el Nuevo Conjunto de Datos ProbMed

La Evaluación de Preguntas Médicas Visuales (Med-VQA) determina la capacidad de los modelos para interpretar imágenes médicas. Aunque los LMMs han demostrado cierto progreso en conjuntos de datos como VQA-RAD (preguntas y respuestas visuales cuantitativas sobre radiología), no rinden bien ante análisis más profundos, según los investigadores.

Para investigar más, desarrollaron el conjunto de datos Evaluación de Probing para Diagnóstico Médico (ProbMed), que comprende 6,303 imágenes de dos conjuntos de datos biomédicos prominentes. Los investigadores utilizaron GPT-4 para extraer metadatos sobre anormalidades existentes, generando 57,132 pares de preguntas y respuestas que abarcaban identificación de órganos, hallazgos clínicos y razonamiento sobre posiciones.

El estudio involucró siete modelos de última generación, incluidos GPT-4V y Gemini Pro, sometidos a una rigurosa evaluación de probing. Los investigadores emparejaron preguntas diagnósticas binarias originales con consultas adversariales para probar la capacidad de los modelos para identificar con precisión las condiciones médicas reales, desechando las falsas. También requirieron que los modelos realizaran diagnósticos de procedimientos, necesitando un enfoque integral que conectara varios aspectos de las imágenes.

Los resultados fueron preocupantes: incluso los modelos más avanzados experimentaron caídas de precisión de al menos 10.52% en el conjunto de datos ProbMed, con una disminución promedio del 44.7%. Por ejemplo, LLaVA-v1-7B sufrió una abrumadora caída del 78.89%, alcanzando solo un 16.5% de precisión, mientras que Gemini Pro y GPT-4V vieron descensos superiores al 25% y al 10.5%, respectivamente. "Nuestro estudio revela una vulnerabilidad significativa en los LMMs frente a preguntas adversariales," comentaron los investigadores.

Errores en el Diagnóstico con GPT y Gemini Pro

Es notable que, aunque GPT-4V y Gemini Pro se destacaron en tareas generales como reconocer tipos de imágenes (CT, MRI o radiografía) y órganos, tuvieron dificultades con preguntas diagnósticas más especializadas. Su precisión se asemejaba a un azar, mostrando una preocupante insuficiencia para ayudar en diagnósticos reales.

Al examinar los errores en GPT-4V y Gemini Pro, en particular durante el proceso diagnóstico, los investigadores identificaron susceptibilidad a errores de alucinación. Gemini Pro aceptaba condiciones incorrectas, mientras que GPT-4V frecuentemente rechazaba consultas desafiantes. Por ejemplo, GPT-4V tuvo una precisión del 36.9% para preguntas relacionadas con condiciones, y Gemini Pro solo fue preciso el 26% del tiempo en consultas sobre posiciones, con el 76.68% de los errores derivando de alucinaciones.

Por el contrario, modelos especializados como CheXagent, entrenados exclusivamente en radiografías de tórax, demostraron ser los más precisos para identificar condiciones, aunque fallaron en tareas generales como el reconocimiento de órganos. Significativamente, CheXagent mostró transferencia de experticia al identificar condiciones en tomografías computarizadas y resonancias magnéticas del tórax, indicando potencial para aplicaciones cruzadas en escenarios del mundo real.

"Este estudio subraya la urgente necesidad de evaluaciones más robustas para garantizar la fiabilidad de los LMMs en campos críticos como el diagnóstico médico," enfatizaron los investigadores. Sus hallazgos destacan una brecha significativa entre las capacidades actuales de los LMMs y las demandas de las aplicaciones médicas en el mundo real.

Optimismo Cauteloso en las Aplicaciones Médicas de la IA

Expertos en las comunidades médica y de investigación expresan preocupaciones sobre la preparación de la IA para el diagnóstico médico. "Es bueno ver estudios específicos de dominio que corroboran que los LLMs y la IA no deben implementarse en infraestructuras críticas para la seguridad, una tendencia alarmante reciente en EE. UU.," declaró la Dra. Heidy Khlaaf, directora de ingeniería en Trail of Bits. "Estos sistemas requieren al menos un 99% de precisión, y los LLMs son peores que aleatorios. Esto es literalmente una amenaza a la vida."

Este sentimiento es compartido por otros que enfatizan la necesidad de experticia en el dominio que actualmente carecen los modelos de IA. Persisten las preocupaciones sobre la calidad de los datos, con observaciones de que las empresas a menudo priorizan el costo sobre la inversión en expertos en la materia.

En conclusión, los hallazgos de la investigación de UCSC y Carnegie Mellon subrayan la necesidad urgente de mejorar las metodologías de evaluación para garantizar la fiabilidad y efectividad de los LLMs en el diagnóstico médico.

El CEO de Appian, Matt Calkins, insta a la industria de la inteligencia artificial a priorizar la confianza y adoptar una nueva era de desarrollo responsable.

La Propuesta de Ley de California para Regular Modelos de IA Potentes Podría Sofocar la Industria Emergente del Estado