Modelos de linguagem grandes (LLMs) e modelos multimodais grandes (LMMs) estão começando a ser utilizados em ambientes médicos, mas essas tecnologias ainda não foram testadas adequadamente em áreas tão críticas. Até que ponto podemos confiar nesses modelos em cenários reais de alto risco? Pesquisas recentes da Universidade da Califórnia, Santa Cruz, e da Universidade Carnegie Mellon sugerem que "não muito".
Em um experimento recente, pesquisadores avaliaram a confiabilidade dos LMMs em diagnósticos médicos, explorando perguntas diagnósticas gerais e específicas. Eles criaram um novo conjunto de dados e examinaram o desempenho dos modelos de ponta em radiografias, ressonâncias magnéticas e tomografias computadorizadas de abdômen, cérebro, coluna e tórax humanos. Os resultados revelaram quedas "alarmantes" na precisão.
Até modelos avançados, como GPT-4V e Gemini Pro, apresentaram desempenho semelhante a palpites aleatórios ao tentar identificar condições médicas. A introdução de pares adversariais—pequenas alterações nos dados de entrada—reduziu ainda mais a precisão, com uma média de queda de 42% entre os modelos testados. "Podemos realmente confiar na IA em áreas críticas como diagnóstico por imagem médica? Não, eles são até piores que aleatórios," afirmou Xin Eric Wang, professor da UCSC e coautor do estudo.
Quedas Drásticas de Precisão com o Novo Conjunto de Dados ProbMed
A Pergunta e Resposta Visual Médica (Med-VQA) avalia a capacidade dos modelos de interpretar imagens médicas. Embora os LMMs tenham mostrado algum progresso em conjuntos de dados como VQA-RAD (questões e respostas visuais sobre radiologia), eles falham sob questionamentos mais profundos, conforme apontado pelos pesquisadores.
Para investigar mais a fundo, eles desenvolveram o conjunto de dados Probing Evaluation for Medical Diagnosis (ProbMed), que inclui 6.303 imagens de dois conjuntos de dados biomédicos importantes, abrangendo vários tipos de exames. Os pesquisadores utilizaram o GPT-4 para extrair metadados sobre anomalias existentes, gerando 57.132 pares de perguntas e respostas que abordam identificação de órgãos, achados clínicos e raciocínio sobre posições.
O estudo envolveu sete modelos de última geração, incluindo GPT-4V e Gemini Pro, submetidos a uma rigorosa avaliação de sondagem. Os pesquisadores combinaram perguntas diagnósticas binárias originais com perguntas adversariais para testar a capacidade dos modelos de identificar com precisão condições médicas verdadeiras, desconsiderando as falsas. Também foi exigido que os modelos realizassem diagnósticos procedimentais, necessitando de uma abordagem abrangente que conectasse vários aspectos das imagens.
Os resultados foram preocupantes: mesmo os modelos mais robustos experimentaram quedas de precisão de pelo menos 10,52% no conjunto de dados ProbMed, com uma média de redução de 44,7%. Por exemplo, o LLaVA-v1-7B sofreu uma impressionante queda de 78,89%, atingindo apenas 16,5% de precisão, enquanto Gemini Pro e GPT-4V apresentaram quedas superiores a 25% e 10,5%, respectivamente. “Nosso estudo revela uma vulnerabilidade significativa nos LMMs quando confrontados com perguntas adversariais,” comentaram os pesquisadores.
GPT e Gemini Pro Apresentam Erros no Diagnóstico
Notavelmente, enquanto GPT-4V e Gemini Pro se destacaram em tarefas gerais, como reconhecer tipos de imagem (CT, MRI ou raios X) e órgãos, tiveram dificuldades com perguntas diagnósticas mais especializadas. Sua precisão se assemelhava a palpites aleatórios, demonstrando uma inadequação preocupante na assistência a diagnósticos reais.
Ao examinar erros no GPT-4V e no Gemini Pro, especialmente durante o processo diagnóstico, os pesquisadores identificaram uma suscetibilidade a erros de alucinação. O Gemini Pro tendia a aceitar condições incorretas, enquanto o GPT-4V frequentemente rejeitava solicitações desafiadoras. Por exemplo, o GPT-4V teve uma precisão de apenas 36,9% em perguntas relacionadas a condições, e o Gemini Pro acertou apenas 26% das questões sobre posições, com 76,68% dos erros decorrendo de alucinações.
Em contraste, modelos especializados como CheXagent, treinados exclusivamente em radiografias de tórax, mostraram-se os mais precisos na identificação de condições, mas falharam em tarefas gerais, como reconhecimento de órgãos. Significativamente, o CheXagent demonstrou transferência de conhecimento ao identificar com precisão condições em tomografias e ressonâncias magnéticas de tórax, indicando potencial para aplicação intermodal em cenários do mundo real.
“Este estudo destaca a necessidade urgente de avaliações mais robustas para garantir a confiabilidade dos LMMs em campos críticos, como o diagnóstico médico,” enfatizaram os pesquisadores. Os achados ressaltam uma lacuna significativa entre as capacidades atuais dos LMMs e as demandas das aplicações médicas no mundo real.
Otimismo Cauteloso em Aplicações Médicas de IA
Especialistas nas comunidades médica e de pesquisa expressam preocupações sobre a prontidão da IA para diagnósticos médicos. “Fico feliz em ver estudos específicos de domínio corroborando que LLMs e IA não devem ser implantados em infraestruturas críticas para a segurança, uma tendência recente chocante nos EUA,” afirmou a Dra. Heidy Khlaaf, diretora de engenharia da Trail of Bits. “Esses sistemas requerem pelo menos 99% de precisão, e os LLMs são piores que aleatórios. Isso é literalmente uma ameaça à vida.”
Esse sentimento é ecoado por outros que enfatizam a necessidade de conhecimento especializado que os modelos de IA atuais não possuem. Persistem preocupações sobre a qualidade dos dados, com observações de que as empresas muitas vezes priorizam custos em detrimento do investimento em especialistas de domínio.
Em conclusão, os achados da pesquisa da UCSC e da Carnegie Mellon sublinham a necessidade premente de metodologias de avaliação aprimoradas para garantir a confiabilidade e a eficácia dos LLMs em diagnósticos médicos.