Quatro modelos avançados de linguagem (LLMs) foram apresentados a uma imagem de uma rocha de cor mauve, que na verdade é um tumor ocular potencialmente sério. Os modelos tinham a tarefa de identificar sua localização, origem e gravidade.
O LLaVA-Med identificou incorretamente o crescimento maligno como se estivesse na mucosa interna da bochecha, enquanto o LLaVA sugeriu que estava localizado na mama. O GPT-4V forneceu uma resposta vaga e não conseguiu identificar a localização do tumor. Em contraste, o PathChat, um novo modelo específico de patologia, identificou corretamente o tumor como originário do olho e observou seu potencial para causar perda de visão.
Desenvolvido no Mahmood Lab do Brigham and Women’s Hospital, o PathChat representa um avanço significativo em patologia computacional, funcionando como um consultor para patologistas humanos e auxiliando na identificação, avaliação e diagnóstico de tumores e condições graves.
O PathChat supera significativamente os principais modelos em questões diagnósticas de múltipla escolha e oferece respostas clinicamente relevantes a consultas abertas. Ele está disponível por meio de uma licença exclusiva com a Modella AI, baseada em Boston.
“PathChat 2 é um modelo de linguagem multimodal que compreende imagens de patologia e textos clinicamente relevantes, permitindo diálogos significativos com patologistas”, explicou Richard Chen, CTO da Modella.
Em comparação, o PathChat supera o ChatGPT-4, LLaVA e LLaVA-Med. Pesquisadores adaptaram um codificador visual para patologia, combinando-o com um LLM pré-treinado e ajustando-o com prompts de linguagem visual e sessões de perguntas e respostas. As questões abrangeram 54 diagnósticos em 11 principais práticas e órgãos de patologia.
Cada avaliação utilizou duas estratégias: uma imagem combinada com dez perguntas de múltipla escolha e uma imagem acompanhada de contexto clínico adicional, incluindo sexo, idade, histórico clínico e achados radiológicos. Analisando imagens de raios-X, biópsias e outros exames médicos, o PathChat alcançou 78% de precisão com dados apenas de imagem e 89,5% de precisão com contexto adicional. O modelo destacou-se na sumarização, classificação e legendagem de conteúdos, respondendo com precisão a perguntas que exigiam conhecimento em patologia e biomedicina.
O PathChat superou o ChatGPT-4V, LLaVA e LLaVA-Med em ambos os cenários de avaliação. Com prompts de apenas imagem, obteve mais de 52% de desempenho superior ao LLaVA e mais de 63% ao LLaVA-Med. Quando oferecido contexto clínico, teve desempenho 39% melhor que o LLaVA e quase 61% superior ao LLaVA-Med. Igualmente, apresentou mais de 53% de melhoria em relação ao GPT-4 com prompts de apenas imagem e 27% com prompts contextualizados.
Faisal Mahmood, professor associado de patologia na Harvard Medical School, destacou que modelos anteriores de IA em patologia eram frequentemente específicos para doenças ou focados em tarefas singulares, sem a adaptabilidade necessária para uso interativo por patologistas. “O PathChat representa um avanço em inteligência geral de patologia, atuando como um co-piloto de IA que pode auxiliar pesquisadores e patologistas em diversas situações”, comentou Mahmood.
Por exemplo, em um cenário de múltipla escolha com apenas a imagem, o PathChat identificou com sucesso um adenocarcinoma pulmonar em uma radiografia de tórax de um homem de 63 anos com tosse crônica e perda de peso inexplicada. Em outra situação, com contexto clínico, identificou corretamente um tumor hepático como uma metástase, oferecendo insights sobre possíveis conexões com melanoma.
A capacidade do modelo de lidar com tarefas subsequentes, como diagnóstico diferencial e classificação de tumores, mesmo sem treinamento específico em exemplos rotulados, marca uma mudança significativa no desenvolvimento da IA em patologia. Tradicionalmente, o treinamento de modelos para essas tarefas exigia um grande número de exemplos rotulados.
O PathChat pode facilitar diagnósticos assistidos por IA, onde avaliações iniciais são refinadas com contexto adicional. Para casos complexos, como cânceres de origem primária desconhecida, ou em ambientes com poucos recursos e acesso limitado a patologistas especialistas, essa abordagem pode ser inestimável.
Na pesquisa, o PathChat poderá resumir características de amplos conjuntos de dados de imagem e automatizar a quantificação e interpretação de marcadores morfológicos cruciais. “As aplicações potenciais para um co-piloto de IA interativo e multimodal em patologia são vastas”, observaram os pesquisadores. “Os LLMs e a IA generativa estão prestes a revolucionar a patologia computacional com foco em linguagem natural e interação humana.”
Embora o PathChat mostre promessas, os pesquisadores reconhecem desafios como erros de alucinação, que poderiam ser mitigados por meio de aprendizado por reforço com feedback humano (RLHF). Treinamentos contínuos com conhecimento e terminologia médica atual são essenciais, e o reforço pela geração aumentada por recuperação (RAG) poderia ajudar a manter seu banco de dados atualizado.
Melhorias adicionais poderiam incluir integrações com visualizadores de lâminas digitais e registros eletrônicos de saúde, tornando o PathChat ainda mais benéfico para patologistas e pesquisadores. Mahmood também sugeriu que a tecnologia poderia se estender a outros campos de imagem médica e tipos de dados, como genômica e proteômica.
A equipe de pesquisa planeja coletar feedback humano extensivo para alinhar o desempenho do modelo com as expectativas dos usuários e melhorar suas respostas. Além disso, irão conectar o PathChat a bancos de dados clínicos para permitir que ele recupere informações relevantes dos pacientes para uma análise mais informada. “Nosso objetivo é colaborar com patologistas especialistas de diversas especialidades para desenvolver benchmarks de avaliação e avaliar de forma abrangente as capacidades do PathChat em diversos modelos de doenças e fluxos de trabalho”, declarou Mahmood.