令人震惊的简单探测显示AI医学影像诊断性能竟然比随机结果更差

大型语言模型(LLMs)和大型多模态模型(LMMs)正逐步进入医疗领域,但这些技术尚未在如此关键的领域得到充分测试。我们在高风险的真实场景中能多大程度上信任这些模型?来自加利福尼亚大学圣克鲁兹分校和卡内基梅隆大学的最新研究表明,“信任度不高”。

在最近的一项实验中,研究人员通过探索通用和特定的诊断问题来评估LMMs在医疗诊断中的可靠性。研究团队整理了一个新的数据集,并对最先进模型在X光、MRI和CT扫描的人体腹部、大脑、脊柱和胸部图像上的表现进行了分析。结果显示,准确率“令人震惊”地下降。

即使是高级模型如GPT-4V和Gemini Pro在识别医疗条件的任务中,其表现也相当于随机 educated guess。引入对抗性数据对输入进行轻微修改后,准确率进一步下降,经过测试的模型平均下降42%。加州大学圣克鲁兹分校教授、研究共同作者王新表示:“在医学影像诊断等关键领域,我们真的能信任AI吗?不,结果甚至比随机猜测还差。”

新的ProbMed数据集带来准确性剧降

医疗视觉问答(Med-VQA)评估模型解释医疗影像的能力。虽然在VQA-RAD等数据集上,LMMs表现出一些进展,但研究人员发现它们在更深入的探测中表现不佳。

为进一步研究,研究团队开发了医学诊断的探测评估(ProbMed)数据集,该数据集包含来自两个重要生物医学数据集的6,303张影像。这些影像涵盖了各种扫描,研究人员使用GPT-4提取现存异常的元数据,生成了57,132对涉及器官识别、临床发现和位置推理的问题和答案。

该研究涉及包括GPT-4V和Gemini Pro在内的七个最先进模型,经过严格的探测评估。研究人员将原始二元诊断问题与对抗性查询相结合,以测试模型识别真实医疗条件的能力,并要求模型进行程序性诊断,这需要一个全面的方法,联系影像的各个方面。

结果令人警醒:即便是最强大的模型在ProbMed数据集上的准确率下降至少10.52%,平均下降幅度达到44.7%。例如,LLaVA-v1-7B的准确率骤降至仅16.5%,下降幅度高达78.89%;Gemini Pro和GPT-4V的下降幅度分别超过25%和10.5%。研究人员指出:“我们的研究揭示了LMMs在面对对抗性质疑时的重大脆弱性。”

GPT和Gemini Pro在诊断中表现失误

值得注意的是,虽然GPT-4V和Gemini Pro在识别影像类型(如CT、MRI或X光)及器官的通用任务中表现良好,但在更加专业的诊断问题上却显得无能为力。它们的准确率类似于随机猜测,表明在实际诊断中存在严重不足。

在检视GPT-4V和Gemini Pro的诊断错误时,研究人员发现它们容易产生幻觉错误。Gemini Pro倾向于接受错误的条件,GPT-4V则常常拒绝较具挑战性的问题。例如,GPT-4V在条件相关问题的准确率仅为36.9%,而Gemini Pro在位置相关查询上的准确率仅为26%,76.68%的错误源自幻觉现象。

相较之下,专门针对胸部X光进行训练的模型CheXagent在识别疾病时显示出更高的准确率,但在器官识别等通用任务上表现较差。值得注意的是,CheXagent在准确识别胸部CT扫描和MRI中的条件时展现出专业知识的迁移,表明在现实场景中具有跨模态应用的潜力。

“这项研究强调了在医学诊断等关键领域,迫切需要建立更为严密的评估机制,以确保LMMs的可靠性,”研究人员强调。他们的发现凸显了当前LMMs能力与实际医疗应用需求之间的显著差距。

对AI医学应用的谨慎乐观

医学和研究界的专家对AI在医疗诊断中的准备情况表示担忧。Trail of Bits的工程总监Heidy Khlaaf博士指出:“很高兴看到领域特定研究证实LLMs和AI不应应用于安全关键的基础设施,这是最近在美国令人震惊的趋势。此类系统至少需99%的准确性,但LLMs的表现甚至不如随机。这确实是危及生命的。”

这一观点得到了其他人的认同,他们强调当前AI模型缺乏相应的领域专业知识。关于数据质量的担忧依然存在,许多公司常常优先考虑成本而不是在领域专家上投入。

总之,加州大学圣克鲁兹分校和卡内基梅隆大学的研究结果突显了对医疗诊断中LLMs可靠性评估机制进行改进的迫切需要。

Most people like

Find AI tools in YBX