四种先进的大型语言模型(LLM)被展示了一幅看似是淡紫色岩石的图像,但实际上是一个潜在的严重眼部肿瘤。这些模型的任务是识别肿瘤的位置、来源和可能的严重性。
LLaVA-Med 错误地将这一恶性肿瘤识别为位于内颊,而 LLaVA 则误认为它位于乳腺。GPT-4V 给出了模糊的回答,未能准确识别肿瘤的位置。相比之下,PathChat 这款新开发的病理专用 LLM 准确识别该肿瘤源自眼睛,并指出其可能导致视力丧失的风险。
PathChat 由布莱根妇女医院的 Mahmood 实验室开发,标志着计算病理学的重要进展,作为人类病理学家的顾问,帮助识别、评估和诊断肿瘤及严重疾病。它在多项选择诊断问题上大幅超越其他主流模型,并能够对开放式问题提供临床相关的回答。PathChat 目前通过与波士顿的 Modella AI 的独家许可提供服务。
Modella 的首席技术官 Richard Chen 解释道:“PathChat 2 是一种多模态大型语言模型,可以理解病理图像和与临床相关的文本,使其能够与病理学家进行互动。”
在对比中,PathChat 超越了 ChatGPT-4、LLaVA 和 LLaVA-Med。研究者们调整了视觉编码器以适应病理学,将其与预训练的 LLM 结合,并通过视觉语言提示和问答会话进行微调。问题涉及 11 种主要病理实践和器官中的 54 种诊断。
每次评估使用了两种策略:一种是图像结合十个多选题,另一种是图像配以包括患者性别、年龄、临床历史和放射学发现的额外临床背景数据。在分析 X 射线、活检和其他医学检测图像时,PathChat 在仅使用图像数据时达到了 78% 的准确率,在附加背景信息的情况下达到了 89.5% 的准确率。该模型在内容摘要、分类和标注方面表现优秀,同时准确回答病理学和生物医学知识相关问题。
PathChat 在两种评估设置中均超越了 ChatGPT-4V、开源 LLaVA 和 LLaVA-Med。在仅使用图像的提示下,它的表现比 LLaVA 提高了 52% 以上,比 LLaVA-Med 提高了 63% 以上;在提供临床背景时,其表现比 LLaVA 提升了 39%,比 LLaVA-Med 提升了将近 61%。此外,PathChat 还在仅使用图像的提示下,比 GPT-4 提高了 53% 以上,在临床背景提示下提高了 27%。
哈佛医学院病理学副教授 Faisal Mahmood 指出,早期的 AI 病理模型通常是专注于特定疾病或单一任务,缺乏适应病理学家互动使用的能力。“PathChat 是朝着通用病理智能迈出的重要一步,它作为 AI 共同助手,能在多种情境中支持研究人员和病理学家,”他评论道。
例如,在仅存在图像的多选情境中,PathChat 成功识别了一名 63 岁男性慢性咳嗽及不明原因体重减轻的胸部 X 射线中的肺腺癌。在另一个涉及临床背景的案例中,它正确识别了一种肝肿瘤为转移性肿瘤,并提供了与黑素瘤可能相关的见解。
尽管 PathChat 并未针对这些任务的标注示例进行专门训练,但它能处理下游任务,例如鉴别诊断和肿瘤分级,这标志着病理 AI 开发的重大转变。以往,这些任务的模型训练需要大量标注示例。
PathChat 能促进 AI 辅助的人工智能诊断,初步评估可以在后续背景信息的支持下精细化。对于复杂病例,如未知原发癌症或在专业病理学家有限的低资源环境中,这种方法可能具有重要价值。
在研究中,PathChat 可以对大量图像数据集的特点进行摘要,并自动化关键形态标记的量化和解释。研究人员指出:“在病理学中,互动的多模态 AI 共同助手的潜在应用非常广泛。大型语言模型和生成 AI 将在自然语言和人机互动的基础上,彻底改变计算病理学。”
尽管 PathChat 显示出了潜力,研究人员也意识到诸如幻觉错误等挑战,这些可以通过人类反馈强化学习(RLHF)减轻。持续更新目前的医学知识和术语至关重要,通过检索增强生成(RAG)有助于保持其知识数据库的时效性。
未来的改进可能包括与数字切片查看器和电子健康记录的整合,使PathChat 对病理学家和研究者更具价值。Mahmood 还建议,该技术可以扩展到其他医学影像领域和数据类型,例如基因组学和蛋白质组学。
研究团队计划收集大量人类反馈,以使模型性能与用户期望对齐并改善其回答。他们还将把 PathChat 连接到临床数据库,以提取相关患者信息,从而提供更有针对性的分析。“我们的目标是与各个专业的病理学专家合作,开发评估基准,全面评估 PathChat 在多种疾病模型和工作流程中的能力,”Mahmood 说道。