四個先進的大型語言模型(LLMs)接收了一幅顯示看似淡紫色岩石的圖像,但其實是一種潛在的眼部腫瘤。這些模型的任務是識別腫瘤的位置、來源和潛在嚴重性。
LLaVA-Med錯誤地將這一惡性腫瘤標識為位於頰部內層,而LLaVA則認為它位於乳房。GPT-4V給出的回答模糊不清,無法確定腫瘤的位置。相比之下,PathChat,這個新型的病理專用LLM,準確識別該腫瘤來源於眼部,並指出其可能導致視力喪失的風險。
PathChat由布里根婦女醫院的Mahmood實驗室開發,代表了計算病理學的一項重大進展,作為人類病理學家的顧問,協助識別、評估和診斷腫瘤及其他嚴重病況。PathChat在多選診斷問題上的表現遠超前沿模型,並對開放式問題提供臨床相關的回應。該模型目前已通過與波士頓的Modella AI的獨家授權提供使用。
“PathChat 2是一個多模態大型語言模型,能理解病理圖像和臨床相關文本,從而與病理學家展開有意義的對話,”Modella的創始首席技術官Richard Chen解釋道。
與此相比,PathChat在性能上超越了ChatGPT-4、LLaVA和LLaVA-Med。研究人員為病理學調整了一個視覺編碼器,並將其與經預訓練的LLM結合,並使用視覺語言提示和問答進行調整。問題涵蓋了11個主要病理學實踐和器官的54種診斷。
每次評估使用兩種策略:一是結合圖像的十個多選問題,二是附帶患者性別、年齡、病史和放射學發現的額外臨床背景。在分析X光片、活檢和其他醫療檢測的圖像時,PathChat在僅有圖像數據的情況下達到78%的準確率,在額外上下文的情況下達到89.5%的準確率。該模型在總結、分類和標註內容方面表現出色,並準確回答需要病理學和生醫知識的問題。
PathChat在兩種評估設置中均超越了ChatGPT-4V、開源LLaVA和LLaVA-Med。在僅有圖像提示時,它的得分比LLaVA高出52%以上,並比LLaVA-Med高出63%以上。在提供臨床背景的情況下,其表現比LLaVA高出39%,幾乎比LLaVA-Med高出61%。同樣,PathChat在僅含圖像提示時與GPT-4相比提升了53%以上,在提供臨床背景的提示時提升了27%。
哈佛醫學院病理學副教授Faisal Mahmood指出,之前的病理學AI模型通常是針對特定疾病或單一任務,缺乏可供病理學家進行互動使用的靈活性。他說:“PathChat代表著邁向通用病理智慧的一步,作為AI助手協助研究人員和病理學家應對多樣情境。”
例如,在只有圖像的多選情境中,PathChat成功識別出一種63歲男性病人的肺腺癌,病人有慢性咳嗽和無法解釋的體重下降。在另一個帶有臨床背景的例子中,PathChat正確識別出肝腫瘤為轉移性腫瘤,並提供了可能與黑色素瘤的關聯見解。
該模型能夠處理下游任務,如鑑別診斷和腫瘤分級,儘管未特別針對這些任務的標註示例進行訓練,這在病理學AI的發展中標誌著重大轉變。傳統上,這些任務的模型訓練需要大量的標註示例。
PathChat可以促進AI輔助的人類介入診斷,最初評估可以在獲取更多信息後進行細化。對於不明原發位置的癌症或在資源有限的環境中,這種方法可能顯得尤其重要。
在研究中,PathChat可以從海量影像數據集中總結特徵,自動量化和解釋關鍵形態標記。研究人員指出:“病理學中互動的多模態AI助手的潛在應用非常廣泛。大型語言模型和生成性AI將徹底改變計算病理學,聚焦於自然語言和人類互動。”
儘管PathChat展現出良好潛力,但研究人員也承認面臨諸如幻覺錯誤等挑戰,這些可以通過人類反饋的強化學習(RLHF)來減輕。持續訓練與當前醫學知識和術語的更新十分必要,通過檢索增強生成(RAG)進一步強化可以幫助保持知識庫的最新。
進一步的改進可能包括與數字視圖器和電子健康記錄的整合,使PathChat對病理學家和研究人員更具價值。Mahmood還建議,該技術可以擴展至其他醫學影像領域和數據類型,如基因組學和蛋白組學。
研究團隊計畫收集大量人類反饋,以使模型的性能與用戶期望對齊並改善回應。他們還將把PathChat與臨床數據庫連接,以便檢索相關患者信息以支持更明確的分析。Mahmood表示:“我們的目標是與各專科的專家病理學家合作,建立評估基準,全面評估PathChat在多樣疾病模型和工作流程中的能力。”