大型語言模型(LLMs)和大型多模態模型(LMMs)正逐步進入醫療領域,但這些技術在關鍵領域的測試仍然不足。我們可以在高風險的現實場景中多大程度上信任這些模型?來自加利福尼亞大學聖克魯斯分校和卡內基梅隆大學的最新研究表明,「信任的基礎不大」。
在最近的一項實驗中,研究人員評估了LMMs在醫療診斷中的可靠性,探索了一般和具體的診斷問題。他們策劃了一個新的數據集,並檢查了最先進模型在人體腹部、大腦、脊椎和胸部的X光片、MRI和CT掃描上的表現。結果顯示準確性出現「驚人的」下降。
即使是像GPT-4V和Gemini Pro這樣的先進模型,在識別醫療狀況時的表現也與隨機教育猜測相似。加入對抗性範例(輕微修改的輸入)後,準確率進一步下降,所測試模型的平均下降幅度達42%。加利福尼亞大學聖克魯斯分校的教授兼該研究的共同作者Xin Eric Wang表示:「我們真的能在醫療影像診斷這類關鍵領域信任AI嗎?不,這些模型比隨機推測還糟糕。」
新的ProbMed數據集導致準確性驟降
醫療視覺問答(Med-VQA)評估模型解釋醫療影像的能力。雖然LMMs在VQA-RAD(關於放射學的定量視覺問題和答案)等數據集上顯示出一些進展,但研究人員指出,當深入探究時它們表現不佳。
為進一步調查,他們開發了醫療診斷探測評估(ProbMed)數據集,包含來自兩個主要生物醫學數據集的6,303幅影像。研究人員利用GPT-4提取現有異常的元數據,生成了57,132對問題和答案,涵蓋了器官識別、臨床發現及位置推理。
該研究涉及七個最先進的模型,包括GPT-4V和Gemini Pro,並進行了嚴謹的探測評估。研究者將原始的二元診斷問題與對抗性查詢配對,以測試模型準確識別真實醫療條件的能力,同時排除錯誤判斷。他們還要求模型進行程序化診斷,這需要綜合連結影像的各個方面。
結果令人擔憂:即使是最強大的模型,在ProbMed數據集上也經歷了至少10.52%的準確性下降,平均下降幅度達44.7%。例如,LLaVA-v1-7B的準確性驟降至僅16.5%,下降幅度高達78.89%;而Gemini Pro和GPT-4V的下降幅度分別超過25%和10.5%。研究人員指出:「我們的研究揭示了LMMs在面對對抗性問題時的明顯脆弱性。」
GPT和Gemini Pro的診斷錯誤
值得注意的是,儘管GPT-4V和Gemini Pro在識別影像類型(CT、MRI或X光)和器官等一般任務中表現良好,但在更專業的診斷問題上卻遇到了困難。他們的準確性類似於隨機猜測,顯示出在協助現實診斷方面的顯著不足。
在檢查GPT-4V和Gemini Pro的診斷過程中的錯誤時,研究人員發現它們容易受到幻覺錯誤的影響。Gemini Pro容易接受錯誤的條件,而GPT-4V則常常拒絕挑戰性詢問。例如,GPT-4V在與條件相關的問題上僅有36.9%的準確性,而Gemini Pro在位置相關查詢上的準確率僅為26%,76.68%的錯誤來自幻覺。
相對而言,像CheXagent這樣專門針對胸部X光訓練的模型在識別條件上表現最佳,但在像器官識別這樣的一般任務上表現欠佳。顯著的是,CheXagent在準確識別胸部CT掃描和MRI中的病症上顯示出專業知識轉移的潛力,表明在現實場景中跨模態的應用潛力。
研究人員強調:「本研究突顯了對LMMs在醫療診斷等關鍵領域進行更強有力評估的迫切需求。」他們的發現凸顯了目前LMMs能力與現實醫療應用需求之間的顯著差距。
AI醫療應用的謹慎樂觀
醫療和研究界的專家們對AI在醫療診斷的準備度表示擔憂。Trail of Bits的工程總監Dr. Heidy Khlaaf表示:「樂見針對特定領域的研究證實,LLMs和AI不應用於安全關鍵的基礎設施,這在美國最近成為令人震驚的趨勢。這些系統需要至少99%的準確性,而LLMs的準確性甚至不如隨機猜測,這實際上是生命攸關的。」
其他人也表達了類似的看法,強調目前AI模型缺乏領域專業知識的必要性。對數據質量的擔憂依然存在,觀察到許多公司往往重視成本而非投資於領域專家。
總結來說,加利福尼亞大學聖克魯斯分校和卡內基梅隆大學的研究結果強調了改進評估方法以確保LLMs在醫療診斷中可靠性和有效性的迫切需求。