驚くほど簡単な調査で明らかに!AIの医療画像診断パフォーマンスは「ランダム以下」と判明

大規模言語モデル(LLM)や大規模マルチモーダルモデル(LMM)が医療現場に導入されつつありますが、これらの技術は今のところ、重要な分野では十分にテストされていません。高リスクな実世界のシナリオにおいて、これらのモデルをどれだけ信頼できるでしょうか?カリフォルニア大学サンタクルーズ校とカーネギーメロン大学の最新の研究によると、その信頼性は「ほとんどない」とされています。

最近の実験では、研究者たちが医療診断におけるLMMの信頼性を評価しました。特に、一般的および特定の診断質問を探索し、新たに作成したデータセットをもとに、X線、MRI、CTスキャンを用いて人間の腹部、脳、脊椎、胸部の診断における先端モデルのパフォーマンスを調査しました。その結果、正確性の「衝撃的な」低下が明らかになりました。

GPT-4VやGemini Proといった先进なモデルでさえ、医療条件の特定を行う際にはランダムに educated guessesした場合と同様のパフォーマンスを示しました。入力に対するわずかな変更を加えた対抗ペアを導入すると、正確性はさらに低下し、テストされたモデル全体で平均42%の減少が観察されました。「医療画像診断のような重要な分野でAIを本当に信頼できるのか?未知数です」と、UCSCの教授であり研究の共著者であるXin Eric Wangは述べています。

新たなProbMedデータセットによる深刻な精度低下

Medical Visual Question Answering(Med-VQA)は、モデルが医療画像を解釈する能力を評価します。LMMはVQA-RADなどのデータセットで一定の進展を示していますが、より深い探究においては力不足が露呈しています。研究者たちは、新たにProbMedデータセットを開発し、2つの著名なバイオメディカルデータセットから6031画像を収集しました。GPT-4を用いて既存の異常に関するMetaデータを抽出し、臓器の特定や臨床所見、位置についての57,132の質問-回答ペアを生成しました。

この研究では、GPT-4VやGemini Proを含む7つの先端モデルが厳密な検証を受けました。研究者たちは、元の二項診断質問と対抗的な質問をペアにし、モデルが真の医療条件を正確に特定し、誤ったものを排除する能力をテストしました。さらに、モデルには画像のさまざまな側面を結びつける包括的なアプローチを必要とする手続き的診断が求められました。

結果は衝撃的でした。最も強力なモデルでもProbMedデータセットにおいて少なくとも10.52%の精度低下が見られ、平均で44.7%の減少が観察されました。例えば、LLaVA-v1-7Bは78.89%も落ち込み、わずか16.5%の精度となったのに対し、Gemini ProとGPT-4Vはそれぞれ25%および10.5%を超える低下を示しました。「この研究は、LMMが対抗的な質問に直面した際の大きな脆弱性を明らかにしています」と、研究者たちはコメントしています。

診断におけるGPTとGemini Proのエラー

興味深いことに、GPT-4VとGemini Proは、画像の種類や臓器を認識するような一般的なタスクでは優れたパフォーマンスを見せましたが、専門的な診断質問には苦しみました。正確性はランダムな推測と同じレベルで、この点で現実の診断を助けるのに不十分であることがわかります。

診断プロセス中のGPT-4VとGemini Proのエラーを調査したところ、幻覚エラーに対する脆弱性が明らかになりました。Gemini Proは誤った状態を受け入れる傾向があり、GPT-4Vは困難な質問を拒否しがちでした。例えば、GPT-4Vは状態に関連する質問でわずか36.9%の正確性を示し、Gemini Proは位置に関連する質問で26%の正確性を持ち、76.68%のエラーは幻覚から生じていました。

一方、胸部X線に専用トレーニングされた特化モデルであるCheXagentは、状態の特定において最も高い精度を示しましたが、臓器の認識などの一般的なタスクでは苦労しました。特に、CheXagentは胸部CTスキャンやMRIにおいても正確に状態を特定できる専門知識の伝達を示し、実際のシナリオにおけるクロスモダリティの適用可能性を示唆しました。

「この研究は、医療診断のような重要な分野でLMMの信頼性を確保するためのより堅牢な評価の必要性を強調しています」と研究者たちは強調しました。彼らの発見は、LMMの現在の能力と実際の医療アプリケーションの要求との間に重要なギャップがあることを示しています。

AIの医療応用における慎重な楽観主義

医療および研究コミュニティの専門家は、医療診断におけるAIの準備状況に対して懸念を示しています。「LLMやAIが安全性の高いインフラで展開されるべきでないことが確認されているこのドメイン特化の研究が嬉しいです。これは米国での最近の驚くべきトレンドです」とTrail of Bitsの技術ディレクターであるHeidy Khlaaf博士は述べています。「これらのシステムは少なくとも99%の精度を必要とし、LLMはランダムな推測よりも劣ります。これは文字通り命に関わる問題です。」

他の専門家も、現在のAIモデルに欠けるドメイン専門知識の必要性を強調しています。データの質に対する懸念も続いており、企業がしばしば費用を優先し、ドメインエキスパートへの投資を怠る傾向が観察されています。

結論として、UCSCおよびカーネギーメロン大学の研究による発見は、医療診断におけるLLMの信頼性と効果を確保するために、より良い評価手法の必要性を強調しています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles