最近、ケンブリッジ大学の臨床学部による研究が、OpenAIのGPT-4モデルが眼科評価において驚異的な性能を発揮し、専門医に匹敵する能力に近づいていることを示しました。この画期的な発見は、医療界とテクノロジー界の両方から大きな注目を集めています。
この研究は、PLOS Digital Health誌に発表され、GPT-4、前モデルのGPT-3.5、GoogleのPaLM 2、MetaのLLaMAを包括的な眼科知識テストで評価しました。このテストには、光過敏症やさまざまな病変に関する87の選択肢問題が含まれ、眼科教科書で一般的な難易度が設定されています。さらに、5人の眼科専門医、3人の研修医、2人の非専門の若手医師も同じテストを受けました。興味深いことに、これらの質問は大型言語モデル(LLM)にとって完全に新しいものでした。
結果は驚異的で、GPT-4は60問を正解し、研修医や若手医師を上回りました。眼科専門医の平均得点66.4にはわずかに及ばないものの、眼科評価における大きな可能性を示しています。一方、PaLM 2、GPT-3.5、LLaMAはそれぞれ49、42、28点と得点が低く、若手医師の平均にも届きませんでした。
これらの結果は、医療分野におけるLLMの有望な応用を示していますが、研究者はその信頼性を過信しないよう警告しています。特に特定のカテゴリーにおいて質問数が限られているため、結果が歪められる可能性があると指摘されました。また、LLMは時折「幻覚」を引き起こし、関連性のない情報や誤った情報を生成することがあり、医療の文脈では深刻なリスクを伴います。例えば、白内障や癌の誤診は患者にとって重大な結果をもたらす可能性があります。
研究者は、眼科評価におけるLLMの初期の肯定的な成果にもかかわらず、実世界での応用に対する慎重さが重要であると強調しています。今後の取り組みは、これらのモデルの精度と信頼性を高めることに焦点を当て、医療分野で安全かつ効果的に機能できるようにするべきです。
この研究は、医療におけるLLMの役割に新たな視点を提供し、技術の進展を追求する中でリスクと限界を認識する重要性を強調しています。LLM技術が進化し続ける中で、医療分野にプラスの影響を与える新たな進展を期待しています。