충격적으로 간단한 조사 결과, AI의 의료 이미지 진단 성능이 '무작위보다 더 나쁘다'고 밝혀졌다.

대형 언어 모델(LLMs)과 대형 멀티모달 모델(LMMs)이 의료 환경에 도입되고 있으나, 이러한 기술들은 아직 중요한 분야에서 충분히 검증되지 않았습니다. 고위험 현실 환경에서 이러한 모델을 얼마나 신뢰할 수 있을까요? 캘리포니아 대학교 산타크루즈와 카네기 멜론 대학교의 현재 연구에 따르면, “그리 신뢰할 수 없다”고 합니다.

최근 연구에서 연구진은 의료 진단에서 LMM의 신뢰성을 평가하기 위해 일반 및 구체적인 진단 질문을 탐색했습니다. 그들은 새로운 데이터 세트를 만들고, 인간의 복부, 뇌, 척추 및 흉부의 X선, MRI 및 CT 스캔에 대한 최신 모델의 성능을 분석했습니다. 그 결과 정확성이 “우려스러울 정도로” 떨어지는 것으로 나타났습니다. GPT-4V와 Gemini Pro와 같은 고급 모델조차도 의료 조건을 식별하는 데 있어 무작위 교육 추정치와 유사한 성능을 보였습니다. 입력의 약간의 수정인 적대적 쌍을 도입했을 때, 모델의 평균 정확성은 42% 감소했습니다. UCSC의 샘 에릭 왕 교수는 “AI를 의료 영상 진단과 같은 중요한 분야에서 정말 신뢰할 수 있을까요? 무작위보다도 못하다는 결론에 도달했습니다.”라고 말했습니다.

ProbMed 데이터셋으로 심각한 정확성 저하

의료 시각 질문 응답(Med-VQA)은 모델이 의료 이미지를 해석하는 능력을 평가합니다. LMM은 VQA-RAD(방사선과 관련된 정량적 질문 및 답변)와 같은 데이터셋에서 어느 정도 진전을 보였지만, 연구자들은 더 깊이 있는 탐색에서는 성과가 저조하다고 지적했습니다.

이어서 그들은 두 개의 주요 생물 의학 데이터셋에서 6,303개의 이미지를 포함한 의료 진단을 위한 프로빙 평가(ProbMed) 데이터셋을 개발했습니다. 연구자들은 GPT-4를 활용하여 기존의 이상 징후에 대한 메타데이터를 추출하고, 장기 식별, 임상 소견 및 위치에 대한 추론을 포함하는 57,132개의 질문-답변 쌍을 생성했습니다.

이 연구는 GPT-4V와 Gemini Pro를 포함한 7개의 최신 모델이 엄격한 프로빙 평가를 거쳤습니다. 연구진은 원본 이진 진단 질문을 적대적 쿼리와 쌍으로 만들어 모델의 진정한 의료 조건을 정확히 식별하는 능력을 시험했습니다. 그들은 모델이 이미지의 다양한 측면을 연결하는 절차적 진단을 수행하도록 요구했습니다.

결과는 충격적이었습니다. 가장 강력한 모델조차도 ProbMed 데이터셋에서 최소 10.52%의 정확성 저하를 경험했으며, 평균적으로 44.7% 감소했습니다. 예를 들어, LLaVA-v1-7B는 놀랍게도 78.89% 감소하여 16.5%의 정확성에 그쳤고, Gemini Pro와 GPT-4V는 각각 25% 및 10.5% 이상의 정확성 저하를 보였습니다. 연구자들은 “우리의 연구는 LMM이 적대적 질문에 직면했을 때 심각한 취약성을 드러낸다”고 강조했습니다.

GPT와 Gemini Pro의 진단 오류

특히, GPT-4V와 Gemini Pro는 CT, MRI 또는 X-ray와 같은 이미지 유형 및 장기 인식과 같은 일반 작업에서는 우수한 성과를 보였으나, 보다 전문적인 진단 질문에서는 어려움을 겪었습니다. 그들의 정확도는 무작위 추측과 유사해, 실제 진단에 대한 도움을 줄 수 있는 능력이 부족함을 드러냈습니다.

GPT-4V와 Gemini Pro의 진단 과정에서 발생한 오류를 분석한 결과, 환각 오류에 취약하다는 점이 확인되었습니다. Gemini Pro는 잘못된 조건을 수용하는 경향이 있었고, GPT-4V는 어려운 질문을 자주 거부했습니다. 예를 들어, GPT-4V는 상태 관련 질문에서 36.9%의 정확성을 보였고, Gemini Pro는 위치 관련 질문에서 26%의 정확성만을 기록했으며, 오류의 76.68%가 환각에서 비롯되었습니다.

반면, 가슴 X-ray에만 특화된 CheXagent와 같은 전문 모델은 조건 인식에서 가장 높은 정확성을 보였으나 장기 인식과 같은 일반 작업에서는 저조했습니다. CheXagent는 가슴 CT 스캔 및 MRI에서 조건을 정확히 식별하여 전문성이 다른 분야로 전이될 가능성을 보여주었습니다.

“이 연구는 의료 진단과 같은 중요한 분야에서 LMM의 신뢰성을 보장하기 위한 보다 강력한 평가의 필요성을 강조합니다.” 연구자들은 강조했습니다. 그들의 발견은 현재 LMM의 능력과 현실 세계 의료 응용의 요구 사이의 중요한 격차를 부각시킵니다.

AI 의료 응용 프로그램에 대한 신중한 낙관

의료 및 연구 커뮤니티의 전문가들은 의료 진단을 위한 AI의 준비 상태에 대한 우려를 표명하고 있습니다. Trail of Bits의 엔지니어링 디렉터인 Dr. Heidy Khlaaf는 “LLM과 AI가 안전-critical 인프라에 배치되어서는 안 된다는 사실을 뒷받침하는 특정 분야 연구 결과를 보게 되어 기쁩니다. 이 시스템들은 최소 99%의 정확성을 요구하며, LLM은 무작위보다도 못합니다. 이는 문자 그대로 생명을 위협합니다.”라고 말했습니다.

이런 견해는 현재 AI 모델이 부족한 도메인 전문성의 필요성을 강조하는 다른 전문가들에 의해 재확인되었습니다. 데이터 품질에 대한 우려는 여전히 존재하며, 기업들이 종종 도메인 전문가에 대한 투자를 비용보다 우선시한다는 점이 관찰되고 있습니다.

결론적으로, UCSC와 카네기 멜론의 연구 결과는 의료 진단에서 LLM의 신뢰성과 효과성을 보장하기 위한 개선된 평가 방법론의 시급한 필요성을 강조합니다.

Most people like

Find AI tools in YBX