네 개의 고급 대형 언어 모델(LLMs)은 이미지 속의 연보라색 바위를 분석해야 했습니다. 이 바위는 실제로 심각한 안구 종양입니다. 모델들은 종양의 위치, 기원 및 잠재적 심각성을 식별하는 과제를 받았습니다.
LLaVA-Med는 종양을 뺨의 안쪽 내막에 위치한 악성 성장으로 잘못 식별했으며, LLaVA는 이를 유방에 있다고 제안했습니다. GPT-4V는 무의미한 답변을 제공하며 종양의 위치를 식별하는 데 실패했습니다. 반면, PathChat은 안구에서 기원한 종양으로 정확히 식별하며 시력 손실을 초래할 가능성을 언급했습니다.
Brigham and Women’s Hospital의 Mahmood Lab에서 개발된 PathChat은 비교병리학의 중요한 발전을 나타내며, 인간 병리학자들이 종양 및 심각한 상태를 식별, 평가 및 진단하는 데 도움을 주는 컨설턴트 역할을 합니다. PathChat은 선택형 진단 질문에서 선두 모델들을 크게 웃도는 성능을 보이며, 개방형 질문에 대해 임상적으로 관련 있는 답변을 제공합니다. 현재 Boston에 본사를 둔 Modella AI와의 독점 라이선스를 통해 제공되고 있습니다.
“PathChat 2는 병리 이미지를 이해하고 임상적으로 관련된 텍스트를 이해하며 병리학자와의 의미 있는 대화를 가능하게 하는 다중 모달 대형 언어 모델입니다”라고 Modella의 창립 CTO인 Richard Chen이 설명했습니다. PathChat은 ChatGPT-4, LLaVA 및 LLaVA-Med를 능가합니다. 연구팀은 병리를 위한 비전 인코더를 조정해 사전 훈련된 LLM과 결합하고, 시각 언어 프롬프트와 질문-답변 세션으로 미세 조정했습니다. 질문은 11개의 주요 병리 관행 및 장기에 걸쳐 54개의 진단을 포함했습니다.
각 평가는 두 가지 전략을 사용했습니다: 이미지와 10개의 선택형 질문 또는 추가 임상 맥락(환자의 성별, 나이, 임상 이력, 방사선 소견 포함)과 결합된 이미지입니다. X선, 생검 및 기타 의료 검사의 이미지를 분석할 때, PathChat은 이미지 전용 데이터에서 78%의 정확도를 보였고, 추가 맥락을 제공할 경우 89.5%의 정확도를 기록했습니다. 모델은 내용을 요약, 분류, 캡션 작성에서 뛰어난 성능을 발휘하며 병리학 및 생의학 지식을 요구하는 질문에 정확하게 답변했습니다.
PathChat은 두 평가 설정에서 ChatGPT-4V, 오픈 소스 LLaVA 및 LLaVA-Med보다 우수한 성능을 나타냈습니다. 이미지 전용 프롬프트를 사용할 때 LLaVA보다 52% 이상, LLaVA-Med보다 63% 이상 향상된 점수를 기록했습니다. 임상 맥락이 제공되었을 때는 LLaVA보다 39%, LLaVA-Med보다 거의 61% 더 뛰어난 성과를 보였습니다. 또한, PathChat은 이미지 전용 프롬프트에서 GPT-4보다 53% 이상의 향상된 성과를 보였고, 임상 맥락이 설정된 프롬프트에서는 27%의 향상을 나타냈습니다.
하버드 의대의 병리학 부교수인 Faisal Mahmood는 이전 AI 모델들이 종종 특정 질병에만 국한되거나 단일 작업에 집중했으며, 병리학자들이 상호작용적으로 사용할 수 있는 적응력이 부족했다고 지적했습니다. “PathChat은 병리학적 지능으로의 한 걸음을 나타내며, 다양한 상황에서 연구자와 병리학자에게 도움을 줄 수 있는 AI 조종사 역할을 하고 있습니다”라고 Mahmood가 설명했습니다.
예를 들어, 이미지 전용의 선택형 시나리오에서 PathChat은 만성 기침과 설명할 수 없는 체중 감소를 겪고 있는 63세 남성의 흉부 X선에서 폐 선암을 성공적으로 식별했습니다. 임상 맥락이 있는 또 다른 경우에서는, 지간 종양을 전이로 정확하게 식별하며 흑색종과의 가능한 연결성에 대한 통찰을 제공했습니다.
이 모델은 특정 레이블이 부착된 예제로 훈련되지 않았음에도 불구하고 감별 진단 및 종양 등급과 같은 다운스트림 작업을 처리하는 능력이 병리학 AI 개발의 중요한 변화를 의미합니다. 전통적으로 이러한 작업을 위한 모델 훈련은 방대한 수의 레이블이 부착된 예제가 필요했습니다.
PathChat은 초기 평가를 더욱 정교하게 마무리하는 AI 보조 인간-투-루프 진단을 촉진할 수 있으며, 원인 불명의 암과 같은 복잡한 사례나 전문가 병리학자에 대한 접근이 제한된 자원 부족 환경에서도 큰 도움이 될 수 있습니다. 연구에서는 PathChat이 광범위한 이미지 데이터 세트에서 특징을 요약하고 주요 형태학적 마커의 정량화 및 해석을 자동화할 수 있습니다.
“병리학에서 상호작용적이고 다중 모달 AI 조종사에 대한 잠재적 응용은 방대합니다”라고 연구자들은 언급했습니다. “LLMs와 생성 AI는 자연어와 인간 상호작용에 중점을 두어 계산 병리학에 혁신을 가져올 것입니다.”
PathChat은 유망하지만, 연구자들은 환각 오류와 같은 문제를 인식하고 있으며, 이는 인간 피드백을 통한 강화 학습(RLHF)을 통해 완화될 수 있습니다. 현재의 의학 지식과 용어에 대한 지속적인 훈련이 필수적이며, 검색 보강 생성(RAG)을 통한 강화가 지식 데이터베이스를 최신 상태로 유지하는 데 도움이 될 수 있습니다. 향후 개선 사항에는 디지털 슬라이드 뷰어 및 전자 건강 기록과의 통합이 포함되어, PathChat이 병리학자와 연구자에게 더욱 유용해질 것입니다. Mahmood는 이 기술이 유전체학 및 단백질학과 같은 다른 의료 이미징 분야와 데이터 유형으로 확대될 수 있다고 제안했습니다.
연구팀은 광범위한 인간 피드백을 수집해 모델 성능을 사용자 기대에 맞추고 응답을 개선할 계획입니다. 또한, PathChat을 클리닉 데이터베이스와 연결하여 더 잘-informed된 분석을 위한 관련 환자 정보를 검색할 수 있도록 할 것입니다. “우리의 목표는 다양한 전문 분야의 전문가 병리학자와 협력하여 평가 벤치마크를 개발하고 다양한 질병 모델 및 작업 흐름에서 PathChat의 역량을 종합적으로 평가하는 것입니다”라고 Mahmood가 밝혔습니다.