Большие языковые модели (LLMs) и многомодальные модели (LMMs) начинают внедряться в медицинскую практику, однако эти технологии еще не прошли адекватное тестирование в таких критически важных областях. Как можно доверять этим моделям в ситуациях с высокими ставками в реальной жизни? Исследования Университета Калифорнии в Санта-Крузе и Университета Карнеги-Меллона показывают: "Не очень".
В одном из недавних экспериментов ученые оценили надежность LMM в медицине, рассматривая общие и специфические диагностические вопросы. Они создали новый набор данных и провели анализ производительности современных моделей на рентгеновских снимках, МРТ и КТ-сканах человеческих органов: живота, мозга, позвоночника и грудной клетки. Результаты выявили "тревожные" падения точности.
Даже такие продвинутые модели, как GPT-4V и Gemini Pro, демонстрировали результаты, сопоставимые с случайными образованными догадками при определении медицинских состояний. Введение противоречивых пар — небольших изменений входных данных — ещё больше снизило точность, в среднем на 42% у протестированных моделей. "Можем ли мы действительно доверять ИИ в критически важных областях, таких как диагностика медицинских изображений? Нет, они даже хуже случайных догадок," заявил профессор UCSC Син Эрик Ванг, один из авторов исследования.
Существенное снижение точности с новым набором данных ProbMed
Medical Visual Question Answering (Med-VQA) оценивает способность моделей интерпретировать медицинские изображения. Хотя LMM продемонстрировали некоторый прогресс на наборах данных, таких как VQA-RAD (количественные визуальные вопросы и ответы о радиологии), исследователи обнаружили их ослабление при более глубоком анализе.
Для дальнейшего исследования они разработали набор данных Probing Evaluation for Medical Diagnosis (ProbMed), состоящий из 6303 изображений из двух известных биомедицинских наборов данных, включая различные сканирования. Исследователи использовали GPT-4 для извлечения метаданных о существующих аномалиях, создав 57132 пары вопрос-ответ, охватывающие идентификацию органов, клинические находки и обоснование положений.
В исследовании участвовали семь современных моделей, включая GPT-4V и Gemini Pro, которые прошли строгую оценку. Ученые сопоставили оригинальные бинарные диагностические вопросы с противоречивыми запросами, чтобы проверить способность моделей точно идентифицировать истинные медицинские состояния, отсекая ложные. Они также потребовали от моделей выполнения процедурной диагностики, что потребовало комплексного подхода к различным аспектам изображений.
Результаты были печальными: даже самые сильные модели показали снижение точности как минимум на 10.52% на наборе данных ProbMed, в среднем на 44.7%. Например, LLaVA-v1-7B продемонстрировала поразительное снижение до 16.5% точности, в то время как у Gemini Pro и GPT-4V снижение составило более 25% и 10.5% соответственно. "Наше исследование выявляет значительную уязвимость в LMM при столкновении с противоречивыми вопросами," отметили исследователи.
Ошибка в диагностике у GPT и Gemini Pro
Стоит отметить, что хотя GPT-4V и Gemini Pro добивались успехов в общих задачах, таких как распознавание типов изображений (КТ, МРТ или рентген) и органов, им сложно давались более специализированные диагностические вопросы. Их точность была сопоставима с случайными догадками, что указывает на тревожную неадекватность в помощи реальной диагностике.
При анализе ошибок в GPT-4V и Gemini Pro, особенно во время диагностического процесса, исследователи выявили подверженность галлюцинационным ошибкам. Gemini Pro склонен принимать неверные состояния, в то время как GPT-4V часто отказывался отвечать на сложные вопросы. Например, точность GPT-4V составила только 36.9% для вопросов о состоянии, а Gemini Pro справился только на 26% по вопросам, связанным с положением, при этом 76.68% ошибок возникло из-за галлюцинаций.
В отличие от этого, специализированные модели, такие как CheXagent, обученные исключительно на рентгеновских снимках грудной клетки, показали наибольшую точность в идентификации состояний, но не справлялись с общими задачами, такими как распознавание органов. Значительно, что CheXagent продемонстрировал передачу экспертизы, точно идентифицируя состояния на КТ и МРТ грудной клетки, что указывает на потенциал применения в разных модальностях в реальных сценариях.
"Это исследование подчеркивает срочную необходимость в более надежных оценках, чтобы гарантировать надежность LMM в критических областях, таких как медицинская диагностика," подчеркивают ученые. Их выводы указывают на значительный разрыв между текущими возможностями LMM и требованиями реальных медицинских приложений.
Осторожный оптимизм в медицинских приложениях ИИ
Эксперты медицинского и исследовательского сообществ выражают обеспокоенность готовностью ИИ к медицинской диагностике. "Рада видеть исследования, специфичные для области, подтверждающие, что LLM и ИИ не должны использоваться в безопасной критической инфраструктуре, что является шокирующей тенденцией в США," отметила доктор Хейди Хлааф, инженерный директор Trail of Bits. "Эти системы требуют как минимум 99% точности, а LLM хуже случайных. Это реально угрожает жизни."
Это мнение разделяют и другие, подчеркивающие необходимость областной экспертизы, которой современным моделям ИИ не хватает. Остаются сомнения по поводу качества данных, с наблюдениями, что компании часто ставят стоимость выше инвестиций в специалистов.
В заключение, выводы исследований UCSC и Карнеги-Меллона подчеркивают настоятельную необходимость в улучшении методологий оценки для обеспечения надежности и эффективности LLM в медицинской диагностике.