Недавнее исследование Кембриджского университета показало, что модель GPT-4 от OpenAI демонстрирует выдающиеся результаты в офтальмологических оценках, приближаясь к компетентности экспертов. Это открытие привлекло значительное внимание как медицинского, так и технического сообщества.
Статья, опубликованная в журнале PLOS Digital Health, оценивала GPT-4, его предшественника GPT-3.5, а также модели PaLM 2 от Google и LLaMA от Meta, используя всеобъемлющий тест офтальмологических знаний. В тесте содержалось 87 вопросов с множественным выбором, охватывающих такие темы, как фотобоязнь и различные поражения, с уровнем сложности, характерным для учебников по офтальмологии. Тест также прошли пять экспертов в офтальмологии, три ординатора и два некомпетентных врача. Следует отметить, что эти вопросы были совершенно новыми для моделей большого языка (LLM).
Результаты впечатляют: GPT-4 правильно ответил на 60 вопросов, обойдя как ординаторов, так и младших врачей. Несмотря на то, что он немного уступил среднему баллу в 66,4, достигнутому экспертами, результаты подчеркивают его значительный потенциал в офтальмологических оценках. В противоположность этому, модели PaLM 2, GPT-3.5 и LLaMA набрали 49, 42 и 28 баллов соответственно, все они оказались ниже среднего результата младших врачей.
Хотя эти результаты иллюстрируют многообещающие применения LLM в здравоохранении, исследователи предостерегают от переоценки их надежности. Они отмечают, что ограниченное количество вопросов, особенно в определенных категориях, может исказить результаты. Кроме того, LLM иногда могут «галлюцинировать», генерируя нерелевантную или ошибочную информацию, что представляет серьезные риски в медицинском контексте. Например, неверный диагноз катаракты или рака может иметь тяжёлые последствия для пациентов.
Исследователи подчеркивают, что, несмотря на положительные результаты LLM в офтальмологических оценках, необходима осторожность при их реальном применении. Будущие усилия должны быть направлены на повышение точности и надежности этих моделей, чтобы гарантировать их безопасное и эффективное использование в медицине.
Это исследование предлагает новый взгляд на роль LLM в здравоохранении, подчеркивая важность осознания их рисков и ограничений по мере продвижения технологий. С учетом продолжающегося развития технологий LLM, мы с нетерпением ждем дальнейших достижений, которые могут положительно повлиять на медицинский сектор.