Разблокировка GPT-4: удивительная производительность в офтальмологической оценке и экспертные рекомендации по осторожному внедрению.

Недавнее исследование Кембриджского университета показало, что модель GPT-4 от OpenAI демонстрирует выдающиеся результаты в офтальмологических оценках, приближаясь к компетентности экспертов. Это открытие привлекло значительное внимание как медицинского, так и технического сообщества.

Статья, опубликованная в журнале PLOS Digital Health, оценивала GPT-4, его предшественника GPT-3.5, а также модели PaLM 2 от Google и LLaMA от Meta, используя всеобъемлющий тест офтальмологических знаний. В тесте содержалось 87 вопросов с множественным выбором, охватывающих такие темы, как фотобоязнь и различные поражения, с уровнем сложности, характерным для учебников по офтальмологии. Тест также прошли пять экспертов в офтальмологии, три ординатора и два некомпетентных врача. Следует отметить, что эти вопросы были совершенно новыми для моделей большого языка (LLM).

Результаты впечатляют: GPT-4 правильно ответил на 60 вопросов, обойдя как ординаторов, так и младших врачей. Несмотря на то, что он немного уступил среднему баллу в 66,4, достигнутому экспертами, результаты подчеркивают его значительный потенциал в офтальмологических оценках. В противоположность этому, модели PaLM 2, GPT-3.5 и LLaMA набрали 49, 42 и 28 баллов соответственно, все они оказались ниже среднего результата младших врачей.

Хотя эти результаты иллюстрируют многообещающие применения LLM в здравоохранении, исследователи предостерегают от переоценки их надежности. Они отмечают, что ограниченное количество вопросов, особенно в определенных категориях, может исказить результаты. Кроме того, LLM иногда могут «галлюцинировать», генерируя нерелевантную или ошибочную информацию, что представляет серьезные риски в медицинском контексте. Например, неверный диагноз катаракты или рака может иметь тяжёлые последствия для пациентов.

Исследователи подчеркивают, что, несмотря на положительные результаты LLM в офтальмологических оценках, необходима осторожность при их реальном применении. Будущие усилия должны быть направлены на повышение точности и надежности этих моделей, чтобы гарантировать их безопасное и эффективное использование в медицине.

Это исследование предлагает новый взгляд на роль LLM в здравоохранении, подчеркивая важность осознания их рисков и ограничений по мере продвижения технологий. С учетом продолжающегося развития технологий LLM, мы с нетерпением ждем дальнейших достижений, которые могут положительно повлиять на медицинский сектор.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles