Un estudio reciente de la Escuela Clínica de la Universidad de Cambridge ha demostrado que el modelo GPT-4 de OpenAI tiene un rendimiento notable en evaluaciones oftalmológicas, acercándose a la competencia de médicos expertos. Este hallazgo innovador ha atraído la atención tanto de las comunidades médica como tecnológica.
Publicado en la revista PLOS Digital Health, el estudio evaluó GPT-4, su predecesor GPT-3.5, PaLM 2 de Google, y LLaMA de Meta mediante un exhaustivo test de conocimiento oftalmológico. La evaluación incluyó 87 preguntas de selección múltiple sobre temas como la fotofobia y diversas lesiones, con un nivel de dificultad típico de los libros de texto de oftalmología. También se sometieron a la misma prueba cinco expertos en oftalmología, tres médicos residentes y dos médicos jóvenes no especialistas. Es importante destacar que estas preguntas eran completamente nuevas para los modelos de lenguaje grandes (LLMs).
Los resultados fueron impresionantes: GPT-4 respondió correctamente a 60 preguntas, superando a los médicos residentes y jóvenes. Aunque su puntaje fue ligeramente inferior al promedio de 66.4 conseguido por los expertos oftalmólogos, los resultados destacan su notable potencial en evaluaciones oftalmológicas. En contraste, PaLM 2, GPT-3.5 y LLaMA obtuvieron 49, 42 y 28 puntos respectivamente, todos por debajo del promedio de los médicos jóvenes.
Si bien estos hallazgos ilustran las aplicaciones prometedoras de los LLMs en la atención sanitaria, los investigadores advierten contra una sobreestimación de su fiabilidad. Señalan que el número limitado de preguntas, especialmente en ciertas categorías, podría sesgar los resultados. Además, los LLMs pueden generar "alucinaciones", produciendo información irrelevante o errónea, lo que representa serios riesgos en contextos médicos. Por ejemplo, un diagnóstico erróneo de cataratas o cáncer podría tener graves consecuencias para los pacientes.
Los investigadores subrayan que, a pesar de los resultados iniciales positivos de los LLMs en evaluaciones oftalmológicas, es fundamental ejercer cautela en las aplicaciones del mundo real. Los esfuerzos futuros deberían centrarse en mejorar la precisión y fiabilidad de estos modelos para garantizar que puedan servir al campo médico de manera segura y efectiva.
Este estudio ofrece una nueva perspectiva sobre el papel de los LLMs en la atención médica, mientras enfatiza la importancia de ser consciente de sus riesgos y limitaciones a medida que avanzamos en la tecnología. A medida que la tecnología LLM continúa evolucionando, esperamos ver más desarrollos sobre cómo puede impactar positivamente en el sector médico.