释放GPT-4:眼科评估中的卓越表现与谨慎实施的专家建议

一项近期的研究来自剑桥大学临床学院,显示OpenAI的GPT-4模型在眼科评估中表现出色,接近专家医生的水平。这一突破性发现引起了医学和科技界的广泛关注。

这项研究发表在《PLOS数字健康》期刊上,评估了GPT-4及其前身GPT-3.5、谷歌的PaLM 2和Meta的LLaMA,通过一项全面的眼科知识测试进行比较。该测试包含87道多项选择题,涵盖了如光敏感和各种病变等主题,难度与眼科学教材相当。五名眼科专家、三名住院医师和两名非专业初级医生也参加了相同的测试。这些问题对于大型语言模型(LLMs)而言是全新的。

结果显示,GPT-4正确回答了60道题,超过了住院医生和初级医生的表现。尽管其分数略低于眼科专家的平均66.4分,但这一结果突显了其在眼科评估中的重大潜力。相比之下,PaLM 2、GPT-3.5和LLaMA的得分分别为49、42和28,都低于初级医生的平均水平。

尽管这些发现展示了LLMs在医疗领域的光明前景,研究人员也提醒大家不要过度高估它们的可靠性。他们指出,尤其在某些类别中,题目数量有限可能会影响结果。此外,LLMs有时会产生“幻觉”,生成无关或错误的信息,这在医疗环境中可能带来严重风险。例如,错误诊断白内障或癌症可能对患者造成严重后果。

研究人员强调,尽管LLMs在眼科评估中的初步结果积极,但在实际应用中必须保持谨慎。未来的努力应集中于提高这些模型的准确性和可靠性,以确保它们能安全有效地服务于医疗领域。

这项研究为LLMs在医疗服务中的作用提供了新视角,同时强调了在追求技术进步时必须关注其风险和局限性。随着LLM技术的不断发展,我们期待看到它在医疗 sector中的更多积极影响。

Most people like

Find AI tools in YBX