釋放GPT-4:眼科評估中的驚人表現及專家建議的謹慎實施

劍橋大學臨床學院最近的一項研究顯示,OpenAI的GPT-4模型在眼科評估方面表現驚人,接近專業醫生的水準。這一突破性發現已引起醫療和科技界的廣泛關注。

該研究發表在《PLOS Digital Health》期刊,評估了GPT-4及其前身GPT-3.5、Google的PaLM 2和Meta的LLaMA,使用了一項全面的眼科知識測試。測試包含87道多選題,涵蓋了光敏感和各種病變等主題,難度與眼科教科書相當。五位眼科專家、三位住院醫生和兩位非專業的初級醫生也參加了相同的測試。值得注意的是,這些問題對這些大型語言模型(LLMs)而言都是全新的。

結果令人印象深刻:GPT-4正確回答了60道問題,超越了住院醫生和初級醫生。雖然其分數稍低於眼科專家的平均分66.4,但這突顯了其在眼科評估中的潛力。相比之下,PaLM 2、GPT-3.5和LLaMA的得分分別為49、42和28,都未達到初級醫生的平均水平。

雖然這些結果展示了LLMs在醫療保健中的應用潛力,但研究人員對其可靠性表示警惕。他們指出,特定類別問題數量有限可能會影響結果。此外,LLMs有時會產生「幻覺」,即生成無關或錯誤的信息,這在醫療環境中可能造成嚴重風險。例如,對白內障或癌症的誤診可能對患者造成危害。

研究人員強調,儘管LLMs在眼科評估中的初步成果令人鼓舞,但在實際應用中仍需謹慎。未來的努力應著重於提高這些模型的準確性和可靠性,以確保其能安全有效地服務於醫療領域。

這項研究為LLMs在醫療保健中的角色提供了新視角,同時強調在追求科技進步過程中必須意識到其風險和局限性。隨著LLMs技術的持續演進,我們期待其在醫療領域帶來更多積極的影響。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles