تقوم النماذج اللغوية الكبيرة (LLMs) والنماذج متعددة الوسائط (LMMs) بدخول مجالات الطب، ولكن لم يتم اختبار هذه التقنيات بشكل كافٍ في هذه المجالات الحرجة. ما مدى موثوقية هذه النماذج في السيناريوهات عالية المخاطر؟ تشير الأبحاث الحالية من جامعة كاليفورنيا في سانتا كروز وجامعة كارنيجي ميلون إلى أن "الثقة بها ليست كبيرة".
في تجربة حديثة، قام الباحثون بتقييم موثوقية LMMs في تشخيص الأمراض من خلال استكشاف أسئلة تشخيصية عامة وخاصة. قاموا بإعداد مجموعة بيانات جديدة وفحصوا أداء النماذج المتطورة على الأشعة السينية، والتصوير بالرنين المغناطيسي، والأشعة المقطعية لبطون، وأدمغة، وعمود فقرات، وصدر البشر. وكشفت النتائج عن انخفاض "مثير للقلق" في الدقة.
حتى النماذج المتقدمة مثل GPT-4V وGemini Pro أدت بنفس مستوى التخمينات العشوائية عند محاولة تحديد الحالات الطبية. أدى إدخال أزواج معاكسة - تعديلات طفيفة على المدخلات - إلى خفض الدقة بشكل أكبر، مع انخفاض متوسط قدره 42% عبر النماذج التي تم اختبارها. وذكر شين إريك وانغ، أستاذ بجامعة UCSC ومؤلف الدراسة: "هل يمكننا فعلاً الوثوق بالذكاء الاصطناعي في مجالات حيوية مثل تشخيص الصور الطبية؟ لا، فهي أسوأ من العشوائية".
انخفاض حاد في الدقة مع مجموعة بيانات ProBMed الجديدة
يتم تقييم قدرة النماذج على تفسير الصور الطبية من خلال تقنية الاستجابة للأسئلة التصويرية الطبية (Med-VQA). وعلى الرغم من أن LMMs أظهرت بعض التقدم في مجموعات بيانات مثل VQA-RAD (أسئلة وأجوبة بصرية كمية عن الأشعة)، فإنها تفشل عند البحث بشكل أعمق، وفقًا للباحثين.
لإجراء مزيد من التحقيق، طوروا مجموعة بيانات تقييم المواد الطبية (ProbMed)، التي تتكون من 6303 صورة من مجموعتين بارزتين في الطب الحيوي تحتويان على مسحات مختلفة. استخدم الباحثون GPT-4 لاستخراج بيانات وصفية عن الشذوذات الموجودة، مما أسفر عن إنشاء 57132 زوجاً من الأسئلة والأجوبة التي تشمل التعرف على الأعضاء، والنتائج السريرية، والتفكير في المواقع.
شملت الدراسة سبعة نماذج رائدة، بما في ذلك GPT-4V وGemini Pro، التي خضعت لتقييم دقيق. تم زوج الأسئلة التشخيصية الثنائية الأصلية مع استفسارات معارضة لاختبار قدرة النماذج على تحديد الحالات الطبية الحقيقية بشكل دقيق مع تجاهل المزعومة. كما طلب من النماذج إجراء تشخيصات إجرائية، مما يتطلب نهجًا شاملاً يربط بين مختلف جوانب الصور.
كانت النتائج مثيرة للدهشة: حتى أقوى النماذج شهدت انخفاضًا في الدقة لا يقل عن 10.52% في مجموعة بيانات ProbMed، مع انخفاض متوسط يبلغ 44.7%. على سبيل المثال، شهد نموذج LLaVA-v1-7B انخفاضًا مذهلاً قدره 78.89% إلى دقة 16.5% فقط، بينما شهدت نماذج Gemini Pro وGPT-4V انخفاضات تجاوزت 25% و10.5% على التوالي. وعلق الباحثون قائلين: "تظهر دراستنا ضعفًا كبيرًا في LMMs عند مواجهة أسئلة معاكسة".
الأخطاء في تشخيص GPT وGemini Pro
من الجدير بالذكر أنه بينما تألقت نماذج GPT-4V وGemini Pro في المهام العامة مثل التعرف على أنواع الصور (CT، MRI، أو الأشعة السينية) والأعضاء، فإنها واجهت صعوبة في الأسئلة التشخيصية المتخصصة. كانت دقتها تشبه التخمين العشوائي، مما يُظهر نقصًا مقلقًا في مساعدة التشخيصات في الحياة الواقعية.
عند فحص الأخطاء في GPT-4V وGemini Pro، تحديدًا خلال عملية التشخيص، حدد الباحثون تعرضها للأخطاء الوهمية. كانت Gemini Pro تميل إلى قبول حالات غير صحيحة، بينما كانت GPT-4V غالبًا ما ترفض الاستفسارات الصعبة. على سبيل المثال، كانت دقة GPT-4V في الأسئلة المتعلقة بالحالة 36.9% فقط، بينما كانت Gemini Pro دقيقة فقط 26% في الأسئلة المتعلقة بالموقع، مع 76.68% من الأخطاء ناتجة عن وهميات.
بالمقابل، أثبتت نماذج متخصصة مثل CheXagent، المدربة بشكل حصري على الأشعة السينية للصدر، أنها الأكثر دقة في التعرف على الحالات لكنها فشلت في المهام العامة مثل التعرف على الأعضاء. بشكل ملحوظ، أظهرت CheXagent قدرة نقل الخبرة من خلال التعرف بدقة على الحالات في الأشعة المقطعية للصدر والتصوير بالرنين المغناطيسي، مما يدل على إمكانية التطبيق عبر الأنماط في السيناريوهات الواقعية.
"تؤكد هذه الدراسة على الحاجة الملحة إلى تقييمات أكثر صلابة لضمان موثوقية LMMs في مجالات حيوية مثل التشخيص الطبي"، أكد الباحثون. تبرز نتائجهم الفجوة الكبيرة بين القدرات الحالية لـ LMMs والمتطلبات الحقيقية للتطبيقات الطبية.
تفاؤل حذر في تطبيقات الذكاء الاصطناعي الطبية
يعبر خبراء في المجتمعين الطبي والبحثي عن مخاوف بشأن جاهزية الذكاء الاصطناعي للتشخيص الطبي. قالت الدكتورة هايدي خلاف، مديرة الهندسة في Trail of Bits: "يسعدني رؤية الدراسات الخاصة بالمجالات تؤكد أن LLMs والذكاء الاصطناعي لا ينبغي نشرها في البنية التحتية الحساسة للسلامة، وهي اتجاه مقلق حديث في الولايات المتحدة". وأضافت: "تحتاج هذه الأنظمة إلى دقة لا تقل عن 99%، وLLMs أسوأ من العشوائية. هذا بالضبط يهدد الحياة".
تتردد هذه المشاعر بين آخرين يشددون على ضرورة وجود خبرة في المجال تفتقر إليها نماذج الذكاء الاصطناعي الحالية. تظل المخاوف المتعلقة بجودة البيانات قائمة، مع ملاحظات تفيد بأن الشركات غالبًا ما تعطي الأولوية للتكلفة على الاستثمار في الخبراء في المجالات.
في الختام، تؤكد نتائج أبحاث UCSC وجامعة كارنيجي ميلون على الحاجة الملحة لتحسين منهجيات التقييم لضمان موثوقية وفعالية LLMs في التشخيص الطبي.