كشف استقصاء بسيط بشكل مدهش أن أداء الذكاء الاصطناعي في تشخيص الصور الطبية 'أسوأ من العشوائية'

Home أخبار الذكاء الاصطناعي كشف استقصاء بسيط بشكل مدهش أن أداء الذكاء الاصطناعي في تشخيص الصور الطبية 'أسوأ من العشوائية'

Updated on يونيو 11 2024

تقوم النماذج اللغوية الكبيرة (LLMs) والنماذج متعددة الوسائط (LMMs) بدخول مجالات الطب، ولكن لم يتم اختبار هذه التقنيات بشكل كافٍ في هذه المجالات الحرجة. ما مدى موثوقية هذه النماذج في السيناريوهات عالية المخاطر؟ تشير الأبحاث الحالية من جامعة كاليفورنيا في سانتا كروز وجامعة كارنيجي ميلون إلى أن "الثقة بها ليست كبيرة".

في تجربة حديثة، قام الباحثون بتقييم موثوقية LMMs في تشخيص الأمراض من خلال استكشاف أسئلة تشخيصية عامة وخاصة. قاموا بإعداد مجموعة بيانات جديدة وفحصوا أداء النماذج المتطورة على الأشعة السينية، والتصوير بالرنين المغناطيسي، والأشعة المقطعية لبطون، وأدمغة، وعمود فقرات، وصدر البشر. وكشفت النتائج عن انخفاض "مثير للقلق" في الدقة.

حتى النماذج المتقدمة مثل GPT-4V وGemini Pro أدت بنفس مستوى التخمينات العشوائية عند محاولة تحديد الحالات الطبية. أدى إدخال أزواج معاكسة - تعديلات طفيفة على المدخلات - إلى خفض الدقة بشكل أكبر، مع انخفاض متوسط قدره 42% عبر النماذج التي تم اختبارها. وذكر شين إريك وانغ، أستاذ بجامعة UCSC ومؤلف الدراسة: "هل يمكننا فعلاً الوثوق بالذكاء الاصطناعي في مجالات حيوية مثل تشخيص الصور الطبية؟ لا، فهي أسوأ من العشوائية".

انخفاض حاد في الدقة مع مجموعة بيانات ProBMed الجديدة

يتم تقييم قدرة النماذج على تفسير الصور الطبية من خلال تقنية الاستجابة للأسئلة التصويرية الطبية (Med-VQA). وعلى الرغم من أن LMMs أظهرت بعض التقدم في مجموعات بيانات مثل VQA-RAD (أسئلة وأجوبة بصرية كمية عن الأشعة)، فإنها تفشل عند البحث بشكل أعمق، وفقًا للباحثين.

لإجراء مزيد من التحقيق، طوروا مجموعة بيانات تقييم المواد الطبية (ProbMed)، التي تتكون من 6303 صورة من مجموعتين بارزتين في الطب الحيوي تحتويان على مسحات مختلفة. استخدم الباحثون GPT-4 لاستخراج بيانات وصفية عن الشذوذات الموجودة، مما أسفر عن إنشاء 57132 زوجاً من الأسئلة والأجوبة التي تشمل التعرف على الأعضاء، والنتائج السريرية، والتفكير في المواقع.

شملت الدراسة سبعة نماذج رائدة، بما في ذلك GPT-4V وGemini Pro، التي خضعت لتقييم دقيق. تم زوج الأسئلة التشخيصية الثنائية الأصلية مع استفسارات معارضة لاختبار قدرة النماذج على تحديد الحالات الطبية الحقيقية بشكل دقيق مع تجاهل المزعومة. كما طلب من النماذج إجراء تشخيصات إجرائية، مما يتطلب نهجًا شاملاً يربط بين مختلف جوانب الصور.

كانت النتائج مثيرة للدهشة: حتى أقوى النماذج شهدت انخفاضًا في الدقة لا يقل عن 10.52% في مجموعة بيانات ProbMed، مع انخفاض متوسط يبلغ 44.7%. على سبيل المثال، شهد نموذج LLaVA-v1-7B انخفاضًا مذهلاً قدره 78.89% إلى دقة 16.5% فقط، بينما شهدت نماذج Gemini Pro وGPT-4V انخفاضات تجاوزت 25% و10.5% على التوالي. وعلق الباحثون قائلين: "تظهر دراستنا ضعفًا كبيرًا في LMMs عند مواجهة أسئلة معاكسة".

الأخطاء في تشخيص GPT وGemini Pro

من الجدير بالذكر أنه بينما تألقت نماذج GPT-4V وGemini Pro في المهام العامة مثل التعرف على أنواع الصور (CT، MRI، أو الأشعة السينية) والأعضاء، فإنها واجهت صعوبة في الأسئلة التشخيصية المتخصصة. كانت دقتها تشبه التخمين العشوائي، مما يُظهر نقصًا مقلقًا في مساعدة التشخيصات في الحياة الواقعية.

عند فحص الأخطاء في GPT-4V وGemini Pro، تحديدًا خلال عملية التشخيص، حدد الباحثون تعرضها للأخطاء الوهمية. كانت Gemini Pro تميل إلى قبول حالات غير صحيحة، بينما كانت GPT-4V غالبًا ما ترفض الاستفسارات الصعبة. على سبيل المثال، كانت دقة GPT-4V في الأسئلة المتعلقة بالحالة 36.9% فقط، بينما كانت Gemini Pro دقيقة فقط 26% في الأسئلة المتعلقة بالموقع، مع 76.68% من الأخطاء ناتجة عن وهميات.

بالمقابل، أثبتت نماذج متخصصة مثل CheXagent، المدربة بشكل حصري على الأشعة السينية للصدر، أنها الأكثر دقة في التعرف على الحالات لكنها فشلت في المهام العامة مثل التعرف على الأعضاء. بشكل ملحوظ، أظهرت CheXagent قدرة نقل الخبرة من خلال التعرف بدقة على الحالات في الأشعة المقطعية للصدر والتصوير بالرنين المغناطيسي، مما يدل على إمكانية التطبيق عبر الأنماط في السيناريوهات الواقعية.

"تؤكد هذه الدراسة على الحاجة الملحة إلى تقييمات أكثر صلابة لضمان موثوقية LMMs في مجالات حيوية مثل التشخيص الطبي"، أكد الباحثون. تبرز نتائجهم الفجوة الكبيرة بين القدرات الحالية لـ LMMs والمتطلبات الحقيقية للتطبيقات الطبية.

تفاؤل حذر في تطبيقات الذكاء الاصطناعي الطبية

يعبر خبراء في المجتمعين الطبي والبحثي عن مخاوف بشأن جاهزية الذكاء الاصطناعي للتشخيص الطبي. قالت الدكتورة هايدي خلاف، مديرة الهندسة في Trail of Bits: "يسعدني رؤية الدراسات الخاصة بالمجالات تؤكد أن LLMs والذكاء الاصطناعي لا ينبغي نشرها في البنية التحتية الحساسة للسلامة، وهي اتجاه مقلق حديث في الولايات المتحدة". وأضافت: "تحتاج هذه الأنظمة إلى دقة لا تقل عن 99%، وLLMs أسوأ من العشوائية. هذا بالضبط يهدد الحياة".

تتردد هذه المشاعر بين آخرين يشددون على ضرورة وجود خبرة في المجال تفتقر إليها نماذج الذكاء الاصطناعي الحالية. تظل المخاوف المتعلقة بجودة البيانات قائمة، مع ملاحظات تفيد بأن الشركات غالبًا ما تعطي الأولوية للتكلفة على الاستثمار في الخبراء في المجالات.

في الختام، تؤكد نتائج أبحاث UCSC وجامعة كارنيجي ميلون على الحاجة الملحة لتحسين منهجيات التقييم لضمان موثوقية وفعالية LLMs في التشخيص الطبي.

رئيس شركة Appian التنفيذي مات كالكينز يدعو صناعة الذكاء الاصطناعي إلى إعطاء الأولوية للثقة واحتضان عصر جديد من التنمية المسؤولة.

قانون كاليفورنيا المقترح لتنظيم نماذج الذكاء الاصطناعي القوية قد يعيق نمو الصناعة الناشئة في الولاية

Most people like

Sensei AI

30.3K

في سوق العمل التنافسي اليوم، يعتبر التميز في المقابلات أمراً حيوياً للحصول على الوظيفة التي تحلم بها. تعرف على مساعد المقابلات المدعوم بالذكاء الاصطناعي—أداة ثورية مصممة لتعزيز مهاراتك في المقابلات وزيادة ثقتك بنفسك. من خلال التدريب المخصص، والتعليقات الفورية، وأسئلة التدريب المصممة حسب احتياجاتك، تساعدك هذه الحلول المبتكرة على الأداء بأفضل ما لديك. اكتشف كيف يمكن لهذه التقنية تحويل استعدادك للمقابلات وتمهيد الطريق نحو النجاح المهني.

مقابلة AI Interview Assistant

Leetcode Wizard

14.3K

اكتشف تطبيقًا مكتبيًا قويًا مصممًا لمعالجة تحديات البرمجة على Leetcode بسهولة. يوفر برنامجنا المبتكر حلولًا ورؤى مخصصة، مما يساعدك على تحسين مهاراتك في البرمجة وزيادة ثقتك بنفسك في مجال البرمجة.

ليت كود AI Interview Assistant

StarVoice

8.6K

مقدمة مولد أصوات المشاهير بالذكاء الاصطناعي: أطلق العنان للمتعة والمزاح! حوّل محادثاتك ورفع مستوى أسلوبك في المزاح مع مولد أصوات المشاهير بالذكاء الاصطناعي. أضف لحظات مضحكة ومفاجآت من خلال محاكاة أصوات مشاهيرك المفضلين بكل سهولة. سواء كنت تريد إضفاء الضحك على صديق أو ابتكار مقالب لا تُنسى، فإن أداتنا السهلة الاستخدام تتيح لك الاستمتاع بتقليد المشاهير كما لم يحدث من قبل!

مولد الصوت بالذكاء الاصطناعي AI Response Generator

Bearly

41.5K

Bearly هو أداة ذكاء اصطناعي مبتكرة يمكن الوصول إليها بسهولة من خلال مفتاح اختصار، مما يساهم بشكل كبير في تبسيط سير العمل بفضل ميزاته المتقدمة.

الذكاء الاصطناعي AI Content Generator

Find AI tools in YBX