يزداد استخدام الذكاء الاصطناعي في الشركات التي تركز على المستهلكين، مصحوبًا بمخاوف متزايدة بشأن إدارة هذا التكنولوجيا على المدى الطويل. وقد أكدت الإدارة الأمريكية الحالية، من خلال أمر تنفيذي جديد، على ضرورة وضع بروتوكولات فعالة لتطوير وتطبيق أنظمة الذكاء الاصطناعي المتقدمة.
اليوم، يركز مزودو الذكاء الاصطناعي والمنظمون على الشفافية كجزء أساسي من حوكمة الذكاء الاصطناعي. يسمح هذا التركيز للأفراد المتأثرين بأنظمة الذكاء الاصطناعي بفهم النتائج التي تنتجها هذه التكنولوجيا وتحديها، بما في ذلك التحيزات المحتملة.
بينما يمكن شرح الخوارزميات البسيطة، مثل تلك المستخدمة في الموافقات على قروض السيارات، بسهولة، تتضمن تقنيات الذكاء الاصطناعي الأحدث خوارزميات معقدة قد يصعب تفسيرها ومع ذلك تقدم مزايا كبيرة. على سبيل المثال، ينتج نموذج GPT-4 من OpenAI محادثات شبيهة بالبشر بفضل مجموعته الواسعة من البيانات ومليارات المعلمات، مما يحول العديد من الصناعات. وبالمثل، تستفيد نماذج Google DeepMind للفحص السرطاني من التعلم العميق لتقديم تشخيص دقيق يمكن أن ينقذ الأرواح.
يمكن أن تؤدي هذه النماذج المعقدة إلى إخفاء عمليات اتخاذ القرار، مما يثير سؤالًا حيويًا: هل ينبغي علينا التخلي عن هذه التقنيات جزئيًا القابل للتفسير ولكن المفيدة لتجنب حالات عدم اليقين؟ حتى المشرعون الأمريكيون الذين يسعون إلى تنظيم الذكاء الاصطناعي يعرفون تعقيدات الشفافية، مما يبرز الحاجة إلى نهج يركز على النتائج بدلاً من الاعتماد فقط على الشفافية.
إن معالجة عدم اليقين بشأن التقنيات الناشئة ليس أمرًا جديدًا. لقد أدركت المجتمعات الطبية منذ زمن طويل أن تحديد الأضرار المحتملة أمر بالغ الأهمية عند تطوير العلاجات الجديدة. وقد أدى هذا الفهم إلى إنشاء التجارب العشوائية المحكومة (RCTs) لتقييم المخاطر.
في التجارب العشوائية، يتم تقسيم المشاركين إلى مجموعتين: مجموعة العلاج ومجموعة التحكم، حيث تتلقى مجموعة العلاج التدخل الطبي بينما لا تحصل مجموعة التحكم على أي شيء. مقارنة النتائج بين هاتين المجموعتين القابلة للمقارنة تمكن الباحثين من تحديد العلاقة السببية وتقييم فعالية العلاج.
تاريخياً، استخدم الباحثون في الطب تصاميم اختبار مستقرة لتقييم الأمان والفعالية على المدى الطويل. ومع ذلك، في مجال الذكاء الاصطناعي، حيث تتعلم الأنظمة باستمرار، يمكن أن تظهر فوائد ومخاطر جديدة مع كل إعادة تدريب ونشر. ولذلك، قد لا تكون التجارب العشوائية التقليدية كافية لتقييم مخاطر الذكاء الاصطناعي. قد توفر أطر بديلة، مثل اختبار A/B، رؤى قيمة حول نتائج أنظمة الذكاء الاصطناعي على مر الزمن.
تم استخدام اختبار A/B بصورة واسعة في تطوير المنتجات على مدار الخمسة عشر عامًا الماضية. تتضمن هذه الطريقة معالجة مجموعات مستخدمين بصورة مختلفة لتقييم تأثير ميزات متنوعة، مثل الأزرار التي تتلقى أكبر عدد من النقرات على صفحة ويب. قام روني كوهافي، رئيس التجربة السابق في Bing، بتقديم مفهوم التجربة المستمرة عبر الإنترنت، حيث يتم تخصيص المستخدمين عشوائيًا بين النسخة الحالية من الموقع أو نسخة جديدة. هذا الرصد الدقيق يساعد الشركات على تحسين المنتجات بشكل تدريجي مع فهم فوائد هذه التغييرات بالنسبة للمقاييس الأساسية.
أنشأت العديد من شركات التكنولوجيا، بما في ذلك Bing وUber وAirbnb، أنظمة لاختبار التغييرات التقنية بشكل مستمر. يمكّن هذا الإطار الشركات من تقييم ليس فقط مقاييس الأعمال مثل معدلات النقر والإيرادات، ولكن أيضًا تحديد الأضرار المحتملة، مثل التمييز.
قد يبدو قياس سلامة الذكاء الاصطناعي على النحو التالي: قد تكون لدى بنك كبير مخاوف من أن خوارزمية التسعير الجديدة لقروض الأفراد تميز ضد النساء بشكل غير عادل. على الرغم من أن النموذج لا يستخدم الجنس بشكل صريح، إلا أن البنك يشتبه في أن مؤشرات غير مباشرة قد تؤثر بشكل غير متعمد على النتائج. لاختبار ذلك، يمكن للبنك إنشاء تجربة حيث تستخدم مجموعة العلاج الخوارزمية الجديدة، بينما تتلقى مجموعة التحكم قرارات من نموذج قديم.
من خلال ضمان توزيع الخصائص الديموغرافية، مثل الجنس، بالتساوي بين المجموعتين، يمكن للبنك قياس أي تأثيرات متباينة وتقييم عدالة الخوارزمية. علاوة على ذلك، يمكن التحكم في تعرض الذكاء الاصطناعي من خلال تقديم ميزات جديدة بشكل تدريجي، مما يسمح بإدارة المخاطر بشكل محسوب.
بدلاً من ذلك، تستخدم منظمات مثل Microsoft تقنية "الاختبار الأحمر"، حيث يتحدى الموظفون نظام الذكاء الاصطناعي بشكل عدائي لتحديد المخاطر المهمة قبل النشر الأوسع.
في النهاية، يعزز قياس سلامة الذكاء الاصطناعي من المساءلة. على عكس الشفافية الذاتية، يوفر تقييم مخرجات نظام الذكاء الاصطناعي عبر مجموعات سكانية متنوعة إطارًا قابلاً للقياس لتقييم الأضرار المحتملة. تؤسس هذه العملية المسؤولية، مما يمكّن مزودي الذكاء الاصطناعي من ضمان عمل أنظمتهم بكفاءة وأخلاقية.
بينما تبقى الشفافية نقطة تركيز لمزودي الذكاء الاصطناعي والمنظمين، يمكن أن تساعد تبني مناهج من مجال الرعاية الصحية في تحقيق الهدف العام المتمثل في أنظمة ذكاء اصطناعي آمنة وفعالة، تعمل كما هو مقصود.