في عصر الذكاء الاصطناعي التوليدي، تعتبر ضمان سلامة نماذج اللغة الكبيرة (LLMs) أمرًا حاسمًا مثل أدائها في مختلف المهام. تدرك الفرق في جميع أنحاء العالم هذه الحاجة بشكل متزايد وتعمل على تحسين عمليات الاختبار والتقييم لتحديد وحل المشكلات التي قد تؤدي إلى تجارب مستخدم سيئة أو فقدان الفرص أو عقوبات تنظيمية.
مع التطور السريع للنماذج المتاحة مفتوحة المصدر والمغلقة، يصبح من الصعب تحديد أنسب LLM للاستخدام. تقدم شركة إنكريبت (Enkrypt) حلاً من خلال تصنيف سلامة نماذج اللغة الخاصة بها. تأسست هذه الشركة الناشئة في بوسطن، وتخصصت في توفير طبقة تحكم لنشر الذكاء الاصطناعي التوليدي بشكل آمن، وقامت بتصنيف LLMs بناءً على درجة تعرضها لمخاطر السلامة والموثوقية.
يغطي هذا التصنيف العديد من نماذج اللغة ذات الأداء العالي، بما في ذلك عائلتي GPT وClaude. يقدم رؤى قيمة حول عوامل المخاطر الضرورية لاختيار LLMs آمنة وموثوقة وتحسين تنفيذها.
فهم تصنيف سلامة نماذج اللغة من إنكريبت
عندما تقوم الشركات بنشر LLMs في تطبيقات مثل الدردشة الآلية، فإنها تجري اختبارات داخلية مستمرة لتحديد مخاطر السلامة مثل اختراقات النظام وإنتاج استجابات متحيزة. حتى الأخطاء الطفيفة يمكن أن تؤدي إلى مشكلات كبيرة، بما في ذلك تسريبات البيانات أو الاستجابات المنحازة، كما يتضح من حادثة دردشة جوجل جمني. هذه المخاطر قد تكون أكثر وضوحًا في القطاعات المنظمة مثل التكنولوجيا المالية والرعاية الصحية.
تأسست إنكريبت في عام 2023، وتعمل على معالجة هذه التحديات من خلال "سينتري" (Sentry)، وهو حل شامل يكشف عن الثغرات في تطبيقات الذكاء الاصطناعي التوليدي وينفذ حماية آلية لتخفيفها. يُعتبر تصنيف سلامة نماذج اللغة الخطوة التالية في هذه المبادرة، حيث يقدم رؤى تساعد الفرق على اختيار النموذج الأكثر أمانًا من البداية.
تم تطوير التصنيف من خلال اختبارات دقيقة عبر سيناريوهات متنوعة، ويقيّم ما يصل إلى 36 LLMs — مفتوحة ومغلقة المصدر — بناءً على معايير السلامة والأمان المختلفة. يتضمن تقييمًا لقدرة النموذج على تجنب إنتاج محتوى ضار أو متحيز أو غير مناسب، بالإضافة إلى قدرته على التصدي لهجمات البرمجيات الخبيثة أو إدراج التعليمات.
من هو الأكثر أمانًا؟
اعتبارًا من 8 مايو، تصدّر نموذج OpenAI GPT-4-Turbo تصنيف إنكريبت، حيث حصل على أدنى درجة مخاطر تبلغ 15.23. هذا النموذج يحمي بفاعلية ضد هجمات الاختراق ويُنَتِج محتوى سام بمعدل 0.86% فقط. ومع ذلك، يواجه مشكلات متعلقة بالتحيز والبرمجيات الخبيثة، حيث تتأثر النسبة 38.27% و21.78% من الوقت على التوالي.
تتبع نماذج Llama2 وLlama3 من ميتا تقريبًا بمعدلات خطر تتراوح بين 23.09 و35.69. ويحتل نموذج Claude 3 Haiku من Anthropic المرتبة العاشرة مع درجة خطر 34.83، حيث يُظهر أداءً جيدًا عبر الاختبارات لكنه ينتج استجابات متحيزة أكثر من 90% من الوقت.
في أسفل التصنيف، نجد نموذجَي Saul Instruct-V1 وPhi3-Mini-4K من مايكروسوفت، بدرجات خطر تبلغ 60.44 و54.16 على التوالي. كما حصل نموذج Mixtral 8X22B وSnowflake Arctic على تصنيفات منخفضة تبلغ 28 و27.
من الجدير بالذكر أن هذه القائمة قابلة للتغيير مع تحسين النماذج وظهور نماذج جديدة. تخطط إنكريبت لتحديث التصنيف بانتظام لتعكس هذه التطورات.
قال صاهي أغاروال، المؤسس المشارك لإنكريبت: “سيتم تحديث تصنيفنا في اليوم Zero بعد إطلاق نماذج جديدة، وأسبوعيًا لتحديثات النماذج. مع تقدم أبحاث سلامة الذكاء الاصطناعي وتطوير طرق جديدة، سيعرض التصنيف دائمًا أحدث النتائج. وهذا يضمن استمرارية صلاحيته وموثوقيته كمصدر للمعلومات.”
ينظر أغاروال إلى هذه القائمة القابلة للتطور كأداة قيمة للفرق في الشركات لاستكشاف نقاط القوة والضعف في نماذج LLMs الشائعة — سواء في تقليل التحيز أو منع إدراج التعليمات — واتخاذ قرارات مستنيرة بناءً على حالات الاستخدام الخاصة بهم.
وأضاف: “إن دمج تصنيفنا في استراتيجية الذكاء الاصطناعي يعزز القدرات التكنولوجية مع الحفاظ على المعايير الأخلاقية، مما يعزز الميزة التنافسية ويبني الثقة. يمكن لفريق المخاطر/السلامة/الحوكمة استخدام التصنيف لتحديد النماذج الآمنة للاستخدام من قبل فرق المنتجات والهندسة. حاليًا، ينقصهم المعلومات الشاملة عن السلامة، حيث يعتمدون فقط على مقاييس الأداء العامة. يوفر التصنيف، جنبًا إلى جنب مع تقارير تقييم الفرق الحمراء، توصيات سلامة ضرورية لنشر النماذج.”