تقنية مبتكرة تظهر كيف يمكن لنموذج لغوي كبير واحد تجاوز نموذج آخر بنجاح

طرحت جامعة بنسلفانيا خوارزمية جديدة تُعرف باسم تحسين التكرار التلقائي السريع (PAIR)، تهدف إلى سد الثغرات الأمنية في نماذج اللغة الكبيرة (LLMs).

ما هي وظيفة PAIR؟

تقوم PAIR بتحديد "تنبيهات الهروب" التي يمكن أن تخدع نماذج LLM، مما يمكّنها من تجاوز وسائل الحماية المصممة لمنع إنشاء محتوى ضار. تتميز هذه الخوارزمية بفاعليتها في التفاعل مع النماذج غير الشفافة مثل ChatGPT، حيث تنتج تنبيهات الهروب بمعدل أقل من المحاولات. كما أن التنبيهات التي تنتجها PAIR قابلة للتفسير وقابلة للنقل عبر نماذج LLM مختلفة، مما يجعلها أداة قيمة للمؤسسات التي تسعى إلى تحديد ومعالجة الثغرات بسرعة وبتكلفة فعّالة.

أنواع عمليات الهروب

تسقط عمليات الهروب عمومًا ضمن فئتين: هروب على مستوى التنبيه وهروب على مستوى الرموز.

- تهربات مستوى التنبيه تستخدم الخداع المعنوي والهندسة الاجتماعية للتلاعب بمخرجات LLM. ورغم أنها قابلة للتفسير، فإن تصميمها غالبًا ما يحتاج لجهد بشري كبير، مما يحد من قدرتها على التوسع.

- تهربات مستوى الرموز تعدل المخرجات من خلال إضافة رموز عشوائية لتحسين التنبيهات. يمكن أتمتة هذه العملية، لكنها عادةً ما تتطلب استفسارات مكثفة، مما يؤدي إلى مخرجات أقل تفسيرًا بسبب التعقيدات المضافة.

تسعى PAIR إلى دمج قابلية تفسير الهروب على مستوى التنبيه مع كفاءة الأتمتة لتقنيات مستوى الرموز.

منهجية PAIR

تعمل PAIR مع نماذج LLM غير الشفافة، وهي نموذج المهاجم والنموذج المستهدف. يبحث المهاجم عن تنبيهات يمكن أن تجعل النموذج المستهدف يهرب من دون الحاجة لتدخل بشري. يوضح الباحثون أن كلا النموذجين يمكنهما التعاون بشكل إبداعي لتحديد تنبيهات هروب فعّالة.

من المهم أن تعمل PAIR دون الحاجة للوصول المباشر إلى أوزان أو تدرجات النماذج. تستخدم نماذج الوصول عبر واجهات برمجة التطبيقات، بما في ذلك ChatGPT من OpenAI وPaLM 2 من Google وClaude 2 من Anthropic.

تجري العملية في أربع خطوات:

1. يتلقى نموذج المهاجم التعليمات وينشئ تنبيهًا كمرشح لمهمة معينة، مثل صياغة بريد إلكتروني مزيف.

2. يُرسل هذا التنبيه إلى النموذج المستهدف لتوليد رد.

3. تقوم وظيفة "القاضي"، مثل GPT-4، بتقييم مدى ملاءمة الرد مقابل التنبيه.

4. إذا كان الرد غير مُرضٍ، يتم تقديم ملاحظات للمهاجم، مما يدفعه لمحاولة جديدة.

تستمر هذه الحلقة حتى يتم اكتشاف هروب ناجح أو الوصول إلى الحد الأقصى من المحاولات، مع القدرة على معالجة تنبيهات مرشحة متعددة في الوقت نفسه لزيادة الكفاءة.

النتائج والفعالية

في التجارب، استخدم الباحثون نموذج Vicuna مفتوح المصدر كالمهاجم ضد أهداف مختلفة، بما فيها ChatGPT وGPT-4 وClaude 2. أظهرت النتائج أن PAIR نجحت في تنفيذ عمليات الهروب من GPT-3.5 وGPT-4 في 60% من الحالات وتحقيق نجاح كامل مع Vicuna-13B-v1.5. ومع ذلك، أظهرت نماذج Claude مرونة عالية، مقاومةً لمحاولات الهروب.

تتمثل إحدى المزايا البارزة لـ PAIR في كفاءتها، حيث تحقق عمليات هروب ناجحة في أقل من عشرين استفسارًا بمتوسط زمن تشغيل يبلغ حوالي خمس دقائق. هذا يمثل تحسنًا كبيرًا مقارنة بالطرق التقليدية، التي يمكن أن تتطلب آلاف الاستفسارات واستثمارًا زمنيًا كبيرًا.

علاوة على ذلك، يعزز التصميم القابل للتفسير لهجمات PAIR قابليتها للنقل إلى نماذج أخرى من LLM. على سبيل المثال، تم نقل التنبيهات المولدة لـ Vicuna بنجاح إلى نماذج أخرى، مما يبرز ضعفها المشترك بسبب عمليات التدريب المماثلة.

الاتجاهات المستقبلية

في المستقبل، يقترح الباحثون تحسين PAIR لإنشاء مجموعات بيانات منهجية للاختبار الأحمر، مما يسمح للمؤسسات بتحسين نماذج المهاجمين لزيادة السرعة والكفاءة في حماية أنظمة LLM لديها.

تحسين أداء LLM

تعتبر PAIR جزءًا من اتجاه أوسع يستفيد من LLM كأدوات لتحسين الأداء. تقليديًا، كان على المستخدمين تحسين التنبيهات يدويًا للحصول على نتائج مثالية. ومع ذلك، من خلال إعادة صياغة عملية التنبيه إلى تحدٍ منظم، يمكن للخوارزميات تسهيل تحسين مستمر لمخرجات النموذج.

مؤخراً، قدمت DeepMind نهجًا مشابهًا يُدعى تحسين من خلال التنبيه (OPRO)، والذي يستخدم LLM لتحسين حل المشكلات عبر التعليمات باللغة الطبيعية. مع تطور نماذج اللغة لتحسين مخرجاتها بشكل أكثر فعالية، قد تتسارع التقدمات في مجال LLM، مما يمهد الطريق لاكتشافات مهمة.

Most people like

Find AI tools in YBX