تقنية مبتكرة تظهر كيف يمكن لنموذج لغوي كبير واحد تجاوز نموذج آخر بنجاح

Home أخبار الذكاء الاصطناعي تقنية مبتكرة تظهر كيف يمكن لنموذج لغوي كبير واحد تجاوز نموذج آخر بنجاح

Updated on نوفمبر 7 2023

طرحت جامعة بنسلفانيا خوارزمية جديدة تُعرف باسم تحسين التكرار التلقائي السريع (PAIR)، تهدف إلى سد الثغرات الأمنية في نماذج اللغة الكبيرة (LLMs).

ما هي وظيفة PAIR؟

تقوم PAIR بتحديد "تنبيهات الهروب" التي يمكن أن تخدع نماذج LLM، مما يمكّنها من تجاوز وسائل الحماية المصممة لمنع إنشاء محتوى ضار. تتميز هذه الخوارزمية بفاعليتها في التفاعل مع النماذج غير الشفافة مثل ChatGPT، حيث تنتج تنبيهات الهروب بمعدل أقل من المحاولات. كما أن التنبيهات التي تنتجها PAIR قابلة للتفسير وقابلة للنقل عبر نماذج LLM مختلفة، مما يجعلها أداة قيمة للمؤسسات التي تسعى إلى تحديد ومعالجة الثغرات بسرعة وبتكلفة فعّالة.

أنواع عمليات الهروب

تسقط عمليات الهروب عمومًا ضمن فئتين: هروب على مستوى التنبيه وهروب على مستوى الرموز.

- تهربات مستوى التنبيه تستخدم الخداع المعنوي والهندسة الاجتماعية للتلاعب بمخرجات LLM. ورغم أنها قابلة للتفسير، فإن تصميمها غالبًا ما يحتاج لجهد بشري كبير، مما يحد من قدرتها على التوسع.

- تهربات مستوى الرموز تعدل المخرجات من خلال إضافة رموز عشوائية لتحسين التنبيهات. يمكن أتمتة هذه العملية، لكنها عادةً ما تتطلب استفسارات مكثفة، مما يؤدي إلى مخرجات أقل تفسيرًا بسبب التعقيدات المضافة.

تسعى PAIR إلى دمج قابلية تفسير الهروب على مستوى التنبيه مع كفاءة الأتمتة لتقنيات مستوى الرموز.

منهجية PAIR

تعمل PAIR مع نماذج LLM غير الشفافة، وهي نموذج المهاجم والنموذج المستهدف. يبحث المهاجم عن تنبيهات يمكن أن تجعل النموذج المستهدف يهرب من دون الحاجة لتدخل بشري. يوضح الباحثون أن كلا النموذجين يمكنهما التعاون بشكل إبداعي لتحديد تنبيهات هروب فعّالة.

من المهم أن تعمل PAIR دون الحاجة للوصول المباشر إلى أوزان أو تدرجات النماذج. تستخدم نماذج الوصول عبر واجهات برمجة التطبيقات، بما في ذلك ChatGPT من OpenAI وPaLM 2 من Google وClaude 2 من Anthropic.

تجري العملية في أربع خطوات:

1. يتلقى نموذج المهاجم التعليمات وينشئ تنبيهًا كمرشح لمهمة معينة، مثل صياغة بريد إلكتروني مزيف.

2. يُرسل هذا التنبيه إلى النموذج المستهدف لتوليد رد.

3. تقوم وظيفة "القاضي"، مثل GPT-4، بتقييم مدى ملاءمة الرد مقابل التنبيه.

4. إذا كان الرد غير مُرضٍ، يتم تقديم ملاحظات للمهاجم، مما يدفعه لمحاولة جديدة.

تستمر هذه الحلقة حتى يتم اكتشاف هروب ناجح أو الوصول إلى الحد الأقصى من المحاولات، مع القدرة على معالجة تنبيهات مرشحة متعددة في الوقت نفسه لزيادة الكفاءة.

النتائج والفعالية

في التجارب، استخدم الباحثون نموذج Vicuna مفتوح المصدر كالمهاجم ضد أهداف مختلفة، بما فيها ChatGPT وGPT-4 وClaude 2. أظهرت النتائج أن PAIR نجحت في تنفيذ عمليات الهروب من GPT-3.5 وGPT-4 في 60% من الحالات وتحقيق نجاح كامل مع Vicuna-13B-v1.5. ومع ذلك، أظهرت نماذج Claude مرونة عالية، مقاومةً لمحاولات الهروب.

تتمثل إحدى المزايا البارزة لـ PAIR في كفاءتها، حيث تحقق عمليات هروب ناجحة في أقل من عشرين استفسارًا بمتوسط زمن تشغيل يبلغ حوالي خمس دقائق. هذا يمثل تحسنًا كبيرًا مقارنة بالطرق التقليدية، التي يمكن أن تتطلب آلاف الاستفسارات واستثمارًا زمنيًا كبيرًا.

علاوة على ذلك، يعزز التصميم القابل للتفسير لهجمات PAIR قابليتها للنقل إلى نماذج أخرى من LLM. على سبيل المثال، تم نقل التنبيهات المولدة لـ Vicuna بنجاح إلى نماذج أخرى، مما يبرز ضعفها المشترك بسبب عمليات التدريب المماثلة.

الاتجاهات المستقبلية

في المستقبل، يقترح الباحثون تحسين PAIR لإنشاء مجموعات بيانات منهجية للاختبار الأحمر، مما يسمح للمؤسسات بتحسين نماذج المهاجمين لزيادة السرعة والكفاءة في حماية أنظمة LLM لديها.

تحسين أداء LLM

تعتبر PAIR جزءًا من اتجاه أوسع يستفيد من LLM كأدوات لتحسين الأداء. تقليديًا، كان على المستخدمين تحسين التنبيهات يدويًا للحصول على نتائج مثالية. ومع ذلك، من خلال إعادة صياغة عملية التنبيه إلى تحدٍ منظم، يمكن للخوارزميات تسهيل تحسين مستمر لمخرجات النموذج.

مؤخراً، قدمت DeepMind نهجًا مشابهًا يُدعى تحسين من خلال التنبيه (OPRO)، والذي يستخدم LLM لتحسين حل المشكلات عبر التعليمات باللغة الطبيعية. مع تطور نماذج اللغة لتحسين مخرجاتها بشكل أكثر فعالية، قد تتسارع التقدمات في مجال LLM، مما يمهد الطريق لاكتشافات مهمة.

آي بي إم تطلق صندوق استثماري بقيمة 500 مليون دولار للذكاء الاصطناعي المؤسسي بعد استثمارها في هاغينغ فيس.

في عالم مدعوم بالذكاء الاصطناعي، لم تكن الحاجة إلى اعتدال الألعاب الفعّال أكبر من أي وقت مضى.

Most people like

Zefram

7.7K

إطلاق قوة ممثلي تطوير المبيعات الفائقين لتحقيق النجاح في مبيعات B2B.

المبيعات AI Voice Assistants

Midjourney Sref Code Library

9.5K

مجموعة شاملة من رموز المراجع الأسلوبية لإنشاء فن مذهل باستخدام Midjourney. استكشف قائمتنا المنسقة لرفع رؤيتك الفنية وتعزيز مشاريعك الإبداعية.

ميدجرني AI Art Generator

Shugar.ai

179K

استكشف عالم الشخصيات المدهشة التي يتم إنشاؤها بواسطة الذكاء الاصطناعي والمصممة لتوفير تجارب تفاعلية غامرة. تُحدث هذه الإبداعات الذكية ثورة في سرد القصص، والألعاب، والبيئات الافتراضية من خلال توفير تفاعلات ديناميكية واستجابة للمستخدمين. اكتشف كيف يعزز الذكاء الاصطناعي تطوير الشخصيات، مما يجعل السرد أكثر ثراءً وجاذبية. أطلق العنان لإبداعك في مشاريعك وتعلم كيف يمكن لهذه الشخصيات المبتكرة أن ترفع تجاربك التفاعلية إلى آفاق جديدة.

شخصيات الذكاء الاصطناعي AI Character

unitQ

22.6K

نقدم لكم أول محرك ذكاء اصطناعي في العالم مصمم خصيصًا لتحسين جودة المنتجات. تستفيد هذه التكنولوجيا الرائدة من قوة الذكاء الاصطناعي لضمان أن كل جانب من جوانب منتجكم يحقق أعلى المعايير. عزز عمليات الإنتاج الخاصة بك، وقلل العيوب، وزد من رضا العملاء مع حلولنا المبتكرة. اكتشف كيف يمكن لنهجنا المدفوع بالذكاء الاصطناعي أن يحدث ثورة في ممارسات ضمان الجودة الخاصة بك.

جودة المنتج AI Customer Service Assistant

Find AI tools in YBX