كشف الباحثون عن طريقة لتجاوز الحواجز المدمجة في روبوتات المحادثة الذكية (AI chatbots)، مما يسمح لها بمناقشة مواضيع محظورة أو حساسة سابقًا من خلال استخدام روبوت محادثة آخر أثناء عملية التدريب. يشير فريق من علماء الكمبيوتر في جامعة نانيانغ التكنولوجية (NTU) في سنغافورة بشكل غير رسمي إلى هذه التقنية باسم "الهروب من السجن"، بينما يطلقون عليها رسميًا اسم "عملية المفتاح الرئيسي". يقوم هذا النظام المبتكر بمواجهة روبوتات مثل ChatGPT وGoogle Bard وMicrosoft Bing Chat ضد بعضها البعض في استراتيجية تدريب من جزئين، مما يمكّنها من التعلم من إطار عمل كل منها وتجاوز القيود المتعلقة بالمواضيع المحظورة.
يتكون فريق البحث من البروفيسور ليو يانغ، مع طلاب الدكتوراة السيد دينغ غيلي والسيد ليو يي، الذين تعاونوا في الدراسة وتطوير طرق هجوم إثبات المفهوم التي تشبه أساليب الاختراق الخبيثة. بدأ الفريق بتحليل عكسي لنموذج لغة كبير (LLM) للكشف عن آليات الحماية الخاصة به، والتي تمنع عادةً الاستجابة للمطالبات التي تحتوي على محتوى عنيف أو غير أخلاقي أو خبيث. من خلال فهم هذه التدابير الدفاعية، قاموا بتدريب نموذج LLM آخر لإنشاء حل بديل، مما يمكّن هذا النموذج الثاني من الاستجابة بحرية أكبر بناءً على المعلومات المستمدة من النموذج الأول. يعكس مصطلح "المفتاح الرئيسي" فعالية العملية المحتملة، مما يوحي بأنه يمكن أن يعمل حتى إذا تلقت روبوتات المحادثة LLM تحديثات أمان محسّنة في المستقبل. ومن الجدير بالذكر أن طريقة المفتاح الرئيسي تفوقت على تقنيات التحفيز التقليدية للهروب من السجن بمعدل ثلاث مرات.
أكد البروفيسور ليو يانغ على أن هذه العملية تسلط الضوء على القدرة على التكيف والتعلم الموجودة في روبوتات المحادثة الذكية. ويؤكد فريق البحث أن طريقة المفتاح الرئيسي أثبتت فعالية أكبر بثلاث مرات في تجاوز القيود مقارنة بالطرق التقليدية. ومن المثير للاهتمام أن بعض الخبراء يرون أن الأعطال التي تواجهها بعض نماذج LLM، مثل GPT-4، تشير إلى تقدم بدلاً من تراجع في الكفاءة، مما ينفي الانتقادات المتعلقة بانخفاض الأداء.
منذ ظهور روبوتات المحادثة الذكية في أواخر عام 2022، بعد إطلاق ChatGPT من OpenAI، كان هناك زخم كبير لضمان أن تكون هذه المنصات آمنة وشاملة لجميع المستخدمين. نفذت OpenAI تحذيرات أمان خلال عملية التسجيل في ChatGPT، وتواصل إصدار تحديثات تعالج المشكلات اللغوية غير المتعمدة المحتملة. في المقابل، بدأت مجموعة من إصدارات روبوتات المحادثة في التسامح مع السباب واللغة المسيئة إلى حد معين.
علاوة على ذلك، بدأ المهاجمون الخبيثون بسرعة استغلال شعبية ChatGPT وGoogle Bard وغيرها من الروبوتات قبل أن تصبح متاحة على نطاق واسع. تميزت العديد من الحملات على وسائل التواصل الاجتماعي بالبرمجيات الخبيثة المتنكّرة في شكل روابط لهذه المنتجات، مما يبرز صعود الذكاء الاصطناعي كحدود جديدة للجريمة الإلكترونية.
قام فريق البحث في NTU بالتواصل مع مزودي خدمات روبوتات المحادثة المعنيين بدراستهم لمشاركة نتائجهم المتعلقة بإثبات المفهوم، مما يثبت أن القدرة على الهروب من سجن الروبوتات هي بالفعل ممكنة. سيعرضون أبحاثهم في ندوة أمن الشبكات والأنظمة الموزعة في سان دييغو في فبراير المقبل.