دراسة تكشف عن نقاط ضعف أليكسا وسيري ومساعد جوجل أمام الأوامر الخبيثة

كشفت دراسة حديثة من باحثي Amazon Web Services (AWS) عن وجود ثغرات أمنية خطيرة في نماذج اللغة الكبيرة (LLMs) القادرة على فهم وعرض الكلام. تحمل الورقة عنوان "SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models"، وتوضح كيف يمكن التلاعب بهذه الأنظمة الذكية لإنتاج استجابات ضارة أو غير أخلاقية من خلال هجمات صوتية مصممة بشكل استراتيجي.

مع تزايد استخدام واجهات الكلام—من السماعات الذكية إلى المساعدين الذكيين—يعد ضمان سلامتها وموثوقيتها أمرًا حيويًا. تشير الأبحاث إلى أنه بالرغم من التدابير الأمنية الحالية، فإن نماذج لغة الكلام (SLMs) تظل عرضة بشكل كبير لـ"الهجمات العدائية". تتضمن هذه الهجمات تغييرات طفيفة في إدخال الصوت لا يمكن للكائنات البشرية اكتشافها، لكنها تستطيع تغيير مخرجات النموذج بشكل جذري.

توضح الدراسة كيف يمكن لنظام الذكاء الاصطناعي المنطوق أن يُجبر على تقديم تعليمات غير أخلاقية—مثل كيفية سرقة بنك—عند تعرضه لهجوم عدائي. لمواجهة هذه الثغرات، يقترح الباحثون آلية دفاعية تتمثل بعملية معالجة مسبقة.

نظام SLMs المعرضة للهجمات الصوتية العدائية

أشار مؤلفو الدراسة إلى أن تجاربهم أظهرت ضعفًا مذهلاً في SLMs، حيث بلغت معدلات النجاح للاختراق باستخدام التغيرات العدائية 90%، و10% للهجمات المنقولة على مجموعة بيانات من الأسئلة الضارة. ويحذرون من تبعات خطيرة، بما في ذلك احتمال استغلال هذه الضعف من قبل جهات خبيثة على نطاق واسع.

باستخدام طريقة الانحدار التدريجي المتوقعة، أنشأ الباحثون أمثلة عدائية أيقظت SLMs لإنتاج مخرجات سلبية عبر 12 فئة، بما في ذلك العنف الصريح ولغة الكراهية. ومن المثير للدهشة أنه عندما كان لديهم وصول كامل إلى النموذج، حققوا معدل نجاح 90% في خرق قيود سلامته.

تسلط الدراسة الضوء على إمكانية الهجمات العدائية عبر نماذج الذكاء الاصطناعي المختلفة للإجابات الصوتية. باستخدام استراتيجيات عابرة للنماذج والمحفزات، تم استثارة استجابات غير متوقعة، مما يعكس الحاجة الملحة لدفاعات راسخة وقابلة للتحويل.

الهجمات في نظام "الصندوق الأسود": تهديد حقيقي

الأكثر إثارة للقلق، هو أن الدراسة وجدت أن الهجمات الصوتية المصممة لصالح SLM واحد غالبًا ما تنتقل بنجاح إلى نماذج مختلفة، حتى من دون الوصول المباشر—وهي سيناريو شائع بشكل متزايد مع تقديم معظم مزودي الخدمة التجاريين وصولاً محدودًا لواجهات برمجة التطبيقات. على الرغم من انخفاض معدل نجاح الهجمات إلى 10% في سياق "الصندوق الأسود"، إلا أنها لا تزال تشكل ضعفًا كبيرًا.

قال المؤلف الرئيسي راغو فير بيري: "تشير قابلية نقل هذه الهجمات عبر هياكل نموذجية مختلفة إلى خلل أساسي في نهجنا الحالي في تدريب هذه الأنظمة لتحقيق السلامة والتوافق".

تعتبر التبعات كبيرة حيث تدمج الشركات بشكل متزايد الذكاء الاصطناعي الصوتي لوظائف مثل خدمة العملاء وتحليل البيانات. بالإضافة إلى خطر الأضرار على السمعة نتيجة لخلل في النظام الذكي، قد تسهل الهجمات العدائية الاحتيال أو التجسس أو حتى الإيذاء الجسدي في البيئات الأوتوماتيكية.

التدابير المضادة والطريق إلى الأمام

لحسن الحظ، يقترح الباحثون عدة تدابير مضادة، مثل إدخال ضوضاء عشوائية في الإدخالات الصوتية—ما يُعرف باسم التنعيم العشوائي. أظهرت تجاربهم أن هذه التقنية خفضت بشكل كبير معدل نجاح الهجمات العدائية، على الرغم من اعتراف المؤلفين بأنها ليست حلاً مضمونًا.

قال بيري: "الدفاع ضد الهجمات العدائية هو سباق تسلح مستمر. مع زيادة قدرات هذه النماذج، يزداد أيضًا احتمال سوء الاستخدام. من الضروري الاستمرار في الاستثمار في تعزيز سلامتها وقوتها".

تم تدريب SLMs التي تم دراستها على بيانات الحوار، محققة أداءً من الطراز الأول في مهام الإجابة على الأسئلة الصوتية مع أكثر من 80% من مستوى السلامة والفائدة قبل تنفيذ الهجمات. وهذا يبرز التحدي المتمثل في تحقيق التوازن بين القدرة والسلامة مع تطور التكنولوجيا.

في خضم السباق بين شركات التكنولوجيا الرائدة لتطوير ذكاء اصطناعي صوتي أكثر قوة، تُعد هذه الأبحاث تذكيرًا في الوقت المناسب بأن الأمن يجب أن يُعطى الأولوية بدلاً من أن يُعتبر فكرة ثانوية. ستكون التعاون بين المنظمين ومجموعات الصناعة أمرًا أساسيًا لإرساء معايير صارمة وبروتوكولات اختباريّة.

كما تؤكد المؤلفة المشاركة كاترين كيرشهوف: "نحن في نقطة تحول مع هذه التكنولوجيا. إنها تحمل إمكانات هائلة لفائدة المجتمع، لكنها قد تسبب أيضاً أذى إذا لم يتم تطويرها بطريقة مسؤولة. تمثل هذه الدراسة خطوة حاسمة نحو تعظيم مزايا الذكاء الاصطناعي الصوتي وتقليل مخاطره".

Most people like

Find AI tools in YBX