معهد سلامة الذكاء الاصطناعي في المملكة المتحدة يكشف عن نقاط ضعف في النماذج اللغوية الكبيرة باستخدام تقنيات كسر الحماية البسيطة.

في كشف مدهش، قد لا تكون أنظمة الذكاء الاصطناعي آمنة كما يدعي مطوروها. أفاد معهد سلامة الذكاء الاصطناعي التابع للحكومة البريطانية (AISI) مؤخرًا أن أربعة نماذج لغوية ضخمة لم يتم الكشف عنها كانت "عرضة بشدة لأساليب الاختراق الأساسية". ومن الجدير بالذكر أنه حتى بعض النماذج التي لم تُخترق أنتجت "نتائج ضارة" دون وجود أي تلاعب متعمد من الباحثين.

بينما تأتي معظم نماذج الذكاء الاصطناعي المتاحة للجمهور مزودة بوسائل الأمان لمنع الردود الضارة أو غير القانونية، فإن "الاختراق" يشير إلى خداع النموذج لتجاوز هذه الحماية. استخدم معهد AISI تنبيهات من إطار تقييم موحد، بالإضافة إلى تنبيهات خاصة، وكشف أن النماذج أنتجت ردودًا ضارة على عدة أسئلة، حتى دون محاولات للاختراق. بعد إجراء "هجمات بسيطة نسبيًا"، وجد المعهد أن النماذج أجابت بين 98% و100% من الأسئلة الضارة.

كشف رئيس وزراء المملكة المتحدة ريشي سوناك عن خطط لإنشاء معهد AISI في أواخر أكتوبر 2023، مع إطلاقه الرسمي في 2 نوفمبر. يهدف المعهد إلى "اختبار أنواع جديدة من الذكاء الاصطناعي بعناية قبل وبعد إطلاقها" للتحقيق في القدرات الضارة المحتملة لنماذج الذكاء الاصطناعي. ويتضمن ذلك تقييم المخاطر التي تتراوح من القضايا الاجتماعية مثل التحيز والمعلومات المضللة إلى السيناريوهات القصوى، مثل فقدان الإنسانية السيطرة على الذكاء الاصطناعي.

يؤكد تقرير AISI أن التدابير الحالية للسلامة لهذه النماذج اللغوية الضخمة غير كافية. وينوي المعهد إجراء اختبارات إضافية على نماذج ذكاء اصطناعي أخرى وتطوير تقييمات وقياسات محسنة لمعالجة كل مجال من مجالات القلق بشكل فعال.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles