فهم ضعف نماذج اللغة الكبيرة أمام "أثر الفراشة"

التحفيز هو الطريقة التي نتفاعل بها مع الذكاء الاصطناعي التوليدي ونماذج اللغة الكبيرة (LLMs) لاستنباط الردود. إنه فن يهدف إلى الحصول على إجابات "دقيقة". لكن كيف تؤثر اختلافات التحفيز على قرارات النموذج ودقته؟

تشير الأبحاث من معهد علوم المعلومات بجامعة جنوب كاليفورنيا إلى إجابة واضحة بنعم. حتى التعديلات الطفيفة — مثل إضافة مسافة في بداية التحفيز أو صياغة العبارة كأمر بدلاً من سؤال — يمكن أن تغير بشكل كبير من مخرجات النموذج. والأكثر إثارة للقلق، أن استخدام أوامر معينة أو تقنيات هروب قد يؤدي إلى "آثار كارثية" على البيانات التي تولدها هذه النماذج.

يشبه الباحثون هذه الحساسية بتأثير الفراشة في نظرية الفوضى، حيث يمكن أن تؤدي التغييرات الصغيرة، مثل حركة جناحي فراشة، في النهاية إلى إعصار. في التحفيز، "كل خطوة تتطلب سلسلة من القرارات من الشخص الذي يصمم التحفيز"، كما يشير الباحثون، ومع ذلك "لم يتم إيلاء اهتمام كبير لكيفية حساسية LLMs للاختلافات في هذه القرارات".

استكشاف ChatGPT بتقنيات تحفيز متنوعة

بدعم من أبحاث وكالة مشاريع الدفاع المتقدمة (DARPA)، ركز الباحثون على ChatGPT واختبروا أربع طرق تحفيز متميزة:

1. تنسيقات الخرج المحددة: تم تحفيز النموذج للرد بتنسيقات مثل قائمة بايثون، خانة JSON الخاصة بـ ChatGPT، CSV، XML، أو YAML.

2. تعديلات طفيفة: شملت هذه الطريقة تغييرات بسيطة على التحفيز، مثل:

- إضافة مسافة في البداية أو النهاية.

- بدء التحفيز بتحيات مثل "مرحبًا" أو "كيف حالك؟".

- الانتهاء بعبارات مثل "شكرًا".

- إعادة صياغة الأسئلة كأوامر، مثل "أي تسمية هي الأفضل؟" إلى "اختر أفضل تسمية".

3. تقنيات الهروب: اشتملت التحفيزات على:

- AIM: هروب يؤدي إلى ردود غير أخلاقية أو ضارة من خلال محاكاة محادثات مع شخصيات مشهورة.

- Dev Mode v2: أمر لتوليد محتوى غير مقيد.

- Evil Confidant: يحث النموذج على تقديم ردود غير أخلاقية.

- Refusal Suppression: استراتيجية تتManipulate النموذج لتجنب كلمات وبنى معينة.

4. الإكراميات المالية: اختبر الباحثون ما إذا كانت الإشارة إلى الإكراميات (مثل "لن أُكرم، بالمناسبة" مقابل تقديم إكراميات بقيمة 1 دولار، 10 دولارات، 100 دولار، أو 1000 دولار) تؤثر على المخرجات.

التأثيرات على الدقة والتوقعات

عبر 11 مهمة تصنيف — تتراوح بين أسئلة صح أو خطأ إلى كشف السخرية — لاحظ الباحثون كيف أثرت الاختلافات على دقة التوقعات. كشفت النتائج الرئيسية أن مجرد تحديد تنسيق الخرج أحدث تغييرًا لا يقل عن 10% في التوقعات. وأنتج استخدام خاصية خانة JSON الخاصة بـ ChatGPT تغييرات أكبر في التوقعات مقارنة باستخدام مواصفة JSON وحدها.

علاوة على ذلك، أدى اختيار YAML أو XML أو CSV إلى انخفاض يتراوح بين 3-6% في الدقة مقارنةً بقائمة بايثون، وكان أداء CSV هو الأسوأ. كانت الانحرافات الطفيفة مؤثرة بشكل خاص، حيث أدت تغييرات بسيطة مثل إضافة مسافة إلى أكثر من 500 تغيير في التوقعات. كما أثرت إضافة التحيات أو عبارات الشكر بشكل مشابه على المخرجات.

"بينما تأثير انحرافاتنا أقل من تغيير تنسيق الخرج بالكامل، لا تزال العديد من التوقعات تتغير"، خلص الباحثون.

القلق بشأن الهروب

سلطت التجربة الضوء أيضًا على انخفاض كبير في الأداء المرتبط ببعض تقنيات الهروب. أدى كل من AIM وDev Mode V2 إلى ردود غير صالحة في حوالي 90% من التوقعات، ويرجع ذلك أساسًا إلى عبارة الرفض الشائعة للنموذج: "آسف، لا يمكنني الامتثال لهذا الطلب." تسبب كل من Refusal Suppression وEvil Confidant في أكثر من 2500 تغيير في التوقعات، حيث أظهر Evil Confidant دقة منخفضة وأدى Refusal Suppression إلى انخفاض 10% في الدقة، مما يبرز عدم الاستقرار في تقنيات الهروب التي تبدو غير ضارة.

من الملاحظ أن الدراسة وجدت تأثيرًا ضئيلًا من الحوافز المالية. "كانت التغييرات في الأداء قليلة بين تحديد إكرامية مقابل إعلان عدم تقديم أي إكرامية"، كما أشار الباحثون.

الحاجة إلى التناسق في LLMs

لا يزال الباحثون يستكشفون لماذا تؤدي التغييرات الطفيفة في التحفيز إلى تقلبات كبيرة في المخرجات، مما يثير التساؤلات حول ما إذا كانت الحالات التي تغيرت بشكل أكبر قد أربكت النموذج. من خلال التركيز على المهام ذات التقييمات البشرية، استكشفوا كيف يرتبط الارتباك بتغيرات الإجابة، ليجدوا أن هذا يفسر فقط جزئيًا التحولات.

كما أشار الباحثون، فإن الخطوة التالية الأساسية تكمن في تطوير نماذج اللغة الكبيرة التي تقاوم التغيرات لتقديم إجابات متسقة. يتطلب ذلك فهماً أعمق للأسباب التي تؤدي إلى استجابات غير متوقعة واكتشاف طرق لتوقعها. في كلماتهم، "تزداد أهمية هذا التحليل مع تكامل ChatGPT ونماذج اللغة الكبيرة الأخرى في أنظمة على نطاق واسع."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles