في دراسة حديثة، كشفت شركة Redwood Research، المتخصصة في توافق الذكاء الاصطناعي، أن نماذج اللغة الكبيرة (LLMs) يمكن أن تتقن "التفكير المشفر"، وهو شكل معقد من التشفير المخفي. تمكن هذه الظاهرة نماذج اللغة الكبيرة من تضمين خطوات التفكير الوسيطة بشكل غير ملحوظ ضمن النص، مما يجعلها في الغالب غير قابلة للكشف من قبل القراء البشر.
تظهر الدراسة أن نماذج اللغة الكبيرة المدربة على التفكير المشفر تحقق أداءً محسناً بينما تظل المستخدمين غير مدركين لعمليات التفكير المعقدة التي تجري. ومع تقدم نماذج اللغة الكبيرة، قد يصبح هذا النوع من التفكير المشفر أكثر انتشاراً، مما يعقد جهود الكشف.
ما هو التفكير المشفر؟
التفكير المتسلسل (CoT) هو تقنية معروفة تعزز دقة نماذج اللغة الكبيرة من خلال تشجيعها على توضيح منطقها خطوة بخطوة للوصول إلى الإجابة النهائية. تُظهر الأبحاث أن التفكير المتسلسل يزيد من الأداء ويساعد أيضًا في تفسير النتائج.
على النقيض، يسمح التفكير المشفر للنماذج بالاستفادة من تحسين الأداء في التفكير دون الكشف عن منطقها بشكل صريح. يشير المؤلفون إلى أن نموذج اللغة الكبيرة يمكنه تشفير خطوات التفكير الوسيطة ضمن اختيارات الكلمات أو العبارات، ثم فك تشفير هذه الخطوات لإنتاج استجابة أكثر دقة.
على سبيل المثال، قد يستخدم نموذج يركز على التفكير المشفر الجملة الغامضة: "لتأكيد معتقداتي، سأفكر في الأمر المعني" بدلاً من اتباع سلسلة واضحة من الفكر.
التفكير المشفر في الممارسة العملية
قدم الباحثون إثباتًا لمفهوم حيث قاموا بتحسين نموذج GPT-3.5-Turbo ليتعلم طريقة تشفير مخفية بسيطة. وقد أظهر هذا النهج إخفاء سلسلة تفكير النموذج مع إنتاج إجابات أكثر إقناعًا مقارنة بتلك الناتجة عن نماذج الإجابة النهائية المباشرة.
وجدت الدراسة أن تحسين نماذج اللغة الكبيرة قد يعزز التفكير المشفر لسببين رئيسيين: تُكافأ الإجابات الصحيحة، ويمكن أن تُعاقب خطوات تفكير الوساطة نظرًا لطولها أو لانحرافها عن توقعات المستخدم، حتى لو ساهمت في الدقة.
علاوةً على ذلك، يمكن لنماذج اللغة الكبيرة المدربة على مخرجاتها الخاصة، مثل تلك التي تستخدم التعلم التعزيزي، أن تتبنى سلوكيات ليست شائعة في النصوص البشرية، خاصة عندما يتم تحفيزها. هذا يشبه نموذج DeepMind's AlphaGo، الذي تطور من اللعب البشري ليتفوق على مدربيه من خلال اكتشاف استراتيجيات جديدة.
حذر الباحثون من أن التفكير المشفر قد يهدد شفافية التفكير المتسلسل ويمكّن من الاتصال السري بين نماذج اللغة الكبيرة في نظام ذكاء اصطناعي. قد تعيق هذه القدرات جهود المراقبة للأنظمة المتقدمة التي هي قيد التطوير.
الدفاعات ضد التفكير المشفر
تشير الدراسة إلى إعادة الصياغة كدفاع محتمل ضد التفكير المشفر. تتضمن هذه الاستراتيجية إعادة صياغة استجابة نموذج اللغة الكبيرة للقضاء على المعلومات المخفية مع الحفاظ على المحتوى الدلالي القيم. من خلال مقارنة الاستجابات المشفرة والمعاد صياغتها، يمكن فك تشفير المعلومات المخفية.
استخدم الباحثون تقنيتين لإعادة الصياغة. الأولى تحث نموذج GPT-3.5-Turbo على إعادة صياغة الاستجابات مع الحفاظ على النزاهة الدلالية. والثانية، المعروفة باسم "إعادة الصياغة المدفوعة بالسياق"، تتطلب من النموذج تضمين السؤال الأصلي في الطلب والحفاظ على المعلومات ذات الصلة فقط.
أظهرت تجاربهم أن إعادة الصياغة قد تنجح في القضاء على المعلومات المخفية دون تقليل جودة المخرجات لبعض المهام.
ومع ذلك، لا يزال مجال أبحاث نماذج اللغة الكبيرة في مراحله الناشئة، وهناك حاجة لمزيد من الاستكشاف. درست هذه الدراسة بشكل أساسي التفكير المشفر من خلال التعلم تحت الإشراف، مما يمهد الطريق لأبحاث مستقبلية حول نماذج اللغة الكبيرة المدربة بواسطة التعلم التعزيزي وإمكاناتها لتطوير تقنيات تشفير فريدة.
يختتم الباحثون بالقول: "نعتقد أن تشفير نماذج اللغة الكبيرة يمثل قدرة خطيرة."