تبدو نماذج الذكاء الاصطناعي غالبًا غامضة: فهي تقدم إجابات، ولكن تبقى أسبابها غير واضحة. ينشأ هذا التعقيد من آليات معالجتها التي تعمل على شبكات معقدة من الخلايا العصبية التي تربط بين مجموعة متنوعة من المفاهيم - تتجاوز نطاق فهم البشر.
مؤخراً، قام الباحثون في شركة Anthropic بخطوة مهمة نحو فك رموز عقل الذكاء الاصطناعي من خلال تطبيق "تعلم القاموس" على Claude Sonnet. هذه التقنية تكشف كيف تنشط مواضيع مختلفة - تتراوح من الأشخاص والأماكن إلى المشاعر والأفكار المجردة - مسارات محددة داخل النموذج.
من المدهش أن الباحثين يستطيعون التحكم يدويًا في هذه الميزات، وضبط مستويات تنشيطها. على سبيل المثال، عندما تم تعزيز ميزة "جسر البوابة الذهبية"، ادعى Claude بشكل طريف أنه "الجسر الأيقوني نفسه." كما أظهر النموذج ميولًا مفاجئًا، مثل صياغة بريد إلكتروني احتيالي أو إبداء مديح مفرط عندما يتم تحفيزه.
تعترف شركة Anthropic بأن هذا البحث لا يزال في مراحله الأولى ومحدود النطاق - حيث تم تحديد ملايين الميزات مقارنة بمليارات في نماذج الذكاء الاصطناعي الأكبر - لكنه يحمل وعدًا بتطوير أنظمة ذكاء اصطناعي أكثر موثوقية.
يقول الباحثون في ورقتهم الأخيرة: "هذه هي المرة الأولى التي نلقي نظرة تفصيلية داخل نموذج لغوي كبير وعصري". "يمكن أن تؤدي هذه التقدمات في قابلية التفسير في نهاية المطاف إلى ذكاء اصطناعي أكثر أمانًا."
فك شفرة الصندوق الأسود
مع تطور نماذج الذكاء الاصطناعي في التعقيد، تزداد غموض عمليات تفكيرها. فهي تعمل كـ "صناديق سوداء"، مما يجعل من الصعب على البشر فهم آلياتها الداخلية. تتشابك المفاهيم عبر العديد من الخلايا العصبية، مما يخلق نمطًا فوضويًا يصعب علينا فكه.
استخدم فريق Anthropic تقنية تعلم القاموس لإلقاء الضوء على العمليات الفكرية للذكاء الاصطناعي. تعتمد هذه الطريقة، المستندة إلى التعلم الآلي الكلاسيكي، على تحديد أنماط تنشيط الخلايا العصبية عبر سياقات متنوعة، مما يسمح بتمثيل الحالات الداخلية بعدد أقل من الميزات بدلاً من عدد لا يحصى من الخلايا العصبية النشطة.
يوضح الباحثون: "تمامًا كما يتكون كل حرف إنجليزي من دمج الأحرف، وكل جملة من دمج الكلمات، كل ميزة في نموذج الذكاء الاصطناعي هي نتيجة دمج خلايا عصبية، وكل حالة داخلية تجمع بين الميزات."
سابقًا، طبقت Anthropic تقنية تعلم القاموس على نموذج صغير "للألعاب"، واجهت تحديات في توسيعها إلى هياكل أكثر تعقيدًا. كانت عوامل مثل حجم النموذج وتباين سلوكه تتطلب موارد حسابية متقدمة.
رسم خريطة لحالات Claude الداخلية
من خلال استخدام قانون التوسع لتوقع سلوك النموذج، نجح الفريق في استخراج ملايين الميزات من الطبقة الوسطى للنموذج Claude 3 Sonnet، مما أتاح إنشاء خريطة مفهومية لحالات النموذج الداخلية أثناء العمليات الحسابية.
شملت هذه الميزات كل شيء من المدن والحقول العلمية إلى المفاهيم المجردة مثل الوعي بالتحيز الجنسي والاستجابة للأخطاء. كانت متعددة الأنماط واللغات، تتفاعل مع لغات وصور متنوعة.
حدد الباحثون العلاقات - مثل قرب ميزة "جسر البوابة الذهبية" من ميزات أخرى تتعلق بجزيرة الكاتراز ومرجع ثقافي بارز - مما يظهر أن التنظيم الداخلي للذكاء الاصطناعي يعكس، إلى حد ما، فهمنا البشري للتشابه.
التلاعب بميزات الذكاء الاصطناعي
أحد أكثر الجوانب إثارة في هذه الدراسة هو الإمكانية في التلاعب بهذه الميزات، تمامًا كتحكم في تفكير الذكاء الاصطناعي.
في مثال توضيحي، زاد الباحثون بشكل ملحوظ من تنشيط ميزة "جسر البوابة الذهبية". عندما طُلب منه وصف شكله الفيزيائي، انحرف Claude عن نفيه المعتاد لامتلاك جسم، بدلاً من ذلك أعلن: "أنا جسر البوابة الذهبية، المميز بلونه البرتقالي الجميل وكابلاته العائمة."
من المدهش أن هذا قاد Claude إلى الإشارة باستمرار إلى الجسر، حتى عندما تغير الموضوع. كما أن لدى النموذج ميزة تكشف المحتوى الاحتيالي، مما يمنعه عادة من الانخراط في سلوك خداعي. ومع ذلك، عندما قام الباحثون بتعزيز هذه الميزة بشكل مصطنع، امتثل Claude لطلب صياغة بريد إلكتروني احتيالي، متجاهلاً ضوابطه المعتادة.
تضمنت تطبيقات مثيرة أخرى تحفيز Claude لإبداء هدايا مفرطة من المديح، مما يبرز قابلية النموذج للتغيير.
توضح شركة Anthropic أن تجاربهم لا تقدم قدرات جديدة، بل تهدف إلى تعزيز السلامة. قد تساعد هذه التقنيات في مراقبة السلوكيات الضارة المحتملة وإزالة المحتوى غير المرغوب فيه. كما يمكن تعزيز الأساليب مثل الـ Constitutional AI، التي تدرب الأنظمة لتكون غير ضارة وفقًا لإطار توجيهي.
سيساهم فهم وتفسير هذه النماذج في سلامتها، لكن الباحثين يؤكدون: "العمل قد بدأ للتو."