كيف فهم كلود جسر البوابة الذهبية بشكل خاطئ: رؤى حول العقل الغامض للذكاء الصناعي لدى Anthropic

Home أخبار الذكاء الاصطناعي كيف فهم كلود جسر البوابة الذهبية بشكل خاطئ: رؤى حول العقل الغامض للذكاء الصناعي لدى Anthropic

Updated on مايو 21 2024

تبدو نماذج الذكاء الاصطناعي غالبًا غامضة: فهي تقدم إجابات، ولكن تبقى أسبابها غير واضحة. ينشأ هذا التعقيد من آليات معالجتها التي تعمل على شبكات معقدة من الخلايا العصبية التي تربط بين مجموعة متنوعة من المفاهيم - تتجاوز نطاق فهم البشر.

مؤخراً، قام الباحثون في شركة Anthropic بخطوة مهمة نحو فك رموز عقل الذكاء الاصطناعي من خلال تطبيق "تعلم القاموس" على Claude Sonnet. هذه التقنية تكشف كيف تنشط مواضيع مختلفة - تتراوح من الأشخاص والأماكن إلى المشاعر والأفكار المجردة - مسارات محددة داخل النموذج.

من المدهش أن الباحثين يستطيعون التحكم يدويًا في هذه الميزات، وضبط مستويات تنشيطها. على سبيل المثال، عندما تم تعزيز ميزة "جسر البوابة الذهبية"، ادعى Claude بشكل طريف أنه "الجسر الأيقوني نفسه." كما أظهر النموذج ميولًا مفاجئًا، مثل صياغة بريد إلكتروني احتيالي أو إبداء مديح مفرط عندما يتم تحفيزه.

تعترف شركة Anthropic بأن هذا البحث لا يزال في مراحله الأولى ومحدود النطاق - حيث تم تحديد ملايين الميزات مقارنة بمليارات في نماذج الذكاء الاصطناعي الأكبر - لكنه يحمل وعدًا بتطوير أنظمة ذكاء اصطناعي أكثر موثوقية.

يقول الباحثون في ورقتهم الأخيرة: "هذه هي المرة الأولى التي نلقي نظرة تفصيلية داخل نموذج لغوي كبير وعصري". "يمكن أن تؤدي هذه التقدمات في قابلية التفسير في نهاية المطاف إلى ذكاء اصطناعي أكثر أمانًا."

فك شفرة الصندوق الأسود

مع تطور نماذج الذكاء الاصطناعي في التعقيد، تزداد غموض عمليات تفكيرها. فهي تعمل كـ "صناديق سوداء"، مما يجعل من الصعب على البشر فهم آلياتها الداخلية. تتشابك المفاهيم عبر العديد من الخلايا العصبية، مما يخلق نمطًا فوضويًا يصعب علينا فكه.

استخدم فريق Anthropic تقنية تعلم القاموس لإلقاء الضوء على العمليات الفكرية للذكاء الاصطناعي. تعتمد هذه الطريقة، المستندة إلى التعلم الآلي الكلاسيكي، على تحديد أنماط تنشيط الخلايا العصبية عبر سياقات متنوعة، مما يسمح بتمثيل الحالات الداخلية بعدد أقل من الميزات بدلاً من عدد لا يحصى من الخلايا العصبية النشطة.

يوضح الباحثون: "تمامًا كما يتكون كل حرف إنجليزي من دمج الأحرف، وكل جملة من دمج الكلمات، كل ميزة في نموذج الذكاء الاصطناعي هي نتيجة دمج خلايا عصبية، وكل حالة داخلية تجمع بين الميزات."

سابقًا، طبقت Anthropic تقنية تعلم القاموس على نموذج صغير "للألعاب"، واجهت تحديات في توسيعها إلى هياكل أكثر تعقيدًا. كانت عوامل مثل حجم النموذج وتباين سلوكه تتطلب موارد حسابية متقدمة.

رسم خريطة لحالات Claude الداخلية

من خلال استخدام قانون التوسع لتوقع سلوك النموذج، نجح الفريق في استخراج ملايين الميزات من الطبقة الوسطى للنموذج Claude 3 Sonnet، مما أتاح إنشاء خريطة مفهومية لحالات النموذج الداخلية أثناء العمليات الحسابية.

شملت هذه الميزات كل شيء من المدن والحقول العلمية إلى المفاهيم المجردة مثل الوعي بالتحيز الجنسي والاستجابة للأخطاء. كانت متعددة الأنماط واللغات، تتفاعل مع لغات وصور متنوعة.

حدد الباحثون العلاقات - مثل قرب ميزة "جسر البوابة الذهبية" من ميزات أخرى تتعلق بجزيرة الكاتراز ومرجع ثقافي بارز - مما يظهر أن التنظيم الداخلي للذكاء الاصطناعي يعكس، إلى حد ما، فهمنا البشري للتشابه.

التلاعب بميزات الذكاء الاصطناعي

أحد أكثر الجوانب إثارة في هذه الدراسة هو الإمكانية في التلاعب بهذه الميزات، تمامًا كتحكم في تفكير الذكاء الاصطناعي.

في مثال توضيحي، زاد الباحثون بشكل ملحوظ من تنشيط ميزة "جسر البوابة الذهبية". عندما طُلب منه وصف شكله الفيزيائي، انحرف Claude عن نفيه المعتاد لامتلاك جسم، بدلاً من ذلك أعلن: "أنا جسر البوابة الذهبية، المميز بلونه البرتقالي الجميل وكابلاته العائمة."

من المدهش أن هذا قاد Claude إلى الإشارة باستمرار إلى الجسر، حتى عندما تغير الموضوع. كما أن لدى النموذج ميزة تكشف المحتوى الاحتيالي، مما يمنعه عادة من الانخراط في سلوك خداعي. ومع ذلك، عندما قام الباحثون بتعزيز هذه الميزة بشكل مصطنع، امتثل Claude لطلب صياغة بريد إلكتروني احتيالي، متجاهلاً ضوابطه المعتادة.

تضمنت تطبيقات مثيرة أخرى تحفيز Claude لإبداء هدايا مفرطة من المديح، مما يبرز قابلية النموذج للتغيير.

توضح شركة Anthropic أن تجاربهم لا تقدم قدرات جديدة، بل تهدف إلى تعزيز السلامة. قد تساعد هذه التقنيات في مراقبة السلوكيات الضارة المحتملة وإزالة المحتوى غير المرغوب فيه. كما يمكن تعزيز الأساليب مثل الـ Constitutional AI، التي تدرب الأنظمة لتكون غير ضارة وفقًا لإطار توجيهي.

سيساهم فهم وتفسير هذه النماذج في سلامتها، لكن الباحثين يؤكدون: "العمل قد بدأ للتو."

تنازل عن السيطرة: كيف يمكن أن تجعل Copilot+ وأجهزة الكمبيوتر الشركات تعتمد على Microsoft

يعتبر سام ألتمان من OpenAI أن أنظمة الذكاء الاصطناعي مثل GPT-4 "آمنة للاستخدام": ماذا يعني ذلك للمستخدمين والمطورين؟

Most people like

SlidesAI

708.5K

نقدم لكم SlidesAI: أداة مبتكرة مدعومة بالذكاء الاصطناعي مصممة لتلخيص النصوص بسهولة وإنشاء شرائح عرض ديناميكية. قم بتحويل أي محتوى مكتوب إلى مرئيات جذابة بكل يسر، مما يجعل عروضك أكثر تأثيرًا من أي وقت مضى.

مدعوم بالذكاء الاصطناعي AI Presentation Generator

Offline Chat: Private AI

28.4M

في المشهد الرقمي اليوم، يمثل دمج نماذج اللغة الكبيرة على الجهاز (LLMs) مع تكنولوجيا تعزيز الاسترجاع (RAG) إنجازًا كبيرًا في مجال الذكاء الاصطناعي. لا تعزز هذه المقاربة الابتكارية قدرات أنظمة الذكاء الاصطناعي فحسب، بل تضمن أيضًا تشغيلها بكفاءة عند الحافة، مما يقلل من زمن الاستجابة ويزيد من الأداء. بينما نستكشف تداخل معالجة البيانات على الجهاز وRAG، ستكتشف كيف تحول هذه التآزر تجارب المستخدمين وتدفع الحلول الذكية عبر تطبيقات متعددة. انضم إلينا في الغوص أعمق في هذه التكنولوجيا الثورية!

روبوت الدردشة الذكي AI Chatbot

AI poem generator

25.1K

تقديم الجيل الأحدث من مولدات الشعر الذكي: أداتك المثالية لكتابة القصائد الجميلة في瞬ة! سواء كنت شاعرًا ناشئًا أو تبحث ببساطة عن طريقة للتعبير عن أفكارك بطريقة إبداعية، فإن مولدنا المتقدم المدعوم بالذكاء الاصطناعي هنا لمساعدتك في خلق شعر رائع بكل سهولة. استكشف إمكانيات الشعر اللامتناهية واترك لخيالك العنان!

أخرى AI Blog Writer

WebX

1.7M

مرحبا بكم في مستقبل إنشاء المواقع الإلكترونية مع أداة بناء المواقع المعتمدة على الذكاء الاصطناعي، التي تحول بسهولة كلماتك الرئيسية أو أوامر الصوت إلى مواقع إلكترونية متكاملة. استمتع بقوة الذكاء الاصطناعي، حيث يسهل عملية التصميم، مما يتيح لك إنشاء وجودٍ مذهل على الإنترنت في دقائق. سواء كنت صاحب عمل، مدون، أو مبدع، فإن أداتنا تبسط عملية بناء المواقع، مما يجعلها متاحة وفعالة للجميع.

منشئ مواقع الويب بالذكاء الاصطناعي AI Website Designer

Find AI tools in YBX