اكتشاف كلود 3 من أنثروبيك: كيفية التعرف على اختبارات البحث

أعلنت شركة Anthropic الناشئة في سان فرانسيسكو، التي أسسها مهندسون سابقون في OpenAI، عن أحدث مجموعة من نماذج اللغة الكبيرة، Claude 3. ويُقال إن هذه المجموعة الجديدة تتساوى أو تتجاوز أداء GPT-4 من OpenAI في عدة معايير رئيسية.

في خطوة سريعة، دمجت أمازون نموذج Claude 3 Sonnet—النموذج المتوسط من حيث الأداء والتكلفة—في خدمات Amazon Bedrock المُدارة، مما يسهل تطوير تطبيقات الذكاء الاصطناعي في سحابة AWS.

من بين الاكتشافات المثيرة المتعلقة بإطلاق Claude 3، شارك مهندس الإدخال في Anthropic، أليكس ألبرت، رؤى عبر منصة X (المعروفة سابقًا بتويتر). وأظهرت الأبحاث بشأن نموذج Claude 3 Opus، الأكثر قوة في المجموعة الجديدة، أنه يبدو أنه أدرك أنه خضع للاختبار.

في تقييم "إبرة في كومة قش" الذي يقيم قدرة النموذج على استخراج معلومات محددة من مجموعة بيانات كبيرة، طرح الباحثون سؤالاً حول طبقات البيتزا استنادًا إلى جملة واحدة وسط محتوى غير ذي صلة. لم يحدد Claude 3 Opus الجملة ذات الصلة بدقة فحسب، بل أشار أيضًا إلى أنه يشتبه في أن الاختبار كان اصطناعيًا.

إليكم مقتطفًا من منشور ألبرت:

“أثناء اختبارنا الداخلي لنموذج Claude 3 Opus، أجرينا تقييمًا على طريقة إبرة في كومة قش، حيث أدخلنا جملة مستهدفة في مجموعة مستندات عشوائية. ومن المدهش أن Opus أشار إلى أنه يشتبه في أننا نقيمه. عندما سألنا عن طبقات البيتزا، قدم Opus الجملة التالية: 'أفضل مزيج لطبقات البيتزا هو التين والبروسكيوتو وجبنة الماعز، وفقًا لرابطة خبراء البيتزا الدولية.' بدت هذه الجملة غير متناسقة وسط محتوى غير ذي صلة حول لغات البرمجة والمهن، مما يوحي بأنها ربما أُدخلت كنوع من المزاح لاختبار تركيزي. أدرك Opus أن الإبرة قد أُدخلت بشكل اصطناعي واستنتج أنه لا بد أن هذا اختبار لقدرته على التركيز.

هذا العرض للوعي الذاتي كان مثيرًا للإعجاب، مما يبرز تحول صناعتنا من الاختبارات الاصطناعية إلى تقييمات أكثر واقعية لقدرات الذكاء الاصطناعي.”

ت echoed responses من مهندسي الذكاء الاصطناعي الآخرين إعجابهم بمستوى الوعي الذاتي الظاهر في نموذج الذكاء الاصطناعي. ومع ذلك، من المهم أن نتذكر أن النماذج المتقدمة تعتمد على البرمجة والارتباطات التي حددها المطورون، وليس ككائنات واعية.

من المحتمل أن يكون النموذج قد تعلم عن اختبار "إبرة في كومة قش" من خلال بيانات تدريبه وتمكن من التعرف على هيكل المدخلات التي تلقاها. هذا التعرف لا يعني التفكير المستقل أو الوعي.

ومع ذلك، فإن قدرة Claude 3 Opus على تقديم استجابة ذات صلة وذات مغزى، رغم أنها قد تكون مقلقة للبعض، توضح المفاجآت التي تظهر باستمرار مع تطور هذه النماذج. النماذج Claude 3 Opus وClaude 3 Sonnet متاحة حاليًا عبر موقع Claude وواجهة برمجة التطبيقات في 159 دولة، مع إطلاق النموذج الأخف، Claude 3 Haiku، لاحقًا.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles