تحتفل ChatGPT هذا الأسبوع بالذكرى السنوية الأولى لها، بينما تدخل شركة DeepSeek AI الصينية الساحة التنافسية للذكاء الاصطناعي الحواري من خلال عرضها الجديد: DeepSeek Chat.
تتواجد DeepSeek Chat حاليًا في مرحلة الاختبار الأولي، حيث تستخدم نماذج DeepSeek LLM المكونة من 7B و67B معامل، المجهزة على مجموعة بيانات تضم 2 تريليون توكن باللغتين الإنجليزية والصينية. تشير المعايير إلى أن هذه النماذج تتفوق في تقييمات متنوعة، بما في ذلك البرمجة والرياضيات، وغالبًا ما تنافس أو تتفوق على نموذج Meta’s Llama 2-70B.
تسهم DeepSeek Chat في تنمية مجموعة اللاعبين الصينيين في سوق الذكاء الاصطناعي، بعد الإصدارات البارزة من Qwen و01.AI وBaidu. وقد جعلت DeepSeek النسخ الأساسية والصحيحة من نماذجها مفتوحة المصدر لتشجيع مزيد من البحث في القطاعات الأكاديمية والتجارية.
تأسست DeepSeek مؤخرًا بهدف فك شيفرة الذكاء الاصطناعي العام (AGI)، وتسمح أيضًا بالاستخدام التجاري تحت شروط معينة.
الميزات الرئيسية لـ DeepSeek Chat ونماذج LLM
يتوفر DeepSeek Chat عبر واجهة ويب مشابهة لـ ChatGPT، مما يتيح للمستخدمين تسجيل الدخول والتفاعل مع النموذج للقيام بمهام متنوعة. حاليًا، النسخة المتاحة هي فقط 67B.
كلا نموذجي DeepSeek تم بناؤهما باستخدام بنية ترميز تحويلي باستخدام أسلوب التعلم الذاتي، لكنهما يختلفان في طرق الاستدلال. يستخدم النموذج الأصغر 7B الانتباه متعدد الرؤوس (MHA)، بينما يستخدم النموذج الأكبر 67B الانتباه المجموعاتي (GQA).
وفقًا لصفحة GitHub الخاصة بالنماذج، تم تدريب النموذج 7B بحجم دفعة يبلغ 2304 وسرعة تعلم تبلغ 4.2e-4، بينما استخدمت النسخة 67B حجم دفعة يبلغ 4608 وسرعة تعلم تبلغ 3.2e-4. تشمل بروتوكولات التدريب جدول سرعة تعلم متعدد المراحل، بدءًا من 2000 خطوة تحمية قبل التعديل بناءً على عدد التوكنات.
في الاختبارات، أظهر النموذج DeepSeek LLM 67B Base قدرات عامة مثيرة للإعجاب، متفوقًا على Llama2 70B Base في التفكير المنطقي، البرمجة، الرياضيات، وفهم اللغة الصينية. المجال الوحيد الذي تفوق فيه Llama قليلاً كان في اختبارات معلومات عامة من 5 أسئلة (79.5 مقابل 78.9).
كما تفوق الإصدار المحسن لنسخة الدردشة في اختبارات جديدة. على سبيل المثال، حقق نموذج DeepSeek Chat درجة 73.78 في مهمة البرمجة HumanEval pass@1 و84.1 في الرياضيات GSM8K zero-shot، ليحتل المرتبة مباشرة خلف GPT-4 وClaude 2 من Anthropic.
ومع ذلك، على الرغم من هذه المعايير القوية، تظهر بعض الإشارات على أن نموذج DeepSeek قد يحتوي على آليات رقابة. أشار أحد المستخدمين على منصة X إلى أن الردود قد تم حذفها عندما كانت الموضوعات تتعلق بالصين، واستُبدلت برسالة تفيد بأن المحتوى "تم سحبه" لأسباب أمنية. ولا يزال من غير الواضح ما إذا كانت النسخة الأساسية تحتوي أيضًا على فلاتر مماثلة.
عروض LLM المتنوعة
تعد إطلاق نماذج DeepSeek LLM تقدمًا كبيرًا للصين في مجال الذكاء الاصطناعي، مما يعزز مجموعة أحجام النماذج المتاحة لتلبية احتياجات المستخدمين المتنوعة. تشمل العروض الحديثة الأخرى في الذكاء الاصطناعي الصيني نموذج Baidu Ernie 4.0، ونموذج 01.AI Yi 34B، ونماذج Qwen التي تتراوح من 1.8B إلى 72B.
ومن المثير للاهتمام أن بعض النماذج الأصغر قد تفوقت على نظرائها الأكبر، مثل Yi 34B، الذي أظهر قدرات تعادل تلك الخاصة بـ Llama-2-70B وFalcon-180B. تشير هذه الاتجاهات إلى أن الشركات يمكن أن تحقق كفاءات عن طريق اختيار نماذج أصغر دون المساس بالفاعلية، مما يساعد في الحفاظ على الموارد الحاسوبية مع تلبية مختلف حالات الاستخدام.
في الأسبوع الماضي فقط، دخلت Microsoft هذه الساحة التنافسية مع نماذج Orca 2، التي أظهرت أداءً متفوقًا مقارنةً بالنماذج التي تتراوح أحجامها بين خمسة إلى عشرة أضعاف أحجامها، بما في ذلك Llama-2Chat-70B.