الباحثون يكتشفون أن Google Gemini لا يرقى إلى مستوى GPT-3.5 Turbo

أوه، جوجل. هل ستتمكنين يومًا ما من إطلاق منتج AI بنجاح من المحاولة الأولى؟

بعد أقل من شهر من إطلاق "جميني"، المنافس المنتظر لـ ChatGPT، واجهت جوجل انتقادات واسعة بسبب ما أكد أنه تفاعلات مزيفة في العرض الترويجي. تشير أبحاث جديدة إلى أن النسخة الأكثر تطورًا المتاحة للمستهلكين، "جميني برو"، تتخلف عن نموذج OpenAI "جي بي تي-3.5 تيربو" في معظم المهام.

تظهر النتائج، التي قدمها فريق من جامعة كارنيجي ميلون وBerriAI في ورقتهم البحثية "نظرة عميقة على قدرات اللغة لجمني"، أن "جميني برو" يؤدي بشكل أسوأ قليلاً من "جي بي تي-3.5 تيربو" في مختلف المهام. توضح الورقة، المنشورة على arXiv.org، أنه اعتبارًا من 19 ديسمبر 2023، فإن دقة "جميني برو" أقل بكثير من تلك للنموذج السابق لـ OpenAI.

رد المتحدث الرسمي باسم جوجل قائلاً إن الأبحاث الداخلية تظهر أن "جميني برو" يتفوق على "جي بي تي-3.5" وأن نسخة أكثر قوة، "جميني أولترا"، ستصدر في أوائل 2024، ومن المتوقع أن تتفوق على "جي بي تي-4" في الاختبارات الداخلية. وأضافوا: "يتفوق جميني برو على النماذج المعدلة للاستدلال مثل "جي بي تي-3.5" ويؤدي بشكل مشابه للنماذج الرائدة الأخرى."

اختبر الباحثون أربعة نماذج لغوية كبيرة: "جميني برو"، "جي بي تي-3.5 تيربو"، "جي بي تي-4 تيربو"، و "ميسترايل مكسترل 8x7B". استخدموا موقع تجميع الذكاء الاصطناعي "لايت لال في" لتقييم النماذج على مدى أربعة أيام، باستخدام مجموعة من التعليمات، بما في ذلك 57 سؤال اختيار من متعدد تغطي مجالات العلوم واله humanities والعلوم الاجتماعية.

في اختبار الأسئلة والإجابات المعتمدة على المعرفة، حصل "جميني برو" على 64.12/60.63، بينما حقق "جي بي تي-3.5 تيربو" 67.75/70.07 و"جي بي تي-4 تيربو" 80.48/78.95. من الجدير بالذكر أن "جميني" كان يميل بشكل مستمر لاختيار الإجابة "D"، مما يشير إلى تحيز محتمل نتيجة نقص ضبط التعليمات لصيغ الاختيار من متعدد. علاوة على ذلك، واجه صعوبات في فئات محددة مثل الجنس البشري والمنطق الرسمي بسبب قيود استجابة الأمان.

على الرغم من تفوق "جميني برو" على "جي بي تي-3.5 تيربو" في أسئلة الاقتصاد الجزئي المدرسي وأسئلة الأمن، إلا أن هذه المكاسب كانت ضئيلة. عند اختبار الاستفسارات الطويلة أو الأكثر تعقيدًا، أظهر "جميني برو" دقة أقل مقارنة بكلا النموذجين "جي بي تي"، على الرغم من تميزه في مهام ترتيب الكلمات ومعالجة الرموز.

في قدرات البرمجة، وجد "جميني" أيضًا أنه في مرحلة نقص، حيث كان أداؤه أسوأ من "جي بي تي-3.5 تيربو" في إكمال مهام كود بايثون. رغم أن "جميني برو" أظهر وعودًا في الترجمة اللغوية — متفوقًا على "جي بي تي-3.5 تيربو" و"جي بي تي-4 تيربو" في عدة لغات — إلا أنه أظهر أيضًا ميلاً لحظر الردود عبر الكثير من أزواج اللغات بسبب تعديل المحتوى.

تعتبر تداعيات هذه النتائج مهمة لطموحات جوجل في مجال الذكاء الاصطناعي. مع اقتراب إصدار "جميني أولترا"، قد تستمر جوجل في التأخر عن OpenAI في أداء الذكاء الاصطناعي الإبداعي. ومن المثير للاهتمام، أن الأبحاث أشارت أيضًا إلى أن "ميسترايل مكسترل 8x7B" كان أداؤه أسوأ من "جي بي تي-3.5 تيربو" في معظم المهام، مما يوحي أنه بينما "جميني برو" ليس الأفضل، إلا أنه لا يزال يتفوق على بعض المنافسين الناشئين.

بشكل عام، تعزز الدراسة فكرة أن OpenAI لا تزال تحافظ على ريادتها في مشهد الذكاء الاصطناعي الإبداعي. كما أشار متخصصون مثل أستاذ جامعة بنسلفانيا إيثان مولك، بأنه بالنسبة لمعظم التطبيقات الفردية، يبقى "جي بي تي-4" الخيار المفضل — على الأقل حتى يتم إصدار "جميني أولترا" في العام المقبل.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles