الباحثون يكتشفون أن Google Gemini لا يرقى إلى مستوى GPT-3.5 Turbo

Home أخبار الذكاء الاصطناعي الباحثون يكتشفون أن Google Gemini لا يرقى إلى مستوى GPT-3.5 Turbo

Updated on ديسمبر 19 2023

أوه، جوجل. هل ستتمكنين يومًا ما من إطلاق منتج AI بنجاح من المحاولة الأولى؟

بعد أقل من شهر من إطلاق "جميني"، المنافس المنتظر لـ ChatGPT، واجهت جوجل انتقادات واسعة بسبب ما أكد أنه تفاعلات مزيفة في العرض الترويجي. تشير أبحاث جديدة إلى أن النسخة الأكثر تطورًا المتاحة للمستهلكين، "جميني برو"، تتخلف عن نموذج OpenAI "جي بي تي-3.5 تيربو" في معظم المهام.

تظهر النتائج، التي قدمها فريق من جامعة كارنيجي ميلون وBerriAI في ورقتهم البحثية "نظرة عميقة على قدرات اللغة لجمني"، أن "جميني برو" يؤدي بشكل أسوأ قليلاً من "جي بي تي-3.5 تيربو" في مختلف المهام. توضح الورقة، المنشورة على arXiv.org، أنه اعتبارًا من 19 ديسمبر 2023، فإن دقة "جميني برو" أقل بكثير من تلك للنموذج السابق لـ OpenAI.

رد المتحدث الرسمي باسم جوجل قائلاً إن الأبحاث الداخلية تظهر أن "جميني برو" يتفوق على "جي بي تي-3.5" وأن نسخة أكثر قوة، "جميني أولترا"، ستصدر في أوائل 2024، ومن المتوقع أن تتفوق على "جي بي تي-4" في الاختبارات الداخلية. وأضافوا: "يتفوق جميني برو على النماذج المعدلة للاستدلال مثل "جي بي تي-3.5" ويؤدي بشكل مشابه للنماذج الرائدة الأخرى."

اختبر الباحثون أربعة نماذج لغوية كبيرة: "جميني برو"، "جي بي تي-3.5 تيربو"، "جي بي تي-4 تيربو"، و "ميسترايل مكسترل 8x7B". استخدموا موقع تجميع الذكاء الاصطناعي "لايت لال في" لتقييم النماذج على مدى أربعة أيام، باستخدام مجموعة من التعليمات، بما في ذلك 57 سؤال اختيار من متعدد تغطي مجالات العلوم واله humanities والعلوم الاجتماعية.

في اختبار الأسئلة والإجابات المعتمدة على المعرفة، حصل "جميني برو" على 64.12/60.63، بينما حقق "جي بي تي-3.5 تيربو" 67.75/70.07 و"جي بي تي-4 تيربو" 80.48/78.95. من الجدير بالذكر أن "جميني" كان يميل بشكل مستمر لاختيار الإجابة "D"، مما يشير إلى تحيز محتمل نتيجة نقص ضبط التعليمات لصيغ الاختيار من متعدد. علاوة على ذلك، واجه صعوبات في فئات محددة مثل الجنس البشري والمنطق الرسمي بسبب قيود استجابة الأمان.

على الرغم من تفوق "جميني برو" على "جي بي تي-3.5 تيربو" في أسئلة الاقتصاد الجزئي المدرسي وأسئلة الأمن، إلا أن هذه المكاسب كانت ضئيلة. عند اختبار الاستفسارات الطويلة أو الأكثر تعقيدًا، أظهر "جميني برو" دقة أقل مقارنة بكلا النموذجين "جي بي تي"، على الرغم من تميزه في مهام ترتيب الكلمات ومعالجة الرموز.

في قدرات البرمجة، وجد "جميني" أيضًا أنه في مرحلة نقص، حيث كان أداؤه أسوأ من "جي بي تي-3.5 تيربو" في إكمال مهام كود بايثون. رغم أن "جميني برو" أظهر وعودًا في الترجمة اللغوية — متفوقًا على "جي بي تي-3.5 تيربو" و"جي بي تي-4 تيربو" في عدة لغات — إلا أنه أظهر أيضًا ميلاً لحظر الردود عبر الكثير من أزواج اللغات بسبب تعديل المحتوى.

تعتبر تداعيات هذه النتائج مهمة لطموحات جوجل في مجال الذكاء الاصطناعي. مع اقتراب إصدار "جميني أولترا"، قد تستمر جوجل في التأخر عن OpenAI في أداء الذكاء الاصطناعي الإبداعي. ومن المثير للاهتمام، أن الأبحاث أشارت أيضًا إلى أن "ميسترايل مكسترل 8x7B" كان أداؤه أسوأ من "جي بي تي-3.5 تيربو" في معظم المهام، مما يوحي أنه بينما "جميني برو" ليس الأفضل، إلا أنه لا يزال يتفوق على بعض المنافسين الناشئين.

بشكل عام، تعزز الدراسة فكرة أن OpenAI لا تزال تحافظ على ريادتها في مشهد الذكاء الاصطناعي الإبداعي. كما أشار متخصصون مثل أستاذ جامعة بنسلفانيا إيثان مولك، بأنه بالنسبة لمعظم التطبيقات الفردية، يبقى "جي بي تي-4" الخيار المفضل — على الأقل حتى يتم إصدار "جميني أولترا" في العام المقبل.

هل من الممكن الحصول على سيارة شيفروليه مقابل دولار واحد؟ استكشاف روبوتات الدردشة الذكية ومخاطرها في خدمة العملاء بمجال السيارات

تمتلك شركة باترونوس أيه آي القدرة على تحديد الثغرات الأمنية "المقلقة" في أنظمة الذكاء الاصطناعي الكبرى.

Most people like

Nexlev

124.2K

اكتشف فرص يوتيوب المخفية من خلال الرؤى المدفوعة بالذكاء الاصطناعي من NexLev.io.

يوتيوب AI Course

Danelfin

208.7K

اكتشف الأسهم ذات الأداء العالي وطور محافظ استثماراتك باستخدام رؤى مدعومة بالذكاء الاصطناعي وسهلة الفهم.

تحليلات الأسهم AI Analytics Assistant

NicheBay

96.8K

مقدمة: اكتشف إمكانيات عملك في الدروبشيبينغ ومتجر Shopify الخاص بك مع تطبيقنا المبتكر المخصص لرواد الأعمال في التجارة الإلكترونية. قم بتبسيط عملياتك، وزيادة إنتاجيتك، وتعظيم مبيعاتك جميعها من هاتفك الذكي. سواء كنت تدير المخزون، تتابع الطلبات، أو تحلل اتجاهات المبيعات، يقدم تطبيقنا تكاملًا سلسًا وميزات سهلة الاستخدام مصممة لتلبية الاحتياجات الفريدة لمديري الدروبشيبينغ ومالكي متاجر Shopify. ارتقِ بعملك إلى آفاق جديدة اليوم!

تطبيق دروبشيبينغ Other

Pionex

3.3M

اكتشف أفضل روبوت للتداول في العملات الرقمية الذي يجمع بين الأمان والفعالية والأتمتة الكاملة. عزز كفاءة تداولك مع تقليل المخاطر باستخدام اختيارنا الأفضل لتداول العملات المشفرة.

تداول العملات الرقمية AI Trading Bot Assistant

Find AI tools in YBX