نموذج OpenAI الأحدث "ستروبيري" O1: قفزة ثورية في القدرة على التفكير
في 12 سبتمبر، أطلقت OpenAI نموذجها المنتظر "ستروبيري"، وهو الإصدار الأول في خطها الجديد من نماذج التفكير، المعروف باسم O1. حالياً، تتوفر نسختا المعاينة (o1-preview) والنسخة المصغرة (o1-mini) لمشتركي ChatGPT Plus وTeam، بينما ستحصل فئات المؤسسات والتعليم على وصول مبكر الأسبوع المقبل. كما تخطط OpenAI في النهاية لتوفير O1-mini لجميع المستخدمين المجانيين، رغم أنه لم يتم تأكيد موعد محدد لذلك.
وبحسب OpenAI، يتعامل نموذج O1 مع حل المشكلات بطريقة تشبه التفكير البشري، متفوقاً في المهام المتعلقة بالرياضيات، والترميز، والعلوم. لتقييم قدرات نموذج o1-preview، أجرى صحفي من "ديلي إيكونوميك نيوز" اختبارات عبر خمسة أبعاد: اختبار الستروبيري، والترميز، وإنشاء الألعاب المصغرة، والرياضيات والاقتصاد، والمعرفة الواقعية. أظهرت النتائج أن o1-preview كان متفوقاً على النماذج السابقة من OpenAI في البرمجة والتفكير الرياضي، حيث أنتج كوداً يعمل بسلاسة واستنتج الحلول تلقائياً في سيناريوهات معقدة. بالإضافة إلى ذلك، أظهر o1-preview أسلوب تفكير مشابه للبشر بشكل ملحوظ، بينما كانت أداؤه في تقييمات المعرفة الواقعية أقل من المتوقع.
قدرات التفكير لدى O1
يمثل نموذج O1 خطوة كبيرة نحو إنشاء ذكاء اصطناعي يشبه البشر. قررت OpenAI التخلي تماماً عن علامة "GPT" التجارية مع هذا النموذج، لأنه يجسد قدرة جديدة تماماً. يتناول المشاكل بشكل منهجي عبر خطوات منفصلة تحاكي التفكير البشري.
أشار جاكوب باتشوك، كبير العلماء في OpenAI، إلى أن O1 يظهر نهجاً أكثر حذراً عند مواجهة الاستفسارات، حيث يقوم بتحليل القضايا كخطوات تدريجية لتقديم إجابات محسنة، مما يعكس أنماط التفكير البشري. في البرمجة التنافسية والرياضيات، احتل O1 مرتبة بين الأعلى أداءً، حيث تفوقت دقته في القياسات الفيزيائية والبيولوجية والكيميائية على حتى حاملي شهادات الدكتوراه.
نتائج الاختبارات الشاملة
1. اختبار الستروبيري
اختبر الصحفي السؤال البسيط: "كم عدد 'ر' في كلمة 'ستروبيري'؟" قام O1-preview بتقديم إجابة دقيقة بشكل غير متوقع، متفوقاً على النماذج السابقة.
2. البرمجة
في مهام البرمجة، وعند طرح مشكلة "مجموع اثنين" الكلاسيكية، قدم o1-preview عملية تفكير مفصلة مع الحل. وعندما سُئل عن تحسين الإجابة، استغرق O1 تسع ثوانٍ للتأكيد على أنه قدم الحل الأمثل واقترح نوعاً غير مثالي أيضاً.
3. إنشاء الألعاب المصغرة
أثناء اختبار إنشاء الألعاب المصغرة، أنتج o1-preview كود لعبة بونغ تعمل بسلاسة في 19 ثانية، مزودًا بدليل التعلم وتعليقات تشجيعية. عند مكلفته بإنشاء لعبة أكثر تعقيداً، قام O1 بتطوير لعبة قفز جذابة، مما يظهر قدراته المبتكرة في التفكير.
4. الاختبارات العلمية
في اختبارات الرياضيات والاقتصاد، قدم o1-preview رؤى أساسية لمشكلات شهيرة مثل معادلة أويلر، مع الحفاظ على منطق عام واضح. بالنسبة للاستفسارات حول الأنظمة الاقتصادية المعقدة، قدم O1 تفكيراً متعدد الأبعاد وحلولاً.
5. المعرفة الواقعية
في تطبيقات المعرفة الواقعية، أساء o1-preview تفسير الاستفسارات البسيطة، مما أدى إلى خلط المعلومات التافهة بالأحداث التاريخية الفعلية، في حين أظهر GPT-4o أداءً متفوقاً في هذا المجال.
الخلاصة
باختصار، فإن ادعاء OpenAI بأن نموذج O1 يقترب من التفكير بمستوى البشر ليس مبالغة. تظهر عملياته الفكرية استخدامًا أكثر إنسانية للغة، على الرغم من اعتراف OpenAI بأن تصميمه وقدراته في معالجة النص لا تزال متخلفة عن تلك الخاصة بـ GPT-4o. بينما يتفوق O1 في العديد من الجوانب، لا يزال يظهر تقلبات في الأداء عند التعامل مع الطلبات البسيطة. وقد أكدت OpenAI أن التحديثات المستقبلية ستعالج هذه النقائص، مشددة على أن هذه مجرد مرحلة المعاينة المبكرة لنموذج التفكير.