مؤشر سيرا الجديد يسلط الضوء على أداء وكلاء الذكاء الاصطناعي في المهام الواقعية

سيرا تطلق TAU-bench: معيار جديد لتقييم وكلاء الذكاء الاصطناعي التفاعلي

أعلنت سيرا، الشركة الناشئة في مجال الذكاء الاصطناعي التي شارك في تأسيسها عضو مجلس إدارة OpenAI بريت تايلور وخبير Google AR/VR كلاي بافور، عن إطلاق TAU-bench، وهو معيار ثوري لتقييم أداء الذكاء الاصطناعي التفاعلي. أداة TAU-bench تختبر بشكل صارم قدرة وكلاء الذكاء الاصطناعي على إكمال المهام المعقدة من خلال تبادلات متعددة مع مستخدمين مقلدين بواسطة نماذج اللغة الكبيرة. تكشف النتائج الأولية أن الوكلاء الذين يستخدمون آليات نماذج اللغة الأساسية مثل استدعاء الوظائف أو ReAct يواجهون صعوبات حتى في المهام البسيطة، مما يُظهر الحاجة الملحة إلى هياكل وكيلة أكثر تطوراً. يمكن للمطورين الوصول إلى كود TAU-bench على مستودع GitHub الخاص بسيرا.

النقاط الأساسية حول TAU-bench

يقول كارثيك ناراسيمهان، رئيس أبحاث سيرا: "من خلال تجربتنا في نشر وكلاء تفاعليين يركزون على المستخدم، أصبح من الواضح أن قياس أداء الوكيل وموثوقيته بدقة أمر بالغ الأهمية لنشر ناجح". ويؤكد على أن الشركات يجب أن تقيم فعالية الوكيل في سيناريوهات واقعية قبل إطلاقه.

ينتقد ناراسيمهان المعايير الحالية مثل WebArena وSWE-bench وAgentbench لعيوبها. رغم أن هذه الأدوات يمكن أن تُظهر القدرات العالية للوكيل، إلا أنها غالباً ما تقيم تفاعلًا واحدًا فقط. على سبيل المثال:

المستخدم: "كيف سيكون الطقس في نيويورك اليوم؟"

الذكاء الاصطناعي: "اليوم في نيويورك، سيكون الجو مشمسًا مع درجة حرارة تصل إلى 75°F (24°C) ودرجة دنيا 60°F (16°C)."

في الممارسة العملية، يجب على الوكلاء التنقل بين تبادلات ديناميكية متعددة لجمع المعلومات:

المستخدم: "أريد حجز رحلة."

الذكاء الاصطناعي: "بالطبع! من وإلى أين؟"

المستخدم: "من شيكاغو إلى ميامي."

الذكاء الاصطناعي: "فهمت. متى ترغب في السفر؟"

المستخدم: "الجمعة المقبلة."

الذكاء الاصطناعي: "حسنًا. هل لديك تفضيل لوقت المغادرة؟" (تستمر المحادثة)

تركز هذه المعايير على إحصائيات من الدرجة الأولى مثل الأداء المتوسط، لكنها تفشل في قياس الموثوقية أو القدرة على التكيف بشكل فعال.

المتطلبات الأساسية لـ TAU-bench

لتصحيح هذه العيوب، وضعت سيرا ثلاثة متطلبات أساسية لـ TAU-bench:

1. التفاعل في العالم الحقيقي: يجب أن يتفاعل الوكلاء بسلاسة مع البشر وواجهات برمجة التطبيقات البرمجية على مدى فترات زمنية طويلة لحل المشكلات المعقدة.

2. الالتزام بالقواعد المعقدة: يحتاج الوكلاء إلى التوافق بدقة مع السياسات المعقدة الخاصة بمهامهم.

3. الاتساق والموثوقية: يجب أن يظهر الوكلاء أداءً موثوقًا على نطاق واسع، مما يمنح الشركات الثقة في سلوكهم التشغيلي.

يتضمن TAU-bench مهامًا متنوعة، مثل التعامل مع قواعد بيانات واقعية وواجهات برمجة أدوات مع الالتزام بمستندات السياسات الخاصة بالمجال. يحتوي على محاكي مستخدم قائم على نماذج اللغة الكبرى مصمم لإنشاء سيناريوهات متنوعة لتفاعلات واقعية. كل مهمة تقيم قدرة الوكيل على اتباع القواعد، والتفكير بشكل فعال، والاحتفاظ بسياقات طويلة، والتواصل بسلاسة.

المميزات الرئيسية لـ TAU-bench

يسلط ناراسيمهان الضوء على أربع ميزات رئيسية لـ TAU-bench:

1. حوار واقعي واستخدام أدوات: يتم إنشاء سيناريوهات المستخدم المعقدة باستخدام اللغة الطبيعية، مما يبتعد عن النصوص المعقدة القائمة على القواعد.

2. مهام مفتوحة ومتنوعة: يدعم الإطار مهامًا غنية ومفصلة دون حلول مسبقة، مما يضمن قدرة وكلاء الذكاء الاصطناعي على التعامل مع مجموعة واسعة من السيناريوهات الواقعية.

3. تقييم موضوعي: يقيس TAU-bench نتائج المهام بدلاً من جودة المحادثة، مما يوفر تقييمًا غير متحيز لنجاح الوكيل الذكي في تحقيق أهدافه دون الاعتماد على المقيمين البشريين.

4. إطار عمل موديولاري: تم بناء TAU-bench بطريقة كتل البناء، مما يجعله يتكيف بسهولة مع مجالات جديدة وواجهات برمجة التطبيقات والمهام ومقاييس التقييم.

كيف تؤدي نماذج الذكاء الاصطناعي مع TAU-bench؟

قامت سيرا بتقييم 12 نموذج لغة كبير من OpenAI وAnthropic (باستثناء Claude 3.5 Sonnet) وGoogle وMistral باستخدام TAU-bench. أظهرت النتائج تحديات كبيرة، حيث حقق أفضل الوكلاء، وهو GPT-4o من OpenAI، معدل نجاح يقل عن 50% عبر مجالين.

علاوة على ذلك، أظهرت جميع الوكلاء المختبرين موثوقية "سيئة للغاية"، حيث فشلوا في حل نفس المهمة بشكل متسق عند تكرار التجارب.

تدفع هذه الرؤى ناراسيمهان للتأكيد على أن نماذج اللغة الأكثر تقدمًا ضرورية لتعزيز التفكير والتخطيط وتعقيد السيناريوهات. كما يدعو إلى إنشاء أدوات تلقائية للتعليق وتطوير مقاييس تقييم أدق لتقييم جوانب إضافية من سلوك الوكيل، مثل النغمة وأسلوب المحادثة.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles