مؤشر سيرا الجديد يسلط الضوء على أداء وكلاء الذكاء الاصطناعي في المهام الواقعية

Home أخبار الذكاء الاصطناعي مؤشر سيرا الجديد يسلط الضوء على أداء وكلاء الذكاء الاصطناعي في المهام الواقعية

Updated on يونيو 20 2024

سيرا تطلق TAU-bench: معيار جديد لتقييم وكلاء الذكاء الاصطناعي التفاعلي

أعلنت سيرا، الشركة الناشئة في مجال الذكاء الاصطناعي التي شارك في تأسيسها عضو مجلس إدارة OpenAI بريت تايلور وخبير Google AR/VR كلاي بافور، عن إطلاق TAU-bench، وهو معيار ثوري لتقييم أداء الذكاء الاصطناعي التفاعلي. أداة TAU-bench تختبر بشكل صارم قدرة وكلاء الذكاء الاصطناعي على إكمال المهام المعقدة من خلال تبادلات متعددة مع مستخدمين مقلدين بواسطة نماذج اللغة الكبيرة. تكشف النتائج الأولية أن الوكلاء الذين يستخدمون آليات نماذج اللغة الأساسية مثل استدعاء الوظائف أو ReAct يواجهون صعوبات حتى في المهام البسيطة، مما يُظهر الحاجة الملحة إلى هياكل وكيلة أكثر تطوراً. يمكن للمطورين الوصول إلى كود TAU-bench على مستودع GitHub الخاص بسيرا.

النقاط الأساسية حول TAU-bench

يقول كارثيك ناراسيمهان، رئيس أبحاث سيرا: "من خلال تجربتنا في نشر وكلاء تفاعليين يركزون على المستخدم، أصبح من الواضح أن قياس أداء الوكيل وموثوقيته بدقة أمر بالغ الأهمية لنشر ناجح". ويؤكد على أن الشركات يجب أن تقيم فعالية الوكيل في سيناريوهات واقعية قبل إطلاقه.

ينتقد ناراسيمهان المعايير الحالية مثل WebArena وSWE-bench وAgentbench لعيوبها. رغم أن هذه الأدوات يمكن أن تُظهر القدرات العالية للوكيل، إلا أنها غالباً ما تقيم تفاعلًا واحدًا فقط. على سبيل المثال:

المستخدم: "كيف سيكون الطقس في نيويورك اليوم؟"

الذكاء الاصطناعي: "اليوم في نيويورك، سيكون الجو مشمسًا مع درجة حرارة تصل إلى 75°F (24°C) ودرجة دنيا 60°F (16°C)."

في الممارسة العملية، يجب على الوكلاء التنقل بين تبادلات ديناميكية متعددة لجمع المعلومات:

المستخدم: "أريد حجز رحلة."

الذكاء الاصطناعي: "بالطبع! من وإلى أين؟"

المستخدم: "من شيكاغو إلى ميامي."

الذكاء الاصطناعي: "فهمت. متى ترغب في السفر؟"

المستخدم: "الجمعة المقبلة."

الذكاء الاصطناعي: "حسنًا. هل لديك تفضيل لوقت المغادرة؟" (تستمر المحادثة)

تركز هذه المعايير على إحصائيات من الدرجة الأولى مثل الأداء المتوسط، لكنها تفشل في قياس الموثوقية أو القدرة على التكيف بشكل فعال.

المتطلبات الأساسية لـ TAU-bench

لتصحيح هذه العيوب، وضعت سيرا ثلاثة متطلبات أساسية لـ TAU-bench:

1. التفاعل في العالم الحقيقي: يجب أن يتفاعل الوكلاء بسلاسة مع البشر وواجهات برمجة التطبيقات البرمجية على مدى فترات زمنية طويلة لحل المشكلات المعقدة.

2. الالتزام بالقواعد المعقدة: يحتاج الوكلاء إلى التوافق بدقة مع السياسات المعقدة الخاصة بمهامهم.

3. الاتساق والموثوقية: يجب أن يظهر الوكلاء أداءً موثوقًا على نطاق واسع، مما يمنح الشركات الثقة في سلوكهم التشغيلي.

يتضمن TAU-bench مهامًا متنوعة، مثل التعامل مع قواعد بيانات واقعية وواجهات برمجة أدوات مع الالتزام بمستندات السياسات الخاصة بالمجال. يحتوي على محاكي مستخدم قائم على نماذج اللغة الكبرى مصمم لإنشاء سيناريوهات متنوعة لتفاعلات واقعية. كل مهمة تقيم قدرة الوكيل على اتباع القواعد، والتفكير بشكل فعال، والاحتفاظ بسياقات طويلة، والتواصل بسلاسة.

المميزات الرئيسية لـ TAU-bench

يسلط ناراسيمهان الضوء على أربع ميزات رئيسية لـ TAU-bench:

1. حوار واقعي واستخدام أدوات: يتم إنشاء سيناريوهات المستخدم المعقدة باستخدام اللغة الطبيعية، مما يبتعد عن النصوص المعقدة القائمة على القواعد.

2. مهام مفتوحة ومتنوعة: يدعم الإطار مهامًا غنية ومفصلة دون حلول مسبقة، مما يضمن قدرة وكلاء الذكاء الاصطناعي على التعامل مع مجموعة واسعة من السيناريوهات الواقعية.

3. تقييم موضوعي: يقيس TAU-bench نتائج المهام بدلاً من جودة المحادثة، مما يوفر تقييمًا غير متحيز لنجاح الوكيل الذكي في تحقيق أهدافه دون الاعتماد على المقيمين البشريين.

4. إطار عمل موديولاري: تم بناء TAU-bench بطريقة كتل البناء، مما يجعله يتكيف بسهولة مع مجالات جديدة وواجهات برمجة التطبيقات والمهام ومقاييس التقييم.

كيف تؤدي نماذج الذكاء الاصطناعي مع TAU-bench؟

قامت سيرا بتقييم 12 نموذج لغة كبير من OpenAI وAnthropic (باستثناء Claude 3.5 Sonnet) وGoogle وMistral باستخدام TAU-bench. أظهرت النتائج تحديات كبيرة، حيث حقق أفضل الوكلاء، وهو GPT-4o من OpenAI، معدل نجاح يقل عن 50% عبر مجالين.

علاوة على ذلك، أظهرت جميع الوكلاء المختبرين موثوقية "سيئة للغاية"، حيث فشلوا في حل نفس المهمة بشكل متسق عند تكرار التجارب.

تدفع هذه الرؤى ناراسيمهان للتأكيد على أن نماذج اللغة الأكثر تقدمًا ضرورية لتعزيز التفكير والتخطيط وتعقيد السيناريوهات. كما يدعو إلى إنشاء أدوات تلقائية للتعليق وتطوير مقاييس تقييم أدق لتقييم جوانب إضافية من سلوك الوكيل، مثل النغمة وأسلوب المحادثة.

اكتشف OpenAI واستكشف رؤى تحويل الأعمال في مؤتمر VB Transform 2024

غراي ماتر تؤمن 45 مليون دولار لإحداث ثورة في التصنيع من خلال روبوتات متقدمة تعتمد على "الذكاء الاصطناعي المستند إلى الفيزياء"

Most people like

MyShell AI

1.3M

اكتشف منصة MyShell، حيث يمكنك تصميم دردشات آلية مخصصة مدعومة بتكنولوجيا Web3. شارك بسهولة وخصص إبداعاتك مع الأصدقاء!

مدعوم بالذكاء الاصطناعي AI App Builder

Story.com

افتح آفاق إبداعك من خلال صياغة ومشاركة قصص مثيرة تم إنشاؤها بواسطة الذكاء الاصطناعي. استكشف قوة الذكاء الاصطناعي لتحويل أفكارك إلى سرد بصري مذهل يتفاعل مع الجمهور. سواء كان ذلك للتعبير الشخصي أو سرد القصص المهنية، تتيح لك منصتنا تحقيق رؤيتك بسهولة. انطلق في عالم إنشاء الفيديوهات باستخدام الذكاء الاصطناعي اليوم!

قصص الفيديو بالذكاء الاصطناعي AI Story Writing

NeuralText

42.9K

في العصر الرقمي، يُعتبر إنشاء محتوى عالي الجودة أمرًا أساسيًا للرؤية الإلكترونية والتفاعل. تقوم أدوات الذكاء الاصطناعي للمساعدة في الكتابة وأدوات تحسين محركات البحث بتحويل كيفية إنتاج النصوص، مما يسهل صياغة سرديات جذابة تتفاعل مع الجماهير. لا تعزز هذه التقنيات المتقدمة كفاءة الكتابة فحسب، بل تعمل أيضًا على تحسين المحتوى لمحركات البحث، مما يضمن وصول عملك إلى الجمهور المستهدف. من خلال استغلال قوة الذكاء الاصطناعي وتحسين محركات البحث، يمكن للكتّاب تعزيز استراتيجيات المحتوى لديهم، وتحسين تصنيفهم في نتائج البحث، وفي النهاية، زيادة حركة المرور إلى مواقعهم الإلكترونية. اكتشف كيف يمكن لهذه الأدوات المبتكرة تحويل عملية الكتابة الخاصة بك وتعزيز وجودك على الإنترنت.

مساعد الكتابة بالذكاء الاصطناعي AI Content Generator

Lebesgue

64K

ليبسيج: أداة تسويقية قوية مصممة لمتاجر التجارة الإلكترونية، تعزز العائد على الاستثمار من خلال الاستفادة من تحليل البيانات المتعمق.

أداة تسويقية AI Advertising Assistant

Find AI tools in YBX