اليوم، قدمت Cohere for AI، المختبر البحثي غير الربحي الذي أسسته Cohere في عام 2022، نموذج Aya، وهو نموذج لغة كبير مفتوح المصدر يدعم 101 لغة، وهو عدد يزيد عن ضعف عدد اللغات التي تقدمها النماذج المفتوحة المصدر الحالية.
يأتي مع هذا الإصدار مجموعة بيانات Aya، التي تحتوي على تعليقات بشرية أساسية لتدريب النماذج في اللغات الأقل شيوعًا. وقد طور باحثو Cohere for AI أساليب لتحسين أداء النماذج باستخدام بيانات تدريب محدودة.
أُطلق مشروع Aya في يناير 2023 كجهد كبير شارك فيه أكثر من 3,000 متعاون من 119 دولة. وقد صرحت سارة هوكر، نائب رئيس الأبحاث في Cohere وقائدة Cohere for AI، أن المشروع تجاوز توقعاتهم بكثير، حيث يحتوي على أكثر من 513 مليون تعليق مُعدّل بدقة. تعتبر هذه البيانات الأساسية "كنزًا ثمينًا" لتطوير تدريب النماذج الجديدة بشكل يتجاوز البيانات الأساسية المتاحة عبر الإنترنت.
شارك إيفان زانغ، المؤسس المشارك ورئيس التكنولوجيا في Cohere، عبر منصة X أن الفريق يقوم بإصدار تجارب بشرية عبر أكثر من 100 لغة لتوسيع إمكانية الوصول إلى النماذج اللغوية الكبيرة، مما يضمن خدمتها لجمهور عالمي وليس فقط للمتحدثين باللغة الإنجليزية. واعتبر هذا إنجازًا علميًا وتشغيليًا رائعًا قدمته هوكر وفريق Cohere for AI.
فتح إمكانيات النماذج اللغوية الكبيرة للغات والثقافات الممثلة بشكل ضعيف
تسعى مجموعة بيانات ونموذج Aya، وفقًا لتدوينة من Cohere، إلى مساعدة الباحثين في استكشاف إمكانيات النماذج اللغوية الكبيرة للعديد من اللغات والثقافات التي تم تجاهلها بشكل كبير من قبل النماذج الحالية. تكشف المعايير الخاصة بـ Cohere for AI أن نموذج Aya يتفوق بشكل ملحوظ على أفضل النماذج متعددة اللغات المفتوحة المصدر، مثل mT0 وBloomz، بينما يوسع أيضًا نطاقه ليشمل أكثر من 50 لغة لم تُخدم سابقًا، بما في ذلك الصومالية والأوزبكية.
أكدت هوكر أن النماذج التي تدعم أكثر من ست لغات تُعتبر "متطرفة"، ولا يحقق سوى عدد قليل منها أداءً "متعدد اللغات بشكل كبير" مع حوالي 25 لغة.
معالجة نقص البيانات خارج نطاق الإنجليزية
شرحت هوكر أن هناك "هاوية بيانات" خارج نطاق بيانات التعديل الخاصة باللغة الإنجليزية، مما يجعل مجموعة بيانات Aya نادرة بشكل استثنائي. تعتقد أن الباحثين سيختارون لغات من مجموعة البيانات لتطوير نماذج لخدمات مجتمعات لغوية معينة - وهي حاجة ملحة. ومع ذلك، أشارت إلى أن التحدي الفني الرئيسي يكمن في الدقة، حيث يتوقع المستخدمون في جميع أنحاء العالم نماذج مخصصة تناسب لغاتهم.
ألكسُا غوردتش، الباحث السابق في Google DeepMind ومؤسس YugoGPT الذي تفوق على Mistral وLlama 2 للغات الصربية والبوسنية والكرواتية والجبل الأسود، شدد على أهمية مجموعات البيانات متعددة اللغات مثل Aya. وأفاد بأن تطوير نماذج لغوية كبيرة عالية الجودة للغات غير الإنجليزية يتطلب مصادر بيانات عالية الجودة وفيرة.
بينما يعتقد أن هذا الجهد يمثل خطوة في الاتجاه الصحيح، أشار غوردتش إلى أن مجتمع البحث العالمي والدعم الحكومي ضروريان لإنشاء وصيانة مجموعات بيانات كبيرة وعالية الجودة للحفاظ على اللغات والثقافات في ظل التطور المستمر في مجال الذكاء الاصطناعي.
نموذج Aya ومجموعات بيانات Cohere for AI متاحة الآن على منصة Hugging Face.