تقنية زيفرا تكشف عن زيـدا: مجموعة بيانات نموذج اللغة الرائدة
أعلنت زيفرا تيكنولوجيز عن إطلاق زيـدا، مجموعة بيانات شاملة تهدف إلى تعزيز تدريب نماذج اللغة. تحتوي زيـدا على 1.3 تريليون رمز، وهي مجموعة مُرشَّحة ومعالجة بدقة ومُستخلَصة من مجموعات بيانات مفتوحة عالية الجودة، بما في ذلك RefinedWeb وStarcoder وC4 وPile وSlimpajama وpe2so وarxiv. تشير الدراسات الأولية إلى أن زيـدا تتفوق على المجموعات التي أُنشئت منها. إصدار أولي من هذه المجموعة يدعم بالفعل نموذج زامبا الخاص بزيفرا، مع خطط لتوفيرها للتنزيل على منصة Hugging Face.
“أنشأنا زيـدا أثناء تطوير مجموعة بيانات للتدريب المسبق لنماذج زامبا الخاصة بنا”، يشارك يوري توكبانوف، مهندس البحث في التعلم الآلي ورئيس المنتج في زيفرا. توفر هذه المجموعة موردًا عالي الجودة بشكل استثنائي لتدريب نماذج اللغة، مما يلغي الحاجة إلى إعادة إنشاء شيء مثل زيـدا من الصفر.”
استهدفت زيفرا تحسين المجموعات الحالية من خلال دمج مختلف المجموعات مفتوحة المصدر. تم تنظيف الرموز بعناية لضمان تفردها، واستخدام الفلترة النحوية للتخلص من الوثائق منخفضة الجودة، وتنفيذ عملية حذف مكررة صارمة ضمن المجموعات وعبرها. كما أشارت زيفرا في تدوينة، “تعتبر عملية الحذف المتقاطع ضرورية، حيث تحتوي العديد من المجموعات على وثائق متداخلة من مصادر شائعة مثل Common Crawl.”
من بين سبعة مجموعات بيانات مفتوحة لنمذجة اللغة، تعتبر RefinedWeb أكبر المساهمين، حيث تشكل 43.6% من زيـدا. تشمل المصادر المهمة الأخرى Slimpajama (18.7%) وStarCoder (17.8%)، بينما تمثل النسبة المتبقية نسبًا أصغر.
“بشكل إجمالي، تخلصنا من حوالي 40% من مجموعتنا الأولية، مما خفض عدد الرموز من تقدير 2 تريليون إلى 1.3 تريليون”، يوضح توكبانوف.
كونها مفتوحة المصدر، تتيح زيـدا للمطورين الاستفادة من مجموعة بيانات نمذجة اللغة الحديثة هذه في تطبيقات متنوعة، بدءًا من تحسين توقعات الكلمات وتوليد النصوص وصولًا إلى تحسين الترجمة اللغوية. إذا حققت زيـدا النتائج المتوقعة، فإنها ستساعد المطورين في تبسيط عملياتهم، مما يقلل من زمن الإنتاج وتكاليفه.
هل تساءلت عن اسم زيـدا؟ يكشف توكبانوف أنه مزيج من “مجموعة بيانات زيفرا.”
يمكنك تنزيل زيـدا من صفحة زيفرا على Hugging Face.