زايبرا تطلق زيدا: مجموعة بيانات لنمذجة اللغة بحجم 1.3 تيرابايت تدعي أنها تتفوق على بايل وC4 وarXiv.

Home أخبار الذكاء الاصطناعي زايبرا تطلق زيدا: مجموعة بيانات لنمذجة اللغة بحجم 1.3 تيرابايت تدعي أنها تتفوق على بايل وC4 وarXiv.

Updated on أكتوبر 25 2024

تقنية زيفرا تكشف عن زيـدا: مجموعة بيانات نموذج اللغة الرائدة

أعلنت زيفرا تيكنولوجيز عن إطلاق زيـدا، مجموعة بيانات شاملة تهدف إلى تعزيز تدريب نماذج اللغة. تحتوي زيـدا على 1.3 تريليون رمز، وهي مجموعة مُرشَّحة ومعالجة بدقة ومُستخلَصة من مجموعات بيانات مفتوحة عالية الجودة، بما في ذلك RefinedWeb وStarcoder وC4 وPile وSlimpajama وpe2so وarxiv. تشير الدراسات الأولية إلى أن زيـدا تتفوق على المجموعات التي أُنشئت منها. إصدار أولي من هذه المجموعة يدعم بالفعل نموذج زامبا الخاص بزيفرا، مع خطط لتوفيرها للتنزيل على منصة Hugging Face.

“أنشأنا زيـدا أثناء تطوير مجموعة بيانات للتدريب المسبق لنماذج زامبا الخاصة بنا”، يشارك يوري توكبانوف، مهندس البحث في التعلم الآلي ورئيس المنتج في زيفرا. توفر هذه المجموعة موردًا عالي الجودة بشكل استثنائي لتدريب نماذج اللغة، مما يلغي الحاجة إلى إعادة إنشاء شيء مثل زيـدا من الصفر.”

استهدفت زيفرا تحسين المجموعات الحالية من خلال دمج مختلف المجموعات مفتوحة المصدر. تم تنظيف الرموز بعناية لضمان تفردها، واستخدام الفلترة النحوية للتخلص من الوثائق منخفضة الجودة، وتنفيذ عملية حذف مكررة صارمة ضمن المجموعات وعبرها. كما أشارت زيفرا في تدوينة، “تعتبر عملية الحذف المتقاطع ضرورية، حيث تحتوي العديد من المجموعات على وثائق متداخلة من مصادر شائعة مثل Common Crawl.”

من بين سبعة مجموعات بيانات مفتوحة لنمذجة اللغة، تعتبر RefinedWeb أكبر المساهمين، حيث تشكل 43.6% من زيـدا. تشمل المصادر المهمة الأخرى Slimpajama (18.7%) وStarCoder (17.8%)، بينما تمثل النسبة المتبقية نسبًا أصغر.

“بشكل إجمالي، تخلصنا من حوالي 40% من مجموعتنا الأولية، مما خفض عدد الرموز من تقدير 2 تريليون إلى 1.3 تريليون”، يوضح توكبانوف.

كونها مفتوحة المصدر، تتيح زيـدا للمطورين الاستفادة من مجموعة بيانات نمذجة اللغة الحديثة هذه في تطبيقات متنوعة، بدءًا من تحسين توقعات الكلمات وتوليد النصوص وصولًا إلى تحسين الترجمة اللغوية. إذا حققت زيـدا النتائج المتوقعة، فإنها ستساعد المطورين في تبسيط عملياتهم، مما يقلل من زمن الإنتاج وتكاليفه.

هل تساءلت عن اسم زيـدا؟ يكشف توكبانوف أنه مزيج من “مجموعة بيانات زيفرا.”

يمكنك تنزيل زيـدا من صفحة زيفرا على Hugging Face.

ما يطلبه الموظفون من الذكاء الاصطناعي التوليدي: فتح آفاق التأثير التجاري من خلال فهم احتياجاتهم

تحليل انقطاع خدمات ChatGPT: نظرة شاملة على العوامل المت interconnected التي تؤدي إلى اضطرابات الخدمة.

Most people like

Secta Labs

62.9K

في عالم اليوم الرقمي، يُعَدُّ الانطباع الأول القوي أمرًا حاسمًا. تُعَزِّز الصور الشخصية المهنية المُنتَجة بواسطة الذكاء الاصطناعي وجودك على الإنترنت، كما تُعَبِّر عن احترافك وقابليتك للتواصل. باستخدام تكنولوجيا الذكاء الاصطناعي المتقدمة، تُصنَع هذه الصور لتلبية الأسلوب الفريد واحتياجات العلامات التجارية للأفراد والشركات على حد سواء. اكتشف كيف يمكن أن تُحَوِّلَ اعتماد الصور المُنتَجة بالذكاء الاصطناعي علامتك الشخصية والمهنية، مما يُميزك في بيئة تنافسية.

الذكاء الاصطناعي AI Photo & Image Generator

Prompt Genie

70.7K

رفع تجربتك مع ChatGPT باستخدام Prompt Genie، الأداة المدعومة بالذكاء الاصطناعي المصممة لتعزيز مطالباتك وتقديم نتائج استثنائية. سواء كنت تبحث عن تحسين أسئلتك أو توليد ردود أكثر إبداعًا، يمكن لـ Prompt Genie مساعدتك في استكشاف الإمكانيات الكاملة لـ ChatGPT لتحقيق أفضل أداء.

مولد العبارات AI Content Generator

Nullface.ai

19K

اكتشف منصتنا المدعومة بالذكاء الاصطناعي التي تخلق بيسر مقاطع فيديو جذابة بلا وجوه لتيك توك كل يوم. إنها وسيلة بسيطة وممتعة لتعزيز محتواك!

فيديوهات مولّدة بواسطة الذكاء الاصطناعي AI Short Clips Generator

Foxy AI

65.8K

نقدم لكم المنصة الرائدة في مجال الذكاء الاصطناعي للمبدعين، المصممة لتمكين المبتكرين وتعزيز العمليات الإبداعية. بفضل أدواتنا ومواردنا القوية، أطلق خيالك وحوّل أفكارك إلى واقع. انضم إلى مجتمع من المبدعين الرائدين الذين يقومون بثورة في مجالاتهم باستخدام تكنولوجيا الذكاء الاصطناعي المتقدمة.

منصة الذكاء الاصطناعي AI Profile Picture Generator

Find AI tools in YBX