AI2 تعزز نموذج OLMo مفتوح المصدر من خلال مجموعة بيانات متنوعة ومنهجية تعليمية ثنائية المرحلة لتحسين الأداء

في يوم الأربعاء، كشف معهد آلين للذكاء الاصطناعي (AI2) عن تحديث لنموذجه الذي يحتوي على 7 مليارات معلمة، OLMo 1.7-7B. تركز النسخة المحسّنة على بيانات Dolma الأكثر شمولاً وتنوعاً، بالإضافة إلى عملية تدريب متقدمة.

تم تقديم OLMo للمرة الأولى في فبراير، وهو يُعتبر “نموذج لغة كبير مفتوح المصدر رائد”، يضم مجموعة شاملة من بيانات ما قبل التدريب، وكود التدريب، وأوزان النموذج، ومقاييس التقييم.

يمكن التحديث الأخير OLMo 1.7-7B من دعم طول سياق أطول، حيث تمت زيادته من 2,048 إلى 4,096 رمزاً، مما أدى إلى تحسين الأداء بفضل تقنيات التدريب المتطورة والتعزيزات المعمارية. تتضمن مجموعة بيانات Dolma 1.7 ما يقرب من 2.3 تريليون رمز مستمد من مواد متنوعة، تشمل Dolma CC وRefined Web وStarCoder وC4 وStack Exchange وOpenWebMath وProject Gutenberg وWikipedia.

كان يعتمد OLMo سابقاً على Dolma 1.5، الذي كان يستخدم بشكل رئيسي بيانات الويب، ولكن Dolma 1.7 الجديدة تعزز قدرة النموذج على التعامل مع المهام التي تتطلب معرفة متخصصة، وتفكير معقد، وبرمجة من خلال تنويع مصادر البيانات. نفذ AI2 طرقاً أفضل لإزالة التكرار لضمان جودة المحتوى، حيث تم إزالة الوثائق التي تتجاوز درجة تكرار معينة تم حسابها من درجات تكرار الفقرات.

كما يقدم Dolma 1.7 نظام تصفية جودة محسن. حيث يقوم مصنّف FastText بتقييم الوثائق بناءً على جودتها، مميزاً المحتوى المنظم جيداً عن المواد ذات الجودة المنخفضة. تشمل المصادر عالية الجودة Wikipedia، وRSS لخلاصات الويب الصغيرة، وSemantic Scholar، بينما تضم الوثائق منخفضة الجودة محتوى للبالغين ومواقع معلومات خاطئة. تم تدريب هذا المصنّف على حوالي 25 غيغابايت من البيانات.

علاوة على ذلك، يعتمد OLMo 1.7 برنامج تدريب من مرحلتين. في المرحلة الأولى، يتم تدريب النموذج من الصفر. في المرحلة الثانية، يتم تدريب النموذج مرة أخرى باستخدام مجموعة مختارة من Dolma 1.7، مستفيدين من 50 مليار رمز إضافي مع تقليل معدل التعلم تدريجياً إلى الصفر. يتم تشكيل مجموعة البيانات عالية الجودة من خلال تضمين جميع بيانات Wikipedia وOpenWebMath وFlan الممكنة، مع استبعاد مصادر معينة، وتوازن النسب بين مجموعات البيانات المتبقية.

يؤكد AI2 أن هذه التحسينات تمكن OLMo 1.7-7B من التفوق على KLLama 2-7B في معيار فهم اللغة متعددة المهام (MMLU) وLlama-2-13B على مجموعة بيانات GSM8K.

النموذج المحدث OLMo مرخص بموجب Apache 2.0، بينما Dolma 1.7 متوفر بموجب ODC-BY. كلاهما متاح الآن على Hugging Face.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles