أبل تعرض قدرات الذكاء الاصطناعي: النماذج الجديدة تتفوق على أداء Mistral وHugging Face

مع تزايد الحماس حول قدرات نموذج GPT-4o-mini الجديد، أعلنت شركة Apple عن توسيع مجموعتها من النماذج الذكية المدمجة بإصدار عدة نماذج مفتوحة من DataComp للنماذج اللغوية (DCLM) على منصة Hugging Face. يتضمن الحزمة نموذجين بارزين: أحدهما يحتوي على 7 مليارات معلمة والآخر على 1.4 مليار. حيث تتألق النماذج في اختبارات القياس، وخاصة النموذج الأكبر الذي يتفوق على Mistral-7B، ويقترب بسرعة من أداء نماذج رائدة مفتوحة أخرى مثل Llama 3 وGemma.

يصف Vaishaal Shankar من فريق Apple ML هذه النماذج بأنها "أفضل الخيارات مفتوحة المصدر المتاحة". ومن الجدير بالذكر أن المشروع تبنى بالكامل مبادئ المصدر المفتوح بإصدار أوزان النماذج، ورمز التدريب، ومجموعة البيانات السابقة للتدريب.

نظرة عامة على نماذج Apple DCLM

مشروع DataComp هو مبادرة تعاونية تشمل باحثين من Apple، وجامعة واشنطن، وجامعة تل أبيب، ومعهد تويوتا للبحث. يهدف المشروع إلى إنشاء مجموعات بيانات عالية الجودة لتدريب النماذج الذكية، خاصة في مجال النماذج متعددة الوسائط. employs الفريق إطار عمل موحد مع هياكل نماذج ثابتة، ورمز تدريب، ومتغيرات فرعية، وتقييمات لاختبار استراتيجيات تنظيم البيانات المختلفة لتحسين أداء النموذج.

أظهرت التجارب الأولية أن تصفية البيانات المعتمدة على النموذج، حيث تقوم نماذج التعلم الآلي بتصفية واختيار بيانات عالية الجودة من مجموعات أكبر، تلعب دورًا حاسمًا في تجميع مجموعات التدريب المميزة. باستخدام هذه التقنية، طور الفريق مجموعة بيانات DCLM-Baseline، التي كانت أساسية في تدريب نماذج المحولات ذات الـ 7 مليارات و1.4 مليار معلمة من الصفر.

نموذج الـ 7B، الذي تم تدريبه على 2.5 تريليون توكن باستخدام وصفات التدريب المسبق OpenLM، يتميز بنافذة سياق 2K ويحقق دقة 63.7% في تقييم MMLU. يمثل هذا تحسنًا قدره 6.6 نقطة مئوية مقارنةً بـ MAP-Neo، الرائد السابق في نماذج اللغة المفتوحة، مع استخدام أقل بنسبة 40% من قوة الحوسبة خلال التدريب.

مهم جدًا، أداءه في MMLU قريب من النماذج الرائدة التي تتمتع بأوزان مفتوحة ولكن بيانات مغلقة، مثل Mistral-7B-v0.3 (62.7%)، Llama3 8B (66.2%)، Gemma من Google (64.3%)، وPhi-3 من Microsoft (69.9%).

علاوة على ذلك، عندما قام الباحثون بتمديد سياق النموذج إلى 8K وأجروا 100 مليار تكرار تدريب إضافي باستخدام تقنية تفكيك مجموعة البيانات، لاحظوا تحسينات إضافية في الأداء عبر المعايير الأساسية والممتدة، على الرغم من بقاء نتائج MMLU ثابتة.

قال الباحثون في ورقة بحثية حول DataComp-LM: "تسلط نتائجنا الضوء على أهمية تصميم مجموعة البيانات في تدريب نماذج اللغة وتعد أساسًا للبحث المستمر في تنظيم البيانات".

أداء مثير للإعجاب للنموذج الأصغر

على غرار DCLM-7B، يظهر النموذج الأصغر البالغ 1.4 مليار معلمة، الذي تم تطويره بالتعاون مع معهد تويوتا للبحث باستخدام 2.6 تريليون توكن، أداءً ملحوظًا أيضًا في اختبارات MMLU، Core، وExtended. في تقييم MMLU بـ 5 Shots، حقق 41.9%، متفوقًا على النماذج الأخرى في فئته، بما في ذلك SmolLM من Hugging Face الذي سجل 39.97%. تلاه Qwen-1.5B وPhi-1.5B بنتائج 37.87% و35.90%، على التوالي.

حاليًا، يتوفر نموذج 7B تحت ترخيص Sample Code من Apple، بينما تم إصدار نموذج 1.4B تحت Apache 2.0، مما يتيح الاستخدام التجاري، والتوزيع، والتعديل. بالإضافة إلى ذلك، يتوفر إصدار تم ضبطه بتعليمات لنموذج 7B في مكتبة Hugging Face.

من الضروري التأكيد على أن هذا الإصدار يمثل أبحاثًا مبكرة تركز على فعالية تنظيم البيانات. هذه النماذج ليست مصممة لأجهزة Apple وقد تظهر تحيزات من مجموعات بيانات تدريبها أو تنتج ردودًا قد تكون ضارة.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles