أبل تعرض قدرات الذكاء الاصطناعي: النماذج الجديدة تتفوق على أداء Mistral وHugging Face

Home أخبار الذكاء الاصطناعي أبل تعرض قدرات الذكاء الاصطناعي: النماذج الجديدة تتفوق على أداء Mistral وHugging Face

Updated on يوليو 19 2024

مع تزايد الحماس حول قدرات نموذج GPT-4o-mini الجديد، أعلنت شركة Apple عن توسيع مجموعتها من النماذج الذكية المدمجة بإصدار عدة نماذج مفتوحة من DataComp للنماذج اللغوية (DCLM) على منصة Hugging Face. يتضمن الحزمة نموذجين بارزين: أحدهما يحتوي على 7 مليارات معلمة والآخر على 1.4 مليار. حيث تتألق النماذج في اختبارات القياس، وخاصة النموذج الأكبر الذي يتفوق على Mistral-7B، ويقترب بسرعة من أداء نماذج رائدة مفتوحة أخرى مثل Llama 3 وGemma.

يصف Vaishaal Shankar من فريق Apple ML هذه النماذج بأنها "أفضل الخيارات مفتوحة المصدر المتاحة". ومن الجدير بالذكر أن المشروع تبنى بالكامل مبادئ المصدر المفتوح بإصدار أوزان النماذج، ورمز التدريب، ومجموعة البيانات السابقة للتدريب.

نظرة عامة على نماذج Apple DCLM

مشروع DataComp هو مبادرة تعاونية تشمل باحثين من Apple، وجامعة واشنطن، وجامعة تل أبيب، ومعهد تويوتا للبحث. يهدف المشروع إلى إنشاء مجموعات بيانات عالية الجودة لتدريب النماذج الذكية، خاصة في مجال النماذج متعددة الوسائط. employs الفريق إطار عمل موحد مع هياكل نماذج ثابتة، ورمز تدريب، ومتغيرات فرعية، وتقييمات لاختبار استراتيجيات تنظيم البيانات المختلفة لتحسين أداء النموذج.

أظهرت التجارب الأولية أن تصفية البيانات المعتمدة على النموذج، حيث تقوم نماذج التعلم الآلي بتصفية واختيار بيانات عالية الجودة من مجموعات أكبر، تلعب دورًا حاسمًا في تجميع مجموعات التدريب المميزة. باستخدام هذه التقنية، طور الفريق مجموعة بيانات DCLM-Baseline، التي كانت أساسية في تدريب نماذج المحولات ذات الـ 7 مليارات و1.4 مليار معلمة من الصفر.

نموذج الـ 7B، الذي تم تدريبه على 2.5 تريليون توكن باستخدام وصفات التدريب المسبق OpenLM، يتميز بنافذة سياق 2K ويحقق دقة 63.7% في تقييم MMLU. يمثل هذا تحسنًا قدره 6.6 نقطة مئوية مقارنةً بـ MAP-Neo، الرائد السابق في نماذج اللغة المفتوحة، مع استخدام أقل بنسبة 40% من قوة الحوسبة خلال التدريب.

مهم جدًا، أداءه في MMLU قريب من النماذج الرائدة التي تتمتع بأوزان مفتوحة ولكن بيانات مغلقة، مثل Mistral-7B-v0.3 (62.7%)، Llama3 8B (66.2%)، Gemma من Google (64.3%)، وPhi-3 من Microsoft (69.9%).

علاوة على ذلك، عندما قام الباحثون بتمديد سياق النموذج إلى 8K وأجروا 100 مليار تكرار تدريب إضافي باستخدام تقنية تفكيك مجموعة البيانات، لاحظوا تحسينات إضافية في الأداء عبر المعايير الأساسية والممتدة، على الرغم من بقاء نتائج MMLU ثابتة.

قال الباحثون في ورقة بحثية حول DataComp-LM: "تسلط نتائجنا الضوء على أهمية تصميم مجموعة البيانات في تدريب نماذج اللغة وتعد أساسًا للبحث المستمر في تنظيم البيانات".

أداء مثير للإعجاب للنموذج الأصغر

على غرار DCLM-7B، يظهر النموذج الأصغر البالغ 1.4 مليار معلمة، الذي تم تطويره بالتعاون مع معهد تويوتا للبحث باستخدام 2.6 تريليون توكن، أداءً ملحوظًا أيضًا في اختبارات MMLU، Core، وExtended. في تقييم MMLU بـ 5 Shots، حقق 41.9%، متفوقًا على النماذج الأخرى في فئته، بما في ذلك SmolLM من Hugging Face الذي سجل 39.97%. تلاه Qwen-1.5B وPhi-1.5B بنتائج 37.87% و35.90%، على التوالي.

حاليًا، يتوفر نموذج 7B تحت ترخيص Sample Code من Apple، بينما تم إصدار نموذج 1.4B تحت Apache 2.0، مما يتيح الاستخدام التجاري، والتوزيع، والتعديل. بالإضافة إلى ذلك، يتوفر إصدار تم ضبطه بتعليمات لنموذج 7B في مكتبة Hugging Face.

من الضروري التأكيد على أن هذا الإصدار يمثل أبحاثًا مبكرة تركز على فعالية تنظيم البيانات. هذه النماذج ليست مصممة لأجهزة Apple وقد تظهر تحيزات من مجموعات بيانات تدريبها أو تنتج ردودًا قد تكون ضارة.

لماذا تعتبر القدرة على المرونة الإلكترونية أمرًا حيويًا: دروس من انقطاع خدمات تكنولوجيا المعلومات الأخير لشركة CrowdStrike

نموذج "لاما" مفتوح المصدر من Groq يتفوق على GPT-4o وClaude في إمكانيات استدعاء الدوال، محققًا المركز الأول في تصنيف الأداء.

Most people like

Metaphysic.ai

46.3K

ميتافيزيك.أيه آي في طليعة المحتوى المرئي الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي، حيث تقدم مرئيات مذهلة تعيد تعريف سرد القصص الرقمية.

الذكاء الاصطناعي التوليدي AI Content Generator

LabEx

170.5K

اكتشف منصة تعلم تفاعلية تجمع بين المختبرات العملية وتكنولوجيا الذكاء الاصطناعي المتطورة. انغمس في تجربة تعليمية ديناميكية تهدف إلى تعزيز مهاراتك ومعرفتك بشكل فعّال. استكشف مستقبل التعلم اليوم!

برمجة AI Code Assistant

ShareID

8.2K

تقديم حل متقدم لهوية رقمية قابلة لإعادة الاستخدام يمكّن المستخدمين من التحقق الفوري ومشاركة معلوماتهم الشخصية بسلاسة. تعمل هذه التكنولوجيا المبتكرة على تبسيط إدارة الهوية، معززة الأمان والتحكم للمستخدمين، بينما تسهل التفاعلات السلسة على الإنترنت.

الهوية الرقمية Large Language Models (LLMs)

Voisi

23.3K

نقدم لكم مجموعة أدوات متقدمة متعددة الذكاء الاصطناعي مصممة لتحويل الصوت واللغة. تستفيد هذه الحلول المبتكرة من أحدث التطورات في الذكاء الاصطناعي لتعزيز التواصل من خلال تحويل المحتوى الصوتي والنصي وتحسينه بسلاسة. سواء للاستخدام الشخصي أو التطبيقات المهنية، توفر هذه المجموعة من الأدوات مستوى لا مثيل له من المرونة في تعديلات اللغة والصوت.

مجموعة أدوات الصوت الذكي Large Language Models (LLMs)

Find AI tools in YBX