AI2 تعزز نموذج OLMo مفتوح المصدر من خلال مجموعة بيانات متنوعة ومنهجية تعليمية ثنائية المرحلة لتحسين الأداء

Home أخبار الذكاء الاصطناعي AI2 تعزز نموذج OLMo مفتوح المصدر من خلال مجموعة بيانات متنوعة ومنهجية تعليمية ثنائية المرحلة لتحسين الأداء

Updated on أبريل 17 2024

في يوم الأربعاء، كشف معهد آلين للذكاء الاصطناعي (AI2) عن تحديث لنموذجه الذي يحتوي على 7 مليارات معلمة، OLMo 1.7-7B. تركز النسخة المحسّنة على بيانات Dolma الأكثر شمولاً وتنوعاً، بالإضافة إلى عملية تدريب متقدمة.

تم تقديم OLMo للمرة الأولى في فبراير، وهو يُعتبر “نموذج لغة كبير مفتوح المصدر رائد”، يضم مجموعة شاملة من بيانات ما قبل التدريب، وكود التدريب، وأوزان النموذج، ومقاييس التقييم.

يمكن التحديث الأخير OLMo 1.7-7B من دعم طول سياق أطول، حيث تمت زيادته من 2,048 إلى 4,096 رمزاً، مما أدى إلى تحسين الأداء بفضل تقنيات التدريب المتطورة والتعزيزات المعمارية. تتضمن مجموعة بيانات Dolma 1.7 ما يقرب من 2.3 تريليون رمز مستمد من مواد متنوعة، تشمل Dolma CC وRefined Web وStarCoder وC4 وStack Exchange وOpenWebMath وProject Gutenberg وWikipedia.

كان يعتمد OLMo سابقاً على Dolma 1.5، الذي كان يستخدم بشكل رئيسي بيانات الويب، ولكن Dolma 1.7 الجديدة تعزز قدرة النموذج على التعامل مع المهام التي تتطلب معرفة متخصصة، وتفكير معقد، وبرمجة من خلال تنويع مصادر البيانات. نفذ AI2 طرقاً أفضل لإزالة التكرار لضمان جودة المحتوى، حيث تم إزالة الوثائق التي تتجاوز درجة تكرار معينة تم حسابها من درجات تكرار الفقرات.

كما يقدم Dolma 1.7 نظام تصفية جودة محسن. حيث يقوم مصنّف FastText بتقييم الوثائق بناءً على جودتها، مميزاً المحتوى المنظم جيداً عن المواد ذات الجودة المنخفضة. تشمل المصادر عالية الجودة Wikipedia، وRSS لخلاصات الويب الصغيرة، وSemantic Scholar، بينما تضم الوثائق منخفضة الجودة محتوى للبالغين ومواقع معلومات خاطئة. تم تدريب هذا المصنّف على حوالي 25 غيغابايت من البيانات.

علاوة على ذلك، يعتمد OLMo 1.7 برنامج تدريب من مرحلتين. في المرحلة الأولى، يتم تدريب النموذج من الصفر. في المرحلة الثانية، يتم تدريب النموذج مرة أخرى باستخدام مجموعة مختارة من Dolma 1.7، مستفيدين من 50 مليار رمز إضافي مع تقليل معدل التعلم تدريجياً إلى الصفر. يتم تشكيل مجموعة البيانات عالية الجودة من خلال تضمين جميع بيانات Wikipedia وOpenWebMath وFlan الممكنة، مع استبعاد مصادر معينة، وتوازن النسب بين مجموعات البيانات المتبقية.

يؤكد AI2 أن هذه التحسينات تمكن OLMo 1.7-7B من التفوق على KLLama 2-7B في معيار فهم اللغة متعددة المهام (MMLU) وLlama-2-13B على مجموعة بيانات GSM8K.

النموذج المحدث OLMo مرخص بموجب Apache 2.0، بينما Dolma 1.7 متوفر بموجب ODC-BY. كلاهما متاح الآن على Hugging Face.

قدّموا سيكسو هايبرشيلد: نهج ثوري للأمان في عصر الذكاء الاصطناعي

انتبهوا، بوسطن دايناميكس! مينيتي روبوتيكس تطلق الروبوت المتقدم "AI-First" الجديد.

Most people like

XspaceGPT

44.9K

اكتشف قوة أداتنا الذكية المصممة خصيصًا لتحويل محادثات تويتر سبيس إلى نصوص. قم بسهولة بنسخ المحادثات والمحاضرات والنقاشات من تويتر سبيس، مُلتقطًا كل لحظة قيمة دون عناء. بفضل تقنيتنا المتقدمة، يمكنك تعزيز الوصول، تدوين الملاحظات، أو إعادة استخدام المحتوى للمدونات والمقالات.انضم إلى المجتمع المتزايد الذي يستفيد من الذكاء الاصطناعي لتحسين تجربتهم في تويتر سبيس!

تحويل نصوص الذكاء الاصطناعي Summarizer

Lyrebird Health

79.5K

في السنوات الأخيرة، أحدثت الذكاء الاصطناعي تغييرًا جذريًا في العديد من الصناعات، ولم يستثنِ قطاع الرعاية الصحية. إحدى المجالات التي يحقق فيها الذكاء الاصطناعي تأثيرًا كبيرًا هي كتابة السجلات الطبية. من خلال أتمتة عملية التوثيق، يسهم الذكاء الاصطناعي في تحسين سير العمل وزيادة دقة السجلات الطبية للمرضى. تتيح هذه التطورات للعاملين في مجال الرعاية الصحية التركيز بشكل أكبر على رعاية المرضى مع ضمان تسجيل المعلومات الضرورية بدقة ووضوح. بينما نستكشف تأثير الذكاء الاصطناعي على كتابة السجلات الطبية، سنلقي نظرة على فوائده والإمكانات المستقبلية التي يحملها لتحسين تقديم الرعاية الصحية.

مساعد طبي ذكي Healthcare

Livewello

8.5K

افتح آفاق التحليل الجيني القوي لحلول صحية مخصصة. اكتشف كيف يمكن أن تسهم الرؤى الوراثية في تخصيص استراتيجيات طبية لتحسين الرفاهية الفردية وتعزيز نتائج الرعاية الصحية.

تحليل بيانات الجينوم Healthcare

Goover AI

403.1K

تقديم وكيل الذكاء الاصطناعي المخصص للبحث لاستكشاف المعرفة الشاملة استكشف إمكانيات مساعد البحث الذكي المصمم خصيصًا لتزويدك برؤى ومعرفة عميقة. هذه الأداة المبتكرة تهدف إلى تسهيل استكشافاتك الشخصية، مما يضمن لك الحصول على الموارد والمعلومات اللازمة في متناول يدك. سواء كنت طالبًا أو محترفًا أو متعلمًا مدى الحياة، فإن وكيل البحث الذكي لدينا يتكيف مع اهتماماتك وأسئلتك الفريدة، مما يجعل اكتساب المعرفة فعالًا وجذابًا.

عميل بحث الذكاء الاصطناعي Large Language Models (LLMs)

Find AI tools in YBX