أحدثت شركة Silo AI الناشئة في هلسنكي هذا الأسبوع ضجة بإطلاقها نموذج Poro، وهو نموذج لغة مفتوحة المصدر يركز على تعزيز قدرات الذكاء الاصطناعي متعدد اللغات للغات الأوروبية. Poro هو أول عرض في سلسلة من النماذج مفتوحة المصدر التي تهدف إلى دعم جميع اللغات الرسمية الأربعة والعشرين للاتحاد الأوروبي. تم تطوير Poro بواسطة SiloGen، قسم الذكاء الاصطناعي التوليدي في Silo AI، بالتعاون مع مجموعة TurkuNLP البحثية من جامعة توركو، ومن المقرر أن يُحدث تحولاً في معالجة اللغة عبر القارة.
وأوضح بيتر سارلين، الرئيس التنفيذي لشركة Silo AI، أن "الأمر يتعلق بالسيادة الرقمية". وأضاف: "نريد نماذج تعكس القيم والثقافة واللغات الأوروبية. هدفنا هو تمكين الشركات الأوروبية - وأي منظمة - من إنشاء نماذج خاصة بها تحافظ على قيمتها داخل أوروبا."
نموذج Poro 34B، الذي يحتوي على 34.2 مليار معلمة، يُشتق اسمه من الكلمة الفنلندية لـ "الرنة". يستخدم هيكلية مُحوّل BLOOM مع تضمينات ALiBi، وتم تدريبه على مجموعة بيانات متنوعة تضم 21 تريليون رمز متعدد اللغات، بما في ذلك الإنجليزية والفنلندية ولغات البرمجة مثل بايثون وجافا. يتم تدريب Poro على LUMI، أقوى حاسوب فائق في أوروبا، الموجود في كاجاني، فنلندا، والذي يتضمن 512 وحدة معالجة رسومات AMD Instinct MI250X بقدرة معالجة مذهلة تبلغ 74 بيتافلوبس.
وأكد سارلين أن Poro يتعامل مع تحدٍ كبير: تدريب نماذج فعالة للغات الأوروبية ذات الموارد المحدودة مثل الفنلندية. يستخدم النموذج استراتيجية تدريب عبر اللغات، مستفيدًا من البيانات التي تم جمعها من لغات أكثر موارد.
يعتبر Poro ثاني نموذج كبير مفتوح المصدر يخرج من أوروبا، بعد النموذج المعروف Mistral 7B من شركة Mistral AI الفرنسية، ويؤكد إطلاقه على دور أوروبا المتزايد في قطاع الذكاء الاصطناعي التوليدي السريع التطور ويشير إلى تزايد المنافسة بين مختلف كيانات البحث والتطوير في هذا المجال.
نقاط تفتيش بحث Poro
تلتزم SiloGen بالشفافية من خلال برنامج نقاط تفتيش بحث Poro، حيث توثق رحلة تدريب النموذج. وأوضح سارلين: "سنقوم بإصدار نقاط تفتيش على مدار عملية التدريب، وهي مقاربة جديدة نسبيًا." يتمثل النقطة التفتيش الأولى من Poro 34B في التقاط 30% من تدريبه. وتشير المعايير الأولية إلى أن Poro يحقق بالفعل نتائج متقدمة في هذه المرحلة. في تقييم FIN-bench للفنلندية، يتجاوز Poro النماذج الأحادية المختصة في الفنلندية مثل FinGPT.
وأشار سارلين إلى أن "النموذج أظهر أداءً متفوقًا للغات ذات الموارد المحدودة مع انتهاء 30% فقط من التدريب." ومن خلال تحديد أنماط شائعة عبر اللغات ذات الصلة، يتمكن Poro من التفوق حتى عند محدودية بيانات التدريب.
بشكل ملحوظ، إن قدرات Poro متعددة اللغات لا تؤثر على أدائه في الإنجليزية. تظهر الاختبارات أنه يتفوق على النماذج الحالية في معايير الفنلندية، وهو في طريقه لمطابقة或 تجاوز الأداء في الإنجليزية.
بديل مفتوح المصدر للتكنولوجيا الكبرى
يدعو سارلين إلى النماذج مفتوحة المصدر مثل Poro باعتبارها مستقبل الذكاء الاصطناعي، حيث توفر بديلاً شفافًا وأخلاقيًا للنماذج الخاصة من عمالقة التكنولوجيا. وقال: "أعتقد أننا سنرى العديد من البدائل مفتوحة المصدر تظهر." وأضاف أن هناك جهودًا كبيرة لضمان التزام البيانات والنموذج بالمعايير التنظيمية من حيث التصميم. تخطط Silo AI لإصدار نقاط تفتيش Poro بانتظام طوال عملية التدريب، بهدف إنشاء عائلة واسعة من النماذج مفتوحة المصدر لجميع اللغات الأوروبية.
التعاون مع جامعة توركو
يعكس تطوير Poro شراكة مثمرة بين Silo AI وجامعة توركو، حيث قاد الباحثون من TurkuNLP الأبحاث المفتوحة المصدر للغة الفنلندية. وشارك سارلين: "انضم فريق البحث الخاص بي وعدد من الأساتذة معًا لتوسيع الشركة من خلال تمويل الإيرادات." ومع وجود أكثر من 300 موظف، معظمهم يحملون درجات الدكتوراه في مجالات الذكاء الاصطناعي، نتميز بشكل كبير عن العديد من الآخرين في الصناعة.
تجمع هذه الشراكة بين خبرة Silo AI العملية في الذكاء الاصطناعي وقيادة الجامعة في أبحاث النمذجة متعددة اللغات، مما يعرض نموذجًا للتعاون الفعال بين الصناعة والأكاديمية في تعزيز قدرات الذكاء الاصطناعي للغات الأوروبية ذات الموارد المحدودة.
هل تستعد أوروبا لتولي الريادة في الذكاء الاصطناعي مفتوح المصدر؟
يمثل إطلاق Poro بداية مرحلة جديدة من التعاون المفتوح والشفافية في معالجة اللغة الطبيعية. توفر مبادرات مثل نقاط تفتيش بحث Poro رؤى وموارد كانت محجوزة سابقًا من قبل الشركات الكبرى.
قال سارلين: "نتعاون مع عملاء مثل Allianz وRolls Royce وHonda وPhilips، وقد سمعنا مخاوف من شركات كبيرة بشأن التشريعات المستقبلية والنماذج التي يمكنهم استخدامها."
إذا نجح Poro في تحقيق إمكاناته، فقد يُعزز وصول النماذج متعددة اللغات القوية، مقدمًا أوروبا بديلًا محليًا لعناصر التقنية الأمريكية. على الرغم من أن الوقت ما زال مبكرًا، فإن Poro يمثل خطوة مهمة نحو جعل الذكاء الاصطناعي اللغوي متاحًا ومفتوحًا، خارج الأقفاص الملكية إلى المجال العام.