جوجل تطلق PaliGemma: نموذجها الأول المفتوح متعدد الأبعاد للرؤية واللغة لتعزيز قدرات الذكاء الاصطناعي.

أعلنت Google عن إطلاق PaliGemma، نموذج متعدد الوسائط للرؤية واللغة ضمن مجموعة Gemma من النماذج المفتوحة الخفيفة. تم تصميمه لكتابة التوصيفات للصور، والإجابة على الأسئلة المرئية، واسترجاع الصور. ينضم PaliGemma إلى نماذج CodeGemma وRecurrentGemma المتاحة الآن للمطورين لدمجها في مشاريعهم.

تم الإعلان عن PaliGemma في مؤتمر المطورين الخاص بـ Google، ويتميز بكونه النموذج الوحيد في عائلة Gemma الذي يركز على تحويل المعلومات البصرية إلى لغة مكتوبة. كنموذج لغة صغير (SLM)، يعمل بكفاءة دون الحاجة إلى ذاكرة أو طاقة معالجة كبيرة، مما يجعله مثالياً للأجهزة ذات الموارد المحدودة مثل الهواتف الذكية، وأجهزة إنترنت الأشياء، والحواسيب الشخصية.

من المرجح أن يجذب PaliGemma المطورين لما له من قدرة على تعزيز التطبيقات. يمكنه مساعدة المستخدمين في إنشاء المحتوى، وتحسين إمكانيات البحث، ومساعدة ذوي الاحتياجات البصرية في فهم محيطهم بشكل أفضل. في حين أن العديد من الحلول الذكية تعتمد على السحابة وتستخدم نماذج لغة كبيرة (LLMs)، تساعد نماذج اللغة الصغيرة مثل PaliGemma في تقليل فترة الاستجابة، مما يقلل من الوقت بين الإدخال والرد. وهذا يجعله خياراً مفضلاً للتطبيقات في المناطق ذات الاتصال الضعيف بالإنترنت.

رغم أن تطبيقات الويب والموبايل هي الاستخدامات الرئيسية لـ PaliGemma، إلا أنه يوجد إمكانية لدمجه في الأجهزة القابلة للارتداء، مثل النظارات الذكية التي يمكن أن تنافس نظارات Ray-Ban Meta الذكية، أو أجهزة مثل Rabbit r1 أو Humane AI Pin. يمكن أن يعزز النموذج أيضاً الروبوتات المنزلية والمكتبية. ومعتمداً على نفس الأبحاث والتقنيات المستخدمة في Google Gemini، يقدم PaliGemma للمطورين إطار عمل مألوفًا وقويًا لمشاريعهم.

بالإضافة إلى إطلاق PaliGemma، قدمت Google أضخم إصدار من Gemma حتى الآن، الذي يتضمن 27 مليار معلمة.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles