في المؤتمر العالمي للهواتف المحمولة 2024، توسع كوالكوم محفظتها من قدرات الذكاء الاصطناعي المدعومة بسلسلة سناب دراغون للأجهزة التي تعمل بنظام أندرويد. وقد كشفت الشركة بالفعل عن ميزات ذكاء اصطناعي رائعة للمعالج سناب دراغون 8 جين 3، بما في ذلك تعديل الوسائط عبر الصوت، وتوليد الصور على الجهاز باستخدام تقنية Stable Diffusion، ومساعد افتراضي متقدم يعتمد على نماذج لغوية كبيرة من Meta.
اليوم، قدّمت كوالكوم تحسينات على هذه الوظائف الذكية. الميزة الرئيسية هي المساعد الجديد للغة والرؤية (LLaVa) المصمم خصيصًا للهواتف الذكية. هذه الأداة المبتكرة تعمل مثل الدردشة الآلية، مشابهة لـ ChatGPT، ولكنها تدمج قدرات Google Lens. وبالتالي، يمكن لحل كوالكوم معالجة كل من المدخلات النصية والصور.
على سبيل المثال، يمكنك تحميل صورة للوحة من أنواع اللحوم والأجبان والاستفسار عن محتوياتها. سيحدد المساعد الذكي، المعتمد على نموذج متعدد الأنماط (LMM) يعالج أكثر من 7 مليار معلمة، مختلف الفواكه والأجبان واللحوم والمكسرات الموجودة في الصورة. كما يمكنه التعامل مع الأسئلة المتابعة، مما يوفر تدفقًا حواريًا طبيعيًا. في حين أن ChatGPT والمنتجات المماثلة قد أضافت أيضًا قدرات متعددة الأنماط، إلا أنها تعتمد على بنية سحابية التي تتطلب خوادم بعيدة لمعالجة البيانات. تركز كوالكوم على المعالجة المحلية، مما يضمن استجابات أسرع وزيادة الخصوصية، مع الحد الأدنى من مخاطر تسرب البيانات. تشدد كوالكوم: "يعمل هذا LMM بمعدل استجابة مرتفع على الجهاز، مما يؤدي إلى زيادة الخصوصية والموثوقية والتخصيص وكفاءة التكلفة." لا تزال تفاصيل ما إذا كان المساعد الافتراضي المعتمد على LLaVa سيتم إطلاقه كتطبيق مستقل أو سيكون مدفوعًا غير مؤكدة.
الإعلان المهم التالي من كوالكوم يتناول الجوانب الإبداعية لتوليد الصور ومعالجتها. مؤخرًا، عرضت كوالكوم أسرع توليد للصور من النص على هاتف ذكي باستخدام تقنية Stable Diffusion. واليوم، قدمت الشركة لمحة عن توليد الصور المدعوم بتقنية LoRA.
LoRA، أو التكيف منخفض الرتبة، هي تقنية جديدة طورتها Microsoft تقدم نهجًا مختلفًا لتوليد الصور مقارنةً بالأدوات التقليدية للذكاء الاصطناعي التوليدي مثل DALL·E. تدريب نماذج الذكاء الاصطناعي يمكن أن يكون مكلفًا وبطيئًا ويتطلب أجهزة قوية. تواجه LoRA هذه التحديات من خلال تقليل وزن النموذج بشكل كبير، والتركيز على أجزاء محددة، وتقليل عدد المعلمات خلال عملية التدريب. وهذا يؤدي إلى متطلبات ذاكرة أقل وعمليات أسرع، مما يسهل بشكل كبير تخصيص نماذج تحويل النص إلى صورة.
تم دمج طريقة تقطير LoRA بفعالية في نموذج Stable Diffusion لتوليد الصور من النصوص. بفضل كفاءتها وسهولة التكيف، تعتبر LoRA مناسبة بشكل جيد للهواتف الذكية. تؤمن كوالكوم بإمكاناتها، وحتى المنافسة MediaTek تعتمد هذا النهج لميزات الذكاء الاصطناعي التوليدي على شريحة Dimensity 9300 الرائدة لديها.
في MWC 2024، تعرض كوالكوم أيضًا مجموعة متنوعة من ميزات الذكاء الاصطناعي، بعض منها متاح بالفعل على هاتف Samsung Galaxy S24 Ultra. من بين هذه القدرات، القدرة على توسيع قماشة الصورة باستخدام تقنيات الملء التوليدية وتوليد الفيديو المدعوم بالذكاء الاصطناعي، وهو أمر طموح بشكل خاص. سيكون مثيرًا للاهتمام أن نرى كيف ستنجح كوالكوم في تطبيق هذه التقنيات المتقدمة على الهواتف الذكية.