استكشاف تكاليف وفوائد الذكاء الاصطناعي مع البنية التحتية بدون خادم
تتطلب تشغيل تطبيقات الذكاء الاصطناعي تكاليف متنوعة، ومن بين هذه التكاليف، تعتبر قوة وحدة معالجة الرسومات (GPU) المستخدمة في الاستدلال واحدة من أهم النفقات. تقليديًا، كانت المؤسسات التي تدير الاستدلال في الذكاء الاصطناعي تعتمد على مثيلات سحابية مستمرة أو على أجهزة محلية. لكن، أعلنت Google Cloud مؤخرًا عن حل مبتكر قد يُحدث تغييرًا في نشر تطبيقات الذكاء الاصطناعي: دمج وحدات معالجة الرسومات Nvidia L4 مع خدمة Cloud Run بدون خادم، مما يتيح للمؤسسات إجراء استدلال بدون خادم.
استغلال قوة الاستدلال بدون خادم
الميزة الرئيسية للعمارة بدون خادم هي كفاءتها من حيث التكلفة؛ حيث تعمل الخدمات فقط عند الحاجة، مما يسمح للمستخدمين بالدفع مقابل الاستخدام الفعلي فقط. على عكس المثيلات السحابية التقليدية التي تعمل بشكل مستمر، يتم تفعيل وحدات معالجة الرسومات بدون خادم فقط عند الطلبات المحددة. يمكن أن يستخدم الاستدلال بدون خادم Nvidia NIM وإطارات عمل مختلفة مثل VLLM وPyTorch وOllama. الدعم لوحدات معالجة الرسومات Nvidia L4، الذي هو قيد المعاينة حاليًا، كان موضع توقع كبير.
قال ساغار رانديف، مدير المنتج لمنصة Google Cloud Serverless: "مع تزايد اعتماد العملاء على الذكاء الاصطناعي، يرغبون في نشر أعباء العمل على منصات مألوفة". "كفاءة ومرونة Cloud Run أمران حاسمان، وقد طلب المستخدمون دعم وحدة معالجة الرسومات".
التحول إلى بيئة ذكاء اصطناعي بدون خادم
حازت Cloud Run، المنصة المدارة بالكامل بدون خادم من Google، على شعبية بين المطورين بسبب سهولة نشر وإدارة الحاويات. ومع نمو أعباء العمل المتعلقة بالذكاء الاصطناعي—خصوصًا تلك التي تتطلب معالجة في الوقت الفعلي—أصبح من الواضح الحاجة إلى موارد حاسوبية مُعززة.
يفتح إضافة دعم وحدات معالجة الرسومات إمكانيات متعددة لمطوري Cloud Run، مثل:
- استدلال في الوقت الفعلي مع نماذج خفيفة مثل Gemma 2B/7B أو Llama 3 (8B)، مما يسهل تطوير روبوتات محادثة تفاعلية وأدوات تلخيص مستندات ديناميكية.
- نماذج ذكاء اصطناعي مولدة مُفصّلة، مما يُتيح تطبيقات توليد الصور القابلة للتوسع والمخصصة لعلامات تجارية معينة.
- تسريع المهام التي تتطلب حسابًا كثيفًا، بما في ذلك التعرف على الصور وتحويل الفيديوهات وعمليات الإظهار ثلاثية الأبعاد، والتي يمكن أن تنخفض إلى الصفر عند عدم الاستخدام.
اعتبارات الأداء لاستدلال الذكاء الاصطناعي بدون خادم
من الشواغل الشائعة المرتبطة بالهياكل بدون خادم هو الأداء، خاصةً عند بدء التشغيل البارد. تتعامل Google Cloud مع هذه المخاوف من خلال تقديم مقاييس مثيرة للإعجاب: تتراوح أوقات بدء التشغيل البارد لنماذج مختلفة، بما في ذلك Gemma 2B وGemma 2 9B وLlama 2 7B/13B وLlama 3.1 8B، من 11 إلى 35 ثانية.
يمكن تجهيز كل مثيل من Cloud Run بوحدة معالجة الرسومات Nvidia L4، مما يوفر حتى 24 جيجابايت من الذاكرة المرئية (vRAM)—وهي كافية لمعظم مهام استدلال الذكاء الاصطناعي. تهدف Google Cloud إلى الحفاظ على الحيادية في النماذج، على الرغم من أنهم يوصون باستخدام نماذج تحتوي على أقل من 13 مليار معلمة للحصول على أداء مثالي.
كفاءة التكلفة لاستدلال الذكاء الاصطناعي بدون خادم
تعتبر كفاءة النموذج بدون خادم ميزة كبيرة حيث تتمكن المؤسسات من تحقيق استخدام أفضل للأجهزة، مما يُترجم إلى توفير في التكاليف. ومع ذلك، فإن ما إذا كان استدلال الذكاء الاصطناعي بدون خادم سيكون أكثر تكلفة مقارنة بالخوادم التقليدية ذات التشغيل الطويل يعتمد على التطبيق المحدد وأنماط المرور المتوقعة.
قال رانديف: "هذا معقد". "سنقوم بتحديث حاسبة الأسعار لدينا لتعكس أسعار وحدات معالجة الرسوميات الجديدة مع Cloud Run، مما يسمح للعملاء بمقارنة تكاليف تشغيلهم الإجمالية عبر منصات مختلفة".
من خلال التكيف مع هذه السياسة الناشئة بدون خادم، يمكن للمؤسسات تحسين استراتيجيات نشر الذكاء الاصطناعي لديها مع التحكم بفعالية في التكاليف.