أثنى المطورون والباحثون بشكل كبير على إطلاق Meta لنموذج اللغة الكبير المتقدم Llama 2 مفتوح المصدر، خصوصًا بسبب سهولة الوصول إليه. لقد ألهم هذا النموذج تطوير عدة أنظمة ذكاء اصطناعي بما في ذلك Vicuna وAlpaca وLlama 2 Long من Meta. ومع ذلك، قد تكون تكاليف تشغيل Llama 2 أعلى بكثير من البدائل الخاصة. تشير التقارير إلى أن العديد من الشركات الناشئة تواجه تكاليف تشغيل تتراوح بين 50% إلى 100% أعلى عند استخدام Llama 2 مقارنةً بـ GPT-3.5 Turbo من OpenAI، رغم أن GPT-4 المتطور يبقى أكثر تكلفة. يُعتبر كلا النموذجين الكبيرين أساسيين لتقنية ChatGPT.
في بعض الأحيان، قد تكون الفجوة في التكاليف مذهلة. قام مؤسسو شركة Cypher الخاصة ببرمجيات الدردشة بإجراء اختبارات باستخدام Llama 2 في أغسطس، مما كلفهم 1200 دولار، بينما كانت نفس الاختبارات على GPT-3.5 Turbo تكلفهم 5 دولارات فقط.
مؤخراً، قدمت OpenAI نموذجًا جديدًا وأكثر اقتصادية، وهو GPT-4 Turbo، الذي يعمل بتكلفة سنت واحد لكل 100 توكن إدخال، وهو أقل تكلفة بـ ثلاثة أضعاف من النسخة السابقة بقدرة 8K من GPT-4. خلال حدث DevDay، حفزت OpenAI المطورين لاستكشاف النموذج الجديد من خلال تقديم 500 دولار من اعتمادات API المجانية لكل مشارك. بينما يوفر Llama 2 وصولًا مفتوحًا للمستخدمين، قد يعيق الفرق الكبير في تكاليف التشغيل تبني الشركات له.
فهم الفجوة في التكلفة
أحد العوامل الرئيسية التي تسهم في ارتفاع تكاليف النماذج مفتوحة المصدر هو البنية التحتية المستخدمة من قبل الشركات. يمكن لـ OpenAI معالجة ملايين الطلبات بكفاءة من خلال دفعات معالجة متزامنة على شرائح عالية الأداء. على النقيض من ذلك، قد لا تحقق الشركات الناشئة مثل Cypher، التي تعتمد على النماذج مفتوحة المصدر وتستأجر خوادم متخصصة من مزودي السحابة، حركة مرور كافية لتحقيق كفاءات مشابهة. تحدِّ هذه الفجوة قدرتهم على استغلال كامل إمكانات الخوادم.
يمكن أن تتقلب تكاليف التشغيل المرتبطة بالنماذج الكبيرة للغة بشكل كبير، اعتمادًا على المهام المحددة المطلوبة، وحجم الطلبات، ومستوى التخصيص المطلوب. بالنسبة للمهام البسيطة مثل تلخيص المحتوى، قد تبقى التكاليف منخفضة نسبيًا، بينما قد تتطلب الوظائف الأكثر تعقيدًا استثمارات أكبر.
يشير برادلي شيمين، كبير المحللين في الذكاء الاصطناعي وتحليلات البيانات، إلى أنه لا توجد شفافية كبيرة حول استراتيجيات إدارة التكاليف التي تتبعها OpenAI. "من المحتمل أن تستفيد OpenAI من مزايا الحجم التي لا يمكن الوصول إليها من قبل المؤسسات الأصغر التي تحاول استضافة نماذج كبيرة على منصات السحابة مثل AWS أو Azure"، كما يشير.
توافق الموارد
في تحليل حديث، أفادت Permutable.ai بأنها تنفق حوالي مليون دولار سنويًا على استخدام تقنية OpenAI، وهو ما يعادل 20 ضعف تكلفة استخدام النماذج الداخلية. يشبه ويلسون تشان، الرئيس التنفيذي لـ Permutable.ai، استخدام ChatGPT للمهام الصغيرة باستخدام "مطرقة ضخمة لكسر جوزة" — فعالة لكنها تُعتبر مفرطة في القوة. يحذر من الموارد الحسابية والمالية المرتبطة بالنماذج الثقيلة للمهام الروتينية، مشددًا على أهمية مطابقة قدرات نموذج الذكاء الاصطناعي مع الاحتياجات العملية لضمان الكفاءة من حيث التكلفة.
استكشاف هياكل التكاليف
تختلف النفقات التشغيلية للنماذج الكبيرة للغة بشكل كبير، استنادًا إلى حجمها. يتوفر Llama 2 بعدة تكوينات، حيث يحتوي أكبر إصدار على 70 مليار معلمة. تتطلب النماذج الأكبر قدرة حوسبة كبيرة للتدريب والتنفيذ، لكنها غالبًا ما تقدم أداءً محسنًا.
يوضح فيكتور بوتيف، المدير التقني والشريك المؤسس في Iris.ai، أن المعلمات يمكن تحسينها من خلال تقنيات مثل التكميم لتقليل التكاليف التشغيلية. بينما يمكن أن يؤدي ذلك إلى انخفاض التكاليف، فإنه قد يحمل مخاطر تقليل جودة الاستجابة، لذا يجب وزن القرار بعناية وفقًا لاحتياجات المستخدم.
بالنسبة للتنفيذ المحلي، تتطلب النماذج التي تحتوي على أقل من 100 مليار معلمة على الأقل صندوقًا DGX واحدًا، الذي تكلفته حوالي 200,000 دولار. قد تصل النفقات السنوية للأجهزة اللازمة لتشغيل Llama 2 محليًا إلى حوالي 65,000 دولار. في بيئات السحابة، تختلف التكاليف التشغيلية بحسب حجم النموذج. بالنسبة للنماذج التي تقل عن 15 مليار معلمة، تكون التكلفة الشهرية حوالي 1,000 دولار، أو 12,000 دولار سنويًا، بينما للنماذج التي تحتوي على حوالي 70 مليار معلمة، ترتفع التكاليف إلى حوالي 1,500 دولار شهريًا، ما مجموعه 18,000 دولار سنويًا.
نادراً ما تلبي معظم النماذج المعايير الجودة المطلوبة من الشركات، مما يستدعي الحاجة إلى تقنيات ضبط مختلفة. ضبط المطالبات هو الأقل تكلفة، بأسعار تتراوح بين 10 إلى 1,000 دولار، بينما تتراوح تكاليف ضبط التعليمات بين 100 إلى 10,000 دولار. بينما يمكن أن يكون ضبط النموذج، الذي يعدل الخصائص الأساسية للنموذج، غير متوقع، حيث يبلغ متوسطه حوالي 100,000 دولار للنماذج الصغيرة (1-5 مليار معلمة) ويصل لملايين للنماذج الأكبر.
التحول نحو نماذج أصغر
في ضوء هذه الاعتبارات، يوفر ظهور نماذج أصغر وأكثر فعالية من حيث التكلفة لتطبيقات محددة بديلًا واعدًا. تتوفر حاليًا نسخ من Llama 2 تحتوي على سبعة و13 مليار معلمة، كما أن نماذج مبتكرة مثل Phi 1.5 من Microsoft وPythia-1b من EleutherAI تكتسب زخمًا.
ومع ذلك، كما يبرز المحلل الرئيسي في Omdia، ليان جاي سو، فإن العروض مفتوحة المصدر نادرا ما تكون غير مكلفة، خاصة عند الحاجة إلى التخصيص أو التحسينات. علاوة على ذلك، بينما جميع نماذج OpenAI ملكية، قد تفضل بعض الشركات تجنب مشاركة العائدات من خلال الترخيص أو حقوق الملكية، مما يجعل تكلفة النموذج أقل أولوية.
يؤكد أنوراغ جورتو، كبير مسؤولي المنتجات في StrikeReady، على ضرورة موازنة الشركات الناشئة بين تكاليف النموذج والعائد المحتمل على الاستثمار. "يمكن لنماذج الذكاء الاصطناعي تعزيز الابتكار، وتعزيز تجارب المستخدمين، وتحسين العمليات. مع تقدمنا، فإن ظهور نماذج أكثر كفاءة وحلول موفرة للتكاليف من شأنه أن يجعل الذكاء الاصطناعي أكثر وصولًا للشركات الناشئة والمطورين"، كما يتوقع.
الوصول إلى موارد الحوسبة
عامل آخر مهم يؤثر على التكاليف التشغيلية هو الوصول إلى الأجهزة. في ظل المنافسة الحالية، تتطلع الشركات إلى نشر تقنيات الذكاء الاصطناعي، مما يتطلب موارد حوسبة قوية. ومع ذلك، تفوق الطلبات العرض. أفادت شركة Nvidia، الرائدة في السوق، مؤخرًا بوجود طلب ملحوظ على وحدات معالجة الرسوميات الخاصة بها، مع تسليمات كبيرة في الربع الثاني. مع استعداد منافسين مثل AMD وIntel لتقديم رقائق الذكاء الاصطناعي الخاصة بهم، يصبح من الضروري الحصول على وصول موثوق لطاقة الحوسبة.
مع توفر الأجهزة المحدود، قد تتعرض الشركات لارتفاع التكاليف لتلبية متطلباتها الحسابية. تتوافر وحدات معالجة الرسوميات القابلة للإيجار من مزودين مثل Hugging Face وNexGen Cloud وAWS، ولكن المتطلبات المكثفة لنماذج مثل Llama 2 تستلزم موارد حوسبة قوية.
تلاحظ تارا ووترز، المديرة الرقمية والشريكة في Ashurst، أن التسعير القائم على الاستهلاك للنماذج العامة قد يردع بعض الشركات الناشئة من السماح للعملاء المحتملين بالاستكشاف والتجربة قبل الشراء. بينما يمكن أن يسهم توفر نماذج مفتوحة المصدر في تخفيف بعض التحديات، إلا أنه يجلب عقبات جديدة، مثل الحاجة إلى بنية تحتية مناسبة لاستضافة ونشر هذه النماذج بشكل فعال.
مع تطور المشهد، تظهر استراتيجيات مبتكرة لإدارة استهلاك نماذج الذكاء الاصطناعي وتكاليفها. إن استكشاف هندسة المطالبات دون استضافة النموذج أو تطوير حلول وسيطة لتسهيل تخصيص الموارد للاستفسارات المتكررة يُظهر البراعة المطلوبة للتنقل في النظام البيئي الحالي للذكاء الاصطناعي.