لقد قمت بفخر بتقديم خدماتك كـ "مُعزَّزة بالذكاء الاصطناعي" من خلال دمج نماذج اللغة الكبيرة. تعرض الصفحة الرئيسية لموقعك تأثير حلولك المدفوعة بالذكاء الاصطناعي من خلال العروض التفاعلية ودراسات الحالة، مما يمثل دخولك إلى عالم الذكاء الاصطناعي التوليدي العالمي.
يُقدّر قاعدة مستخدمينك الصغيرة ولكن الملتزمة تجربة العملاء المحسّنة، وتظهر فرص نمو جديدة. ومع ذلك، بعد ثلاثة أسابيع فقط من بداية الشهر، تستقبل رسالة بريد إلكتروني من OpenAI تفاجئك:
قبل أسبوع، كنت تتحدث مع العملاء، تقيم ملاءمة المنتج للسوق، وفجأة، يشهد موقعك زيادة كبيرة في حركة المرور تؤدي إلى تعطل خدماتك المدفوعة بالذكاء الاصطناعي.
تؤدي هذه الزيادة إلى إحباط المستخدمين الحاليين وتثني المستخدمين الجدد. قد يكون الحل السريع هو زيادة حد الاستخدام، لكن هذا يتركك غير مرتاح للاعتماد على مزود واحد وفقدان السيطرة على تكاليف الذكاء الاصطناعي الخاصة بك.
تتساءل: "هل يجب أن أستضيف الخدمة بنفسي؟"
لحسن الحظ، تتوفر نماذج اللغة الكبيرة مفتوحة المصدر على منصات مثل Hugging Face، مما يمنحك خيار الاستضافة الذاتية. ومع ذلك، تأتي العديد من النماذج الرائدة مع مليارات المعاملات وتتطلب موارد كبيرة للتوسع، خاصة بالنسبة للتطبيقات ذات الكمون المنخفض.
بينما تثق في قدرة فريقك على بناء البنية التحتية اللازمة، فإن التكاليف المحتملة لمثل هذا الانتقال تعتبر مقلقة:
- تكاليف الضبط الدقيق
- نفقات الاستضافة
- تكاليف الخدمة
لذا، يبقى السؤال الملح: هل يجب عليك زيادة حد الاستخدام أم متابعة الاستضافة الذاتية؟
تقييم LLaMA 2
خذ وقتك؛ فهذا قرار مهم.
بعد استشارة مهندسي تعلم الآلة لديك، اكتشفت LLaMA 2، وهو نموذج لغة مفتوح المصدر يُحقق أداءً مقاربًا لـ GPT-3، النموذج الحالي لديك. يتوفر بثلاثة أحجام: 7 مليارات، 13 مليارًا، و70 مليارًا من المعاملات. اخترت الأكبر لتظل تنافسيًا.
يتطلب LLaMA 2، المدرب بتنسيق bfloat16، 2 بايت لكل معامل، مما يؤدي إلى حجم نموذج إجمالي يبلغ 140 جيجابايت.
هل أنت قلق بشأن تعقيد ضبط نموذج بهذا الحجم؟ لا داعي للقلق. باستخدام LoRA، قد تحتاج فقط إلى ضبط حوالي 0.1% من المعاملات — حوالي 70 مليوناً — مما يستهلك فقط 0.14 جيجابايت.
لإدارة الحمل الزائد في الذاكرة أثناء الضبط الدقيق (بما في ذلك تعديل الانحدار وتخزين البيانات)، يجب أن تستهدف الحفاظ على حوالي خمس مرات من ذاكرة المعاملات القابلة للتدريب:
- أوزان النموذج الثابتة LLaMA 2: 140 جيجابايت (بدون حمل زائد في الذاكرة)
- أوزان ضبط LoRA: 0.14 جيجابايت * 5 = 0.7 جيجابايت
هذا يجعل الإجمالي حوالي 141 جيجابايت أثناء الضبط الدقيق.
إذا كانت لديك نقص في البنية التحتية التدريبية، فكر في استخدام AWS. متوسط تكلفة الساعة للحوسبة على الطلب حوالي 2.80 دولار، مما يساوي حوالي 67 دولار يوميًا للضبط الدقيق - تكلفة معقولة، خاصة وأن الضبط الدقيق لن يستغرق وقتًا طويلاً.
فهم تكاليف الخدمة
عند النشر، يجب أن تحافظ على مجموعتين من الأوزان في الذاكرة:
- أوزان النموذج: 140 جيجابايت
- أوزان ضبط LoRA: 0.14 جيجابايت
مجموعها حوالي 140.14 جيجابايت.
قد تتمكن من تخطي حساب التدرج، ومع ذلك، من الحكمة الحفاظ على حوالي 1.5 مرة أكثر من الذاكرة لتكاليف غير متوقعة (حوالي 210 جيجابايت).
في AWS، تبلغ تكلفة حوسبة GPU حوالي 3.70 دولار في الساعة — أو حوالي 90 دولارًا في اليوم — مما يؤدي إلى نفقات شهرية تقارب 2,700 دولار.
بالإضافة إلى ذلك، خطط للطوارئ. لتجنب انقطاع الخدمة، اعتبر الحفاظ على نموذج احتياطي، مما يزيد التكاليف إلى حوالي 180 دولار يوميًا أو 5,400 دولار شهريًا — وهو مبلغ قريب من نفقاتك الحالية مع OpenAI.
تحليل نقاط التعادل في التكاليف
سيؤدي الاستمرار مع OpenAI إلى تحقيق سعة معالجة يومية تقريبية لمطابقة التكاليف المتكبدة مع ضبط LLaMA 2:
تكلفة ضبط GPT 3.5 Turbo هي 0.008 دولار لكل 1K توكن. بافتراض وجود توكين لكل كلمة، لتحقيق التوازن بين نفقات الضبط للنموذج مفتوح المصدر (67 دولارًا يوميًا)، ستحتاج إلى معالجة حوالي 4.15 مليون كلمة يوميًا — حوالي 14,000 صفحة من البيانات.
قد يكون هذا الحجم غير قابل للتحصيل بالنسبة لمعظم المنظمات، مما يعني أن استخدام OpenAI للضبط الدقيق عادة ما يكون أكثر اقتصادية.
الخلاصة: متى تكون الملكية جديرة بالاهتمام؟
قد تبدو الاستضافة الذاتية للذكاء الاصطناعي جذابة للوهلة الأولى، لكن كن حذرًا من التكاليف الخفية. بينما توفر مقدمو الخدمات من طرف ثالث العديد من التحديات في إدارة نماذج LLM، فإنها تأتي بمزاياها الخاصة، خاصة فيما يتعلق بالخدمات التي تستفيد من الذكاء الاصطناعي بدلاً من أن تتركز عليه.
بالنسبة للشركات الكبيرة، قد تبدو تكلفة الملكية السنوية البالغة 65,000 دولار قابلة للإدارة، لكن بالنسبة لمعظم الأعمال، تعد رقمًا كبيرًا. لا تتجاهل نفقات إضافية للموهبة والصيانة، والتي يمكن أن تضخم التكلفة الإجمالية إلى 200,000-250,000 دولار أو أكثر سنويًا.
بينما تمنحك ملكية نموذج السيطرة على البيانات والاستخدام، يجب أن تتجاوز حوالي 22.2 مليون كلمة يوميًا في طلبات المستخدمين، بالإضافة إلى الموارد اللوجستية المطلوبة لإدارة هذه المطالب. بالنسبة للعديد من حالات الاستخدام، تظل الفوائد المالية للاستضافة الذاتية مقارنة باستخدام API غير واضحة.