في كشف بارز، اقترحت شركة التشفير الناشئة Groq من خلال إعادة التغريد أن نظامها يحقق أكثر من 800 توكن في الثانية مع نموذج اللغة الكبير الجديد LLaMA 3 الذي أطلقته Meta. ذكر دان جاكيتيس، أحد المهندسين الذين يقيمون LLaMA 3، على منصة X (المعروفة سابقًا بتويتر): "لقد كنا نقوم باختبار API الخاص بهم قليلاً، والخدمة بالتأكيد ليست سريعة كما أظهرت عروض الأجهزة. من المحتمل أن تكون المشكلة برمجية—ما زلنا متحمسين لاعتماد Groq بشكل أوسع."
بدوره، أفاد مات شومر، المؤسس المشارك والرئيس التنفيذي لشركة OthersideAI، مع مستخدمين بارزين آخرين، بأن نظام Groq يوفر بالفعل سرعات استنتاج سريعة تتجاوز 800 توكن في الثانية مع LLaMA 3. إذا تم التحقق من ذلك، فسيتفوق هذا الأداء بشكل كبير على خدمات الذكاء الاصطناعي السحابية الحالية، حيث تشير الاختبارات الأولية إلى صحة ادعاء شومر.
معمارية معالج جديدة مصممة للذكاء الاصطناعي
تعتبر Groq، التي تتمتع بتمويل جيد في وادي السيليكون، رائدة في تصميم معمارية معالج فريدة مصممة لعمليات ضرب المصفوفات التي تعتبر محور التعلم العميق. معالجها Tensor Streaming Processor يتجنب الذاكرات التقليدية ومنطق التحكم المعقد الخاص بوحدات المعالجة المركزية والرسومية، مفضلًا نموذج تنفيذ مبسط مصمم لمهام الذكاء الاصطناعي.
من خلال تقليل الأعباء والاختناقات في الذاكرة التي توجد عادةً في المعالجات العامة، تدعي Groq أنها تستطيع تقديم أداء وكفاءة متفوقين لاستنتاج الذكاء الاصطناعي. ستكون النتائج الملفتة التي تحقق 800 توكن في الثانية مع LLaMA 3، إذا تم إثباتها، دعمًا قويًا لهذا الادعاء.
تختلف معماريات Groq بشكل ملحوظ عن تلك الخاصة بشركات مثل Nvidia وغيرها من الشركات المصنعة الرائدة. بدلاً من تعديل الشرائح العامة للذكاء الاصطناعي، قامت Groq بتطوير معالجها Tensor Streaming Processor خصيصًا لتعزيز متطلبات الحوسبة للتعلم العميق.
تتيح هذه المقاربة المبتكرة لـ Groq إزالة الدوائر غير الضرورية وتحسين تدفق البيانات للمهام التكرارية والقابلة للتوازي التي تتسم بها استنتاجات الذكاء الاصطناعي. والنتيجة هي انخفاض ملحوظ في زمن الانتظار واستهلاك الطاقة والتكاليف المرتبطة بتشغيل الشبكات العصبية الكبيرة مقارنةً بالبدائل الموجودة في السوق.
الحاجة إلى استنتاجات ذكاء اصطناعي سريعة وفعالة
تحقيق 800 توكن في الثانية يعادل حوالي 48,000 توكن في الدقيقة—وهو ما يكفي لإنتاج حوالي 500 كلمة من النص في ثانية واحدة فقط. وتعتبر هذه السرعة أسرع بعشر مرات تقريبًا من معدلات الاستنتاج النمطية لنماذج اللغة الكبيرة على وحدات المعالجة الرسومية التقليدية في السحابة اليوم.
مع زيادة حجم نماذج اللغة لتصل إلى مليارات المعلمات، تتزايد الحاجة إلى استنتاجات ذكاء اصطناعي سريعة وفعالة. في حين أن تدريب هذه النماذج الضخمة يتطلب حسابات معقدة، يعتمد نشرها بشكل فعال على أجهزة قادرة على المعالجة السريعة دون استهلاك طاقة مفرطة. وهذا أمر بالغ الأهمية للتطبيقات الحساسة للوقت مثل الدردشة الذكية، والمساعدات الافتراضية، والمنصات التفاعلية.
تزايد كفاءة الطاقة لاستنتاجات الذكاء الاصطناعي يبرز بشكل متزايد مع توسع التكنولوجيا. تعد مراكز البيانات بالفعل من كبار مستهلكي الطاقة، وقد تؤدي المطالب الحسابية الثقيلة للذكاء الاصطناعي على نطاق واسع إلى تفاقم هذه المشكلة. تعتبر الأجهزة التي تحقق توازنًا بين الأداء العالي وانخفاض استهلاك الطاقة ضرورية لجعل الذكاء الاصطناعي قابلًا للاستدامة على نطاق واسع، وقد تم تصميم معالج Groq Tensor Streaming لمواجهة هذا التحدي.
تحدي هيمنة Nvidia
تستحوذ Nvidia حاليًا على سوق معالجات الذكاء الاصطناعي من خلال وحدات المعالجة A100 وH100، والتي تدعم معظم خدمات الذكاء الاصطناعي السحابية. ومع ذلك، تظهر موجة جديدة من الشركات الناشئة، بما في ذلك Groq وCerebras وSambaNova وGraphcore، مع معماريات مبتكرة مصممة خصيصًا للذكاء الاصطناعي.
بين هؤلاء المنافسين، تعد Groq من بين الأكثر صوتًا بشأن تركيزها على كل من الاستنتاج والتدريب. وقد توقع الرئيس التنفيذي جوناثان روس بثقة أنه بحلول نهاية عام 2024، ستتبنى غالبية شركات الذكاء الاصطناعي معالجات Groq ذات التنسيق المنخفض للاستنتاج.
تقدم LLaMA 3 التي أطلقتها Meta، والتي تم الإشادة بها كواحدة من أقوى نماذج اللغة مفتوحة المصدر، لشركة Groq فرصة مثالية لإظهار قدرات استنتاج أجهزتها. إذا كان بإمكان تقنية Groq أن تتفوق على البدائل الشائعة في تشغيل LLaMA 3، فسوف يدعم ذلك ادعاءات الشركة الناشئة ويسرع من اعتماد السوق. كما أنشأت الشركة وحدة أعمال جديدة لتعزيز إمكانية الوصول إلى رقائقها من خلال خدمات سحابية وشراكات استراتيجية.
يمكن أن تؤدي تقاطعات النماذج المفتوحة القوية مثل LLaMA ومعالجة Groq الفعالة والتي تركز على الذكاء الاصطناعي إلى جعل الذكاء الاصطناعي المتقدم في اللغة أكثر وصولاً وبتكاليف أقل لجمهور أكبر من الشركات والمطورين. ومع ذلك، تظل Nvidia منافسًا قويًا، كما أن منافسين آخرين مستعدون للاستفادة من الفرص الجديدة.
بينما تشتد المنافسة لبناء بنية تحتية يمكن أن تتناسب مع التطورات السريعة في تطوير نماذج الذكاء الاصطناعي، فإن تحقيق استنتاج الذكاء الاصطناعي في الوقت الحقيقي تقريبًا بتكلفة معقولة يمكن أن يُحدث ثورة في قطاعات متعددة، بما في ذلك التجارة الإلكترونية والتعليم والتمويل والرعاية الصحية.
لقد لخص أحد المستخدمين على X.com هذه اللحظة بدقة: "السرعة + التكلفة المنخفضة + الجودة = لا معنى لأي شيء آخر [في الوقت الحالي]." ستحدد الأشهر القادمة ما إذا كانت هذه الادعاءات صحيحة، مما يبرز تطور مشهد الأجهزة الخاصة بالذكاء الاصطناعي في ظل التحدي للنماذج التقليدية.