بينما تتسارع الشركات لتبني الذكاء الاصطناعي التوليدي، تثير المخاوف بشأن دقة وسلامة نماذج اللغة الكبيرة (LLMs) تحديات قد تعيق التكامل الواسع في المؤسسات. وتتصدى لهذه التحديات شركة باترونوس AI، وهي شركة ناشئة في سان فرانسيسكو حصلت مؤخرًا على 17 مليون دولار في جولة تمويل سلسلة A لاكتشاف الأخطاء المكلفة والخطرة في نماذج LLM بشكل آلي وعلى نطاق واسع.
ترفع هذه الجولة التمويلية إجمالي استثمار باترونوس AI إلى 20 مليون دولار، وقد قادها جلين سولومون من Notable Capital، مع مساهمات من Lightspeed Venture Partners، والمدير التنفيذي السابق في DoorDash غوكول راجارام، وFactorial Capital، وDatadog، وعدد من قادة التكنولوجيا غير المعروفين.
أسس باترونوس AI خبيرا التعلم الآلي السابقين في Meta، أناند كانابان وRebecca Qian، وقد ابتكرت الشركة منصة تقييم آلية مبتكرة مصممة لاكتشاف مشكلات مثل الهلاوس، وانتهاكات حقوق النشر، ومخاطر السلامة في مخرجات LLM. من خلال استخدام الذكاء الاصطناعي الخاص، تقوم المنصة بتقييم أداء النماذج، واختبارها باستخدام أمثلة معادية، وتسهيل عمليات القياس التفصيلي—كل ذلك دون الحاجة إلى العمل اليدوي التقليدي الذي تطلبه المؤسسات.
قال كانابان، الرئيس التنفيذي لباترونوس AI: "منتجنا يتفوق في اكتشاف مجموعة متنوعة من الأخطاء. يشمل ذلك الهلاوس، ومشكلات حقوق النشر، ومخاطر السلامة، وقدرات مخصصة للحفاظ على أسلوب العلامة التجارية ونبرتها".
أدى ظهور نماذج LLM القوية مثل GPT-4 من OpenAI وLlama 3 من Meta إلى سباق تنافسي في وادي السيليكون للاستفادة من قدرات هذه التكنولوجيا التوليدية. ومع هذه الحماسة، ظهرت فشل نماذج ملحوظة—من مقالات AI مليئة بالأخطاء من CNET إلى شركات اكتشاف الأدوية التي سحبت أوراق بحثية تأثرت بدقة نماذج LLM.
تسلط هذه الفشل الضوء على مشكلات أعمق ومنظمة داخل LLM الحالية، وهو ما تسعى باترونوس AI لمعالجته. تكشف أبحاثهم، بما في ذلك واجهة برمجة التطبيقات "CopyrightCatcher" التي أُطلقت مؤخرًا والقياس "FinanceBench"، عن عيوب مقلقة في قدرة النماذج الرائدة على تقديم إجابات دقيقة ومبنية على الحقائق.
في قياس "FinanceBench"، قامت باترونوس بتقييم نماذج مثل GPT-4 على استفسارات مالية باستخدام ملفات SEC العامة. كانت النتائج صارمة: النموذج الأعلى أداءً أجاب عن 19% فقط من الأسئلة بشكل صحيح رغم مراجعة تقرير سنوي كامل. وكشف تقييم آخر باستخدام واجهة "CopyrightCatcher" أن النماذج مفتوحة المصدر reproducing النصوص المحمية بحقوق الطبع والنشر بشكل مطابق في 44% من الحالات.
لاحظت Qian، المديرة التقنية في باترونوس، "حتى النماذج الحديثة تعاني من الدقة، حيث أدت بنسبة 90% فقط في سياقات المالية. تشير نتائجنا إلى أن النماذج مفتوحة المصدر تنتج أكثر من 20% من الردود غير الآمنة في المجالات عالية المخاطر. يشكل انتهاك حقوق النشر مصدر قلق كبير؛ ويجب على الناشرين الكبار والشركات الإعلامية أن تكون يقظة".
بينما تعمل شركات ناشئة أخرى مثل Credo AI وWeights & Biases على تطوير أدوات تقييم LLM، تتميز باترونوس بنهج يركز على البحث. تشمل تقنيتها الأساسية تدريب نماذج تقييم مخصصة لتحديد السيناريوهات المحددة التي قد تفشل فيها LLM.
أكد كانابان، "لا توجد شركة أخرى تضاهي عمق بحثنا وتقنياتنا. استراتيجيتنا فريدة—مبنية على تدريب نماذج التقييم، وتقنيات المحاذاة الرائدة، ونشر الأبحاث".
لقد حققت باترونوس AI تقدمًا مع العديد من شركات Fortune 500 عبر صناعات متعددة، تشمل السيارات والتعليم والمالية والبرمجيات، مساعدةً إياها في تنفيذ LLMs بطريقة آمنة. مع ضخ رأس المال الجديد، تخطط باترونوس لتوسيع فرق البحث والهندسة والمبيعات، بينما تعمل على تطوير معايير إضافية.
إذا حققت باترونوس رؤيتها، فقد تصبح التقييمات الآلية لـ LLMs ضرورية للشركات، على غرار دور التدقيق الأمني في تسريع اعتماد السحابة. تتخيل Qian مستقبلاً حيث يصبح اختبار النماذج مع باترونوس أمرًا روتينيًا، مشابهًا للاختبارات الوحدوية للكود.
شرحت قائلة: "منصتنا متعددة الاستخدامات، وقابلة للتطبيق عبر مجالات مختلفة، من القانونية إلى الصحية. نهدف إلى تمكين المؤسسات في كل صناعة للاستفادة من LLMs مع ضمان الالتزام بمتطلباتها المحددة".
رغم تعقيدات التحقق من أداء LLM بسبب طبيعتها الغامضة وإمكانياتها الواسعة، تلتزم باترونوس بتعزيز تقييم الذكاء الاصطناعي. من خلال دفع حدود الاختبار الآلي، تهدف إلى تسهيل النشر المسؤول لـ LLMs في التطبيقات الواقعية.
اعترف كانابان: "أتمتة قياس أداء LLM أمر صعب بسبب تنوع السلوكيات التي يمكن أن تظهرها هذه النماذج التوليدية. ومع ذلك، تمكننا منهجيتنا المدفوعة بالبحث من تحديد الأخطاء بشكل موثوق وقابل للتوسع، وهو ما لا يمكن للاختبارات اليدوية القيام به".