فريق الذكاء الاصطناعي في أمازون AWS أطلق أداة RAGChecker، وهي أداة بحث رائدة تهدف إلى تعزيز دقة أنظمة الذكاء الاصطناعي في استرجاع ودمج المعرفة الخارجية. تتناول هذه الأداة تحديًا كبيرًا في الذكاء الاصطناعي: ضمان تقديم أنظمة دقيقة واستجابات ذات صلة سياقية من خلال الاستفادة من قواعد البيانات الخارجية جنبًا إلى جنب مع النماذج اللغوية الكبيرة.
تقدم RAGChecker إطار عمل شامل لتقييم أنظمة الإنتاج المعزز بالاسترجاع (RAG)، التي تعد ضرورية للمساعدين الذكيين والدردشات الرقمية التي تحتاج إلى معلومات محدثة تتجاوز تدريبها الأولي. تعزز الأداة طرق التقييم الحالية، التي غالبًا ما تُهمل التعقيدات والأخطاء المحتملة الموجودة في هذه الأنظمة.
يوضح الباحثون أن RAGChecker يستخدم فحص ادعاءات على مستوى المطالب، مما يتيح تحليلًا أكثر تفصيلًا لكل من مكونات الاسترجاع والتوليد. على عكس المقاييس التقليدية التي تقيم الاستجابات بشكل عام، تقوم RAGChecker بتفصيل الاستجابات إلى مطالب فردية لتقييم دقتها وملاءمتها السياقية.
حاليًا، يتم استخدام RAGChecker من قبل الباحثين والمطورين الداخليين في أمازون، دون إعلان عن إصدار علني. إذا تم إتاحتها، قد تُصدر كأداة مفتوحة المصدر أو تُدمج في خدمات AWS. سيتعين على المهتمين انتظار مزيد من الإعلانات من أمازون.
أداة متعددة الاستخدامات للمؤسسات والمطورين
RAGChecker جاهزة لتعزيز كيفية تقييم المؤسسات وتحسين أنظمتها الذكية. توفر مقاييس أداء شاملة لمقارنة أنظمة RAG المختلفة، بالإضافة إلى مقاييس تشخيصية تحدد نقاط الضعف في مراحل الاسترجاع أو التوليد. يميز الإطار بين أخطاء الاسترجاع—عندما تفشل النظام في تحديد المعلومات ذات الصلة—وأخطاء التوليد—عندما يساء استخدام البيانات المسترجعة.
تشير أبحاث أمازون إلى أنه بينما تتفوق بعض أنظمة RAG في استرجاع المعلومات ذات الصلة، فإنها غالبًا ما تواجه صعوبة في تصفية التفاصيل غير ذات الصلة أثناء مرحلة التوليد، مما يؤدي إلى نواتج مضللة. كما تسلط الدراسة الضوء على الفروقات بين النماذج مفتوحة المصدر والم proprietary مثل GPT-4، مشيرة إلى أن الأنظمة مفتوحة المصدر قد تعتمد بشكل مفرط على السياق المقدم، مما يعرضها لمخاطر عدم الدقة.
رؤى من اختبار مجالات حيوية
اختبر فريق AWS RAGChecker عبر ثمانية أنظمة RAG مختلفة باستخدام مجموعة بيانات مرجعية تتضمن عشرة مجالات حيوية، بما في ذلك الطب والمالية والقانون. كشفت النتائج عن توازنات يجب على المطورين أخذها في الاعتبار: الأنظمة التي تتفوق في استرجاع البيانات ذات الصلة قد تسترجع أيضًا معلومات غير ذات صلة، مما يعقد عملية التوليد.
مع زيادة تكامل الذكاء الاصطناعي في العمليات التجارية، تستعد RAGChecker لتحسين موثوقية المحتوى الناتج عن الذكاء الاصطناعي، خاصةً في التطبيقات الحساسة. من خلال تقديم تقييم دقيق لاسترجاع واستخدام المعلومات، يساعد الإطار الشركات على ضمان بقاء أنظمتها الذكية دقيقة وموثوقة.
باختصار، مع استمرار تقدم الذكاء الاصطناعي، ستظل أدوات مثل RAGChecker ضرورية لتحقيق توازن بين الابتكار والموثوقية. يؤكد فريق AWS AI أن "معايير RAGChecker يمكن أن تو guide الباحثين والممارسين في تطوير أنظمة RAG أكثر فعالية"، وهو بيان قد يؤثر بشكل كبير على المستقبل الذكاء الاصطناعي في مختلف الصناعات.