أطلقت خدمات أمازون ويب (AWS) تحقيقًا بشأن شركة Perplexity AI لتحديد ما إذا كانت تنتهك القواعد المتعلقة بالزحف على الويب. وفقًا لمجلة Wired، تدرس AWS بشكل خاص الادعاءات بأن الخدمة تشغل زاحفًا مستضافًا على خوادمها، يتجاهل بروتوكول استبعاد الروبوتات. يتيح هذا المعيار لمطوري الويب وضع ملف robots.txt على مواقعهم، للإشارة إلى الصفحات التي يمكن للروبوتات الوصول إليها. ورغم أن الامتثال طوعي، إلا أن معظم الزواحف ذات السمعة الطيبة قد احترمت هذه التعليمات تاريخيًا منذ بدء البروتوكول في التسعينيات.
سابقًا، أفادت Wired أنها وجدت آلة افتراضية تتجاوز إعداداتها الخاصة في robots.txt، مستضافة على خادم AWS بعنوان IP 44.221.181.252، الذي يُعتقد أنه مرتبط بشركة Perplexity. ويُزعم أن هذا الزاحف قد وصل إلى مواقع Condé Nast مئات المرات خلال الأشهر الثلاثة الماضية، بالإضافة إلى زيارات متعددة لمواقع The Guardian وForbes وThe New York Times. للتحقق من احتمال انتهاك المحتوى، اختبرت Wired روبوت المحادثة الخاص بـ Perplexity باستخدام عناوين وأوصاف قصيرة من مقالاتها. أثبت الروبوت استجابات تشابه المقالات بدقة مع حد أدنى من النسب.
في تقرير ذي صلة، أشارت وكالة رويترز إلى أن Perplexity ليست الشركة الوحيدة التي تتجاوز ملفات robots.txt لجمع المحتوى لتدريب نماذج اللغة الكبيرة. ومع ذلك، يبدو أن Wired زودت AWS بمعلومات فقط عن زاحف Perplexity. أوضح متحدث باسم AWS: "تشترط شروط خدمتنا عدم القيام بأنشطة مسيئة أو غير قانونية، ويجب على عملائنا الامتثال لهذه الشروط. نتلقى تقارير بانتظام عن مزاعم الإساءة ونتفاعل مع عملائنا لمعالجة هذه التقارير." وأكد المتحدث أن AWS تحقق في الادعاءات المقدمة من Wired.
صرحت المتحدثة باسم Perplexity، سارة بلاتنيك، أن الشركة استجابت لاستفسارات AWS، نافية أن زواحفها تنتهك بروتوكول استبعاد الروبوتات. قالت بلاتنيك: "يقدم PerplexityBot—الذي يعمل على AWS—احترامًا للملف robots.txt، وقد أكدنا أن الخدمات التي تتحكم بها Perplexity لا تزحف بطريقة تنتهك شروط AWS." وأضافت أن استفسار AWS كان ممارسة قياسية لمعالجة الإساءة المحتملة، وأشارت إلى أن Perplexity لم تتلق أي إشعار مسبق بالتحقيق قبل اتصال Wired. من الجدير بالذكر أن بلاتنيك اعترفت بأن PerplexityBot قد يتجاهل robots.txt عندما يقدم المستخدمون عناوين URL محددة في الاستفسارات.
نفى أرابند سينيفاس، الرئيس التنفيذي لشركة Perplexity، أيضًا الادعاءات بأن الشركة "تتجاهل بروتوكول استبعاد الروبوتات وتكذب بشأنه." ومع ذلك، اعترف، في حديثه لموقع Fast Company، بأن Perplexity تستخدم زواحف ويب تابعة لأطراف ثالثة بالإضافة إلى زاحفها الخاص، وأقر بأن الروبوت الذي حددته Wired هو واحد من هذه الأدوات التابعة للأطراف الثالثة.