Amazon enquête sur Perplexity AI suite à des allégations de collecte non autorisée de données sur des sites web.

Amazon Web Services (AWS) a lancé une enquête sur Perplexity AI afin de déterminer si elle enfreint des règles relatives au web crawling. Selon Wired, AWS examine en particulier des allégations selon lesquelles le service exploiterait un crawler, hébergé sur ses serveurs, qui ignore le Robots Exclusion Protocol. Ce standard web permet aux développeurs de placer un fichier robots.txt sur leur site, indiquant quelles pages peuvent être accessibles par les bots. Bien que le respect de ce protocole soit volontaire, la plupart des crawlers réputés respectent ces instructions depuis l’origine du protocole dans les années 1990.

Wired a précédemment rapporté avoir découvert une machine virtuelle contournant ses propres paramètres robots.txt, hébergée sur un serveur AWS à l'adresse IP 44.221.181.252, supposément associée à Perplexity. Ce crawler aurait accédé aux sites de Condé Nast des centaines de fois au cours des trois derniers mois, en plus de faire plusieurs visites à The Guardian, Forbes et The New York Times. Pour vérifier un éventuel scraping de contenu, Wired a testé le chatbot de Perplexity avec des titres et des descriptions d'articles. Le chatbot a donné des réponses proches des articles, avec peu d'attribution.

Dans un rapport connexe, Reuters a noté que Perplexity n'est pas la seule entreprise d'IA à contourner les fichiers robots.txt pour collecter du contenu destiné à former des modèles linguistiques. Cependant, il semble que Wired n'ait fourni à AWS des informations que sur le crawler de Perplexity. Un porte-parole d'AWS a précisé : « Nos conditions de service interdisent les activités abusives et illégales, et nos clients doivent s'y conformer. Nous recevons régulièrement des rapports d'abus présumés et collaborons avec nos clients pour les traiter. » Le porte-parole a confirmé qu’AWS enquête sur les allégations présentées par Wired.

La porte-parole de Perplexity, Sara Platnick, a déclaré que l’entreprise a répondu aux demandes d’AWS, niant que ses crawlers violent le Robots Exclusion Protocol. « Notre PerplexityBot, opérant sur AWS, respecte le robots.txt, et nous avons confirmé que les services contrôlés par Perplexity ne crawle pas de manière à enfreindre les conditions d’AWS », a déclaré Platnick. Elle a ajouté que l'enquête d'AWS était une pratique normale pour traiter les abus potentiels et a mentionné que Perplexity n'avait reçu aucun préavis d'une enquête avant le contact de Wired. Notamment, Platnick a reconnu que PerplexityBot pourrait ignorer robots.txt si des utilisateurs fournissent des URL spécifiques dans leurs requêtes.

Aravind Srinivas, le PDG de Perplexity, a également réfuté les accusations selon lesquelles l'entreprise « ignore le Robots Exclusion Protocol et ment à ce sujet. » Il a admis, cependant, à Fast Company que Perplexity utilise des crawlers web tiers en plus des siens et a reconnu que le bot identifié par Wired est un de ces outils externes.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles