Amazon Investiga a Perplexity AI por Alegaciones de Rastreo No Autorizado de Sitios Web

Amazon Web Services (AWS) ha iniciado una investigación sobre Perplexity AI para determinar si está violando las normas relacionadas con la exploración web. Según Wired, AWS está investigando alegaciones de que el servicio opera un crawler, alojado en sus servidores, que ignora el Protocolo de Exclusión de Robots (Robots Exclusion Protocol). Este estándar web permite a los desarrolladores colocar un archivo robots.txt en sus sitios, indicando qué páginas pueden ser accedidas por bots. Aunque el cumplimiento es voluntario, la mayoría de los crawlers de buena reputación han respetado estas indicaciones desde el inicio del protocolo en la década de 1990.

Wired informó previamente sobre el hallazgo de una máquina virtual que eludía su propia configuración de robots.txt, alojada en un servidor de AWS con la dirección IP 44.221.181.252, que se cree asociada a Perplexity. Se alega que este crawler ha accedido a los sitios de Condé Nast cientos de veces en los últimos tres meses, así como realizado múltiples visitas a The Guardian, Forbes y The New York Times. Para verificar potenciales scraping de contenido, Wired probó el chatbot de Perplexity con titulares y descripciones cortas de sus artículos, obteniendo respuestas que reflejaban estrechamente los artículos con mínima atribución.

En un informe relacionado, Reuters destacó que Perplexity no es la única empresa de IA que omite archivos robots.txt para recoger contenido para entrenar grandes modelos de lenguaje. Sin embargo, parece que Wired solo proporcionó a AWS información sobre el crawler de Perplexity. Un portavoz de AWS aclaró: "Nuestros términos de servicio prohíben actividades abusivas e ilegales, y nuestros clientes deben cumplir con esos términos. Recibimos informes de presunto abuso y trabajamos con nuestros clientes para abordar estos informes." El portavoz confirmó que AWS está investigando las afirmaciones presentadas por Wired.

La portavoz de Perplexity, Sara Platnick, afirmó que la empresa ha respondido a las consultas de AWS, negando que sus crawlers violen el Protocolo de Exclusión de Robots. "Nuestro PerplexityBot—que opera en AWS—respeta robots.txt, y confirmamos que los servicios controlados por Perplexity no exploran de manera que infrinja los términos de AWS," comentó Platnick. Añadió que la consulta de AWS era una práctica habitual para abordar el abuso potencial y mencionó que Perplexity no tuvo previo aviso de la investigación antes del contacto de Wired. Platnick reconoció que PerplexityBot puede ignorar robots.txt cuando los usuarios proporcionan URLs específicas en sus consultas.

Aravind Srinivas, CEO de Perplexity, también refutó las afirmaciones de que la empresa está "ignorando el Protocolo de Exclusión de Robots y mintiendo al respecto." Sin embargo, admitió, en conversación con Fast Company, que Perplexity emplea crawlers web de terceros además de los suyos, y reconoció que el bot identificado por Wired es una de estas herramientas externas.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles