A Amazon Web Services (AWS) iniciou uma investigação sobre a Perplexity AI para verificar se a empresa está violando regras relacionadas ao rastreamento da web. Segundo a Wired, a AWS está analisando alegações de que o serviço opera um crawler, hospedado em seus servidores, que desconsidera o Protocolo de Exclusão de Robôs. Esse padrão web permite que desenvolvedores incluam um arquivo robots.txt em seus sites, indicando quais páginas podem ser acessadas por bots. Embora a conformidade seja voluntária, a maioria dos crawlers respeitáveis historicamente obedecem a essas instruções desde a criação do protocolo na década de 1990.
A Wired já havia reportado a descoberta de uma máquina virtual que ignorava suas próprias configurações de robots.txt, hospedada em um servidor da AWS no endereço IP 44.221.181.252, supostamente associada à Perplexity. Aparentemente, esse crawler acessou sites da Condé Nast centenas de vezes nos últimos três meses, além de fazer várias visitas ao The Guardian, Forbes e The New York Times. Para verificar possíveis violações de conteúdo, a Wired testou o chatbot da Perplexity com manchetes e descrições curtas de seus artigos. O chatbot gerou respostas que se assemelhavam de perto aos artigos, com mínima atribuição.
Em um relatório relacionado, a Reuters observou que a Perplexity não é a única empresa de IA que ignora arquivos robots.txt para coletar conteúdo e treinar grandes modelos de linguagem. No entanto, parece que a Wired forneceu apenas informações sobre o crawler da Perplexity à AWS. Um porta-voz da AWS esclareceu: "Nossos termos de serviço proíbem atividades abusivas e ilegais, e nossos clientes devem cumprir esses termos. Recebemos frequentemente relatos de suposto abuso e nos envolvemos com nossos clientes para tratar desses relatos." O porta-voz confirmou que a AWS está investigando as alegações apresentadas pela Wired.
A porta-voz da Perplexity, Sara Platnick, afirmou que a empresa respondeu às consultas da AWS, negando que seus crawlers violem o Protocolo de Exclusão de Robôs. "Nosso PerplexityBot — operando na AWS — respeita o robots.txt, e confirmamos que os serviços controlados pela Perplexity não rastreiam de forma a violar os termos da AWS," disse Platnick. Ela acrescentou que a consulta da AWS era uma prática padrão para tratar possíveis abusos e mencionou que a Perplexity não havia sido informada previamente sobre uma investigação antes do contato da Wired. Platnick reconheceu que o PerplexityBot pode ignorar o robots.txt quando os usuários fornecem URLs específicas nas consultas.
Aravind Srinivas, CEO da Perplexity, também refutou as alegações de que a empresa está "ignorando o Protocolo de Exclusão de Robôs e mentindo sobre isso." No entanto, ele admitiu à Fast Company que a Perplexity utiliza crawlers de terceiros, além dos seus próprios, e reconheceu que o bot identificado pela Wired é uma dessas ferramentas externas.