アマゾンウェブサービス(AWS)は、Perplexity AIがウェブクロールに関する規則に違反しているかを調査しています。Wiredによると、AWSは特にこのサービスが自社のサーバー上でクロールを行うツールを運営しており、ロボット排除プロトコル(Robots Exclusion Protocol)を無視しているとの疑惑について調査を進めています。このウェブ標準は、開発者がウェブサイト上にrobots.txtファイルを配置し、ボットがアクセス可能なページを示すことを可能にします。コンプライアンスは任意ですが、著名なクロールツールは1990年代のプロトコル発足以来、これらの指示を尊重してきました。
Wiredは以前、Perplexityが関与していると考えられるAWSサーバー(IPアドレス:44.221.181.252)上に、独自のrobots.txt設定を回避する仮想マシンを発見したと報じています。このクローラーは、過去3ヶ月間にわたり、Condé Nastのサイトに数百回アクセスし、The Guardian、Forbes、The New York Timesにも複数回訪問したとされています。Wiredは、Perplexityのチャットボットを使い、同社の記事の見出しと短い説明を用いて潜在的なコンテンツのスクレイピングを検証しました。その結果、チャットボットは記事に非常に似た回答を生成し、著作権の明示は最小限となりました。
関連する報道では、ロイターは、Perplexityだけでなく、他のAI企業もrobots.txtファイルを回避してコンテンツを収集し、大規模な言語モデルのトレーニングに使用していると指摘しました。しかし、WiredはAWSにPerplexityのクローラーに関する情報のみ提供したようです。AWSの広報担当者は「私たちのサービス規約は、悪質で違法な行為を禁じており、顧客はその規約に従う必要があります。私たちは定期的に疑惑に関する報告を受けており、これらの報告について顧客と対話しています」と述べ、Wiredからの主張について調査中であることを確認しました。
Perplexityの広報担当、サラ・プラトニックは、同社がAWSの質問に対して応答し、そのクローラーがロボット排除プロトコルに違反していないと否定したと述べました。「AWS上で運用される私たちのPerplexityBotはrobots.txtを尊重しており、Perplexityが管理するサービスはAWSの規約に違反する形でクロールすることはないことを確認しました」とプラトニックは述べています。また、AWSの調査は潜在的な悪用に対処するための標準的な手続きであり、Wiredからの接触の前に調査の通知はなかったと付け加えました。特に、プラトニックはPerplexityBotがユーザーから特定のURLを入力されるとrobots.txtを無視する可能性があることを認めました。
PerplexityのCEOアラビンド・スリニバスも、同社が「ロボット排除プロトコルを無視し、それについて嘘をついている」という主張を否定しましたが、Fast CompanyにはPerplexityが自社のクローラーに加え、サードパーティのウェブクローラーも使用していることを認め、Wiredによって特定されたボットがこれらのサードパーティツールの一つであることを認めました。