亚马逊网络服务(AWS)正在对Perplexity AI展开调查,以确定其是否违反了与网络爬虫相关的规则。根据《连线》杂志的报道,AWS特别关注关于该服务在其服务器上运行的爬虫,可能无视网站的Robots排除协议。该协议允许开发者在其网站上放置robots.txt文件,用以指示可被爬虫访问的页面。尽管遵守该协议是自愿的,但自20世纪90年代以来,大多数信誉良好的爬虫通常会遵循这些指示。
《连线》早前报道发现,在AWS的IP地址44.221.181.252上,有一台虚拟机绕过了自身的robots.txt设置,这台虚拟机被认为与Perplexity相关。过去三个月,这个爬虫已经多次访问Condé Nast网站,还多次光顾《卫报》、《福布斯》和《纽约时报》。为了验证可能的数据抓取,《连线》测试了Perplexity的聊天机器人,使用了其文章中的标题和简短描述。结果显示,该聊天机器人的回复与文章内容高度相似,几乎没有注明出处。
此外,路透社的相关报道指出,并非只有Perplexity一家AI公司在绕过robots.txt文件收集内容以训练大型语言模型。然而,似乎《连线》仅向AWS提供了有关Perplexity爬虫的信息。一位AWS发言人澄清道:“我们的服务条款禁止滥用和非法活动,客户必须遵守这些条款。我们会定期收到关于滥用的报告,并与客户合作解决这些问题。”这位发言人确认,AWS正在调查《连线》提出的指控。
Perplexity的发言人Sara Platnick表示,公司已回应了AWS的询问,否认其爬虫违反了Robots排除协议。她指出:“我们的PerplexityBot——在AWS上运行——遵守robots.txt,我们确认Perplexity控制的服务不会以违反AWS条款的方式进行抓取。”Platnick补充说,AWS的询问是处理潜在滥用的标准做法,并提到在《连线》联系之前,Perplexity没有收到过任何调查的通知。值得一提的是,Platnick承认PerplexityBot在用户提供特定URL查询时,可能会忽略robots.txt文件。
Perplexity的首席执行官Aravind Srinivas也反驳了公司“忽视Robots排除协议并对此撒谎”的说法。然而,他向《快速公司》承认,Perplexity除了自有的爬虫外,还使用了第三方网络爬虫,并且承认《连线》识别的爬虫就是这些第三方工具之一。