亚马逊对Perplexity AI涉嫌未经授权网站抓取展开调查

Home AI News CN 亚马逊对Perplexity AI涉嫌未经授权网站抓取展开调查

亚马逊网络服务（AWS）正在对Perplexity AI展开调查，以确定其是否违反了与网络爬虫相关的规则。根据《连线》杂志的报道，AWS特别关注关于该服务在其服务器上运行的爬虫，可能无视网站的Robots排除协议。该协议允许开发者在其网站上放置robots.txt文件，用以指示可被爬虫访问的页面。尽管遵守该协议是自愿的，但自20世纪90年代以来，大多数信誉良好的爬虫通常会遵循这些指示。

《连线》早前报道发现，在AWS的IP地址44.221.181.252上，有一台虚拟机绕过了自身的robots.txt设置，这台虚拟机被认为与Perplexity相关。过去三个月，这个爬虫已经多次访问Condé Nast网站，还多次光顾《卫报》、《福布斯》和《纽约时报》。为了验证可能的数据抓取，《连线》测试了Perplexity的聊天机器人，使用了其文章中的标题和简短描述。结果显示，该聊天机器人的回复与文章内容高度相似，几乎没有注明出处。

此外，路透社的相关报道指出，并非只有Perplexity一家AI公司在绕过robots.txt文件收集内容以训练大型语言模型。然而，似乎《连线》仅向AWS提供了有关Perplexity爬虫的信息。一位AWS发言人澄清道：“我们的服务条款禁止滥用和非法活动，客户必须遵守这些条款。我们会定期收到关于滥用的报告，并与客户合作解决这些问题。”这位发言人确认，AWS正在调查《连线》提出的指控。

Perplexity的发言人Sara Platnick表示，公司已回应了AWS的询问，否认其爬虫违反了Robots排除协议。她指出：“我们的PerplexityBot——在AWS上运行——遵守robots.txt，我们确认Perplexity控制的服务不会以违反AWS条款的方式进行抓取。”Platnick补充说，AWS的询问是处理潜在滥用的标准做法，并提到在《连线》联系之前，Perplexity没有收到过任何调查的通知。值得一提的是，Platnick承认PerplexityBot在用户提供特定URL查询时，可能会忽略robots.txt文件。

Perplexity的首席执行官Aravind Srinivas也反驳了公司“忽视Robots排除协议并对此撒谎”的说法。然而，他向《快速公司》承认，Perplexity除了自有的爬虫外，还使用了第三方网络爬虫，并且承认《连线》识别的爬虫就是这些第三方工具之一。

Cloudflare反击：保护网站免受AI爬虫侵扰

YouTube计划向唱片公司赔偿，使用其歌曲进行AI训练

Most people like

Hubtype

23.4K

Hubtype是一个创新的自动化客户服务和对话应用平台，旨在优化用户互动体验。

对话应用 AI客户服务助手

HS Code Search

173.5K

优化全球贸易支付的安全性。

全球贸易支付其他

SEOpital

16.7K

SEO AI写作助手：提升内容排名的利器在当今数字时代，高质量的内容是网站成功的关键。SEO AI写作助手旨在帮助创作者生成优化的文章，从而提高搜索引擎排名，增强在线可见性。无论您是博主、营销人员，还是企业主，这款智能工具都能为您提供精准的关键词建议和内容结构指导，确保您的作品不仅吸引读者，还能在搜索引擎中脱颖而出。让我们一起探索如何借助SEO AI写作助手，创作出更具竞争力的高排名内容！

SEO AI写作助手 AI SEO助手

Optimo

52.7K

Optimo通过自动化营销任务，帮助营销人员节省宝贵时间并获得快速的效果。

人工智能营销工具 AI广告助手

Find AI tools in YBX