亞馬遜調查Perplexity AI，因其涉嫌未經授權的網站爬取活動

Home AI新聞亞馬遜調查Perplexity AI，因其涉嫌未經授權的網站爬取活動

亞馬遜網路服務（AWS）已展開對Perplexity AI的調查，旨在確定其是否違反與網路爬蟲相關的規定。根據《Wired》報導，AWS特別關注該服務運行的爬蟲是否在其伺服器上無視機器人排除協議（Robots Exclusion Protocol）。這項網路標準允許開發者在其網站上放置robots.txt文件，以指示哪些頁面可以被爬蟲訪問。儘管遵守規定是自願的，但大多數有良好聲譽的爬蟲自1990年代以來始終遵守這些指示。

《Wired》先前發現一台虛擬機器，該機器繞過了自身的robots.txt設置，並託管在AWS伺服器，IP地址為44.221.181.252，該地址被認為與Perplexity有關。這個爬蟲在過去三個月中據稱已多次訪問Condé Nast的網站，以及多次造訪《衛報》、《福布斯》和《紐約時報》。為驗證潛在的內容爬取，《Wired》使用Perplexity的聊天機器人測試其文章的標題和簡短描述。該聊天機器人的回答與文章內容十分相近，且引用極少。

在相關報導中，路透社指出Perplexity並不是唯一一個繞過robots.txt文件以收集資料來訓練大型語言模型的AI公司。然而，看起來《Wired》僅向AWS提供了有關Perplexity的爬蟲信息。AWS發言人表示，「我們的服務條款禁止濫用和非法活動，我們的客戶必須遵守這些條款。我們定期接收到濫用的報告，並與客戶進行交流以解決這些問題。」該發言人確認AWS正在調查《Wired》提出的指控。

Perplexity發言人Sara Platnick表示，公司已對AWS的查詢作出了回應，否認其爬蟲違反機器人排除協議。「我們的PerplexityBot在AWS上運行，尊重robots.txt，我們確認Perplexity控制的服務不會以違反AWS條款的方式進行爬取。」Platnick說。她補充道，AWS的詢問是針對潛在濫用的標準做法，並提到Perplexity在《Wired》聯繫之前並未收到調查的任何通知。值得注意的是，Platnick承認當用戶在查詢中提供特定網址時，PerplexityBot可能會忽略robots.txt。

Perplexity首席執行官Aravind Srinivas也駁斥了有關該公司「無視機器人排除協議並說謊」的指控。他向《Fast Company》承認，Perplexity除了自有爬蟲外，還使用第三方網路爬蟲，並承認《Wired》識別的爬蟲就是這些第三方工具之一。

Cloudflare 反擊：保護網站免受 AI 抓取工具的侵害

為何您應避免依賴人工智能聊天機器人作為新聞來源