亞馬遜調查Perplexity AI,因其涉嫌未經授權的網站爬取活動

亞馬遜網路服務(AWS)已展開對Perplexity AI的調查,旨在確定其是否違反與網路爬蟲相關的規定。根據《Wired》報導,AWS特別關注該服務運行的爬蟲是否在其伺服器上無視機器人排除協議(Robots Exclusion Protocol)。這項網路標準允許開發者在其網站上放置robots.txt文件,以指示哪些頁面可以被爬蟲訪問。儘管遵守規定是自願的,但大多數有良好聲譽的爬蟲自1990年代以來始終遵守這些指示。

《Wired》先前發現一台虛擬機器,該機器繞過了自身的robots.txt設置,並託管在AWS伺服器,IP地址為44.221.181.252,該地址被認為與Perplexity有關。這個爬蟲在過去三個月中據稱已多次訪問Condé Nast的網站,以及多次造訪《衛報》、《福布斯》和《紐約時報》。為驗證潛在的內容爬取,《Wired》使用Perplexity的聊天機器人測試其文章的標題和簡短描述。該聊天機器人的回答與文章內容十分相近,且引用極少。

在相關報導中,路透社指出Perplexity並不是唯一一個繞過robots.txt文件以收集資料來訓練大型語言模型的AI公司。然而,看起來《Wired》僅向AWS提供了有關Perplexity的爬蟲信息。AWS發言人表示,「我們的服務條款禁止濫用和非法活動,我們的客戶必須遵守這些條款。我們定期接收到濫用的報告,並與客戶進行交流以解決這些問題。」該發言人確認AWS正在調查《Wired》提出的指控。

Perplexity發言人Sara Platnick表示,公司已對AWS的查詢作出了回應,否認其爬蟲違反機器人排除協議。「我們的PerplexityBot在AWS上運行,尊重robots.txt,我們確認Perplexity控制的服務不會以違反AWS條款的方式進行爬取。」Platnick說。她補充道,AWS的詢問是針對潛在濫用的標準做法,並提到Perplexity在《Wired》聯繫之前並未收到調查的任何通知。值得注意的是,Platnick承認當用戶在查詢中提供特定網址時,PerplexityBot可能會忽略robots.txt。

Perplexity首席執行官Aravind Srinivas也駁斥了有關該公司「無視機器人排除協議並說謊」的指控。他向《Fast Company》承認,Perplexity除了自有爬蟲外,還使用第三方網路爬蟲,並承認《Wired》識別的爬蟲就是這些第三方工具之一。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles