아마존, 무단 웹 스크래핑 혐의로 퍼플렉시티 AI 조사 착수

아마존 웹 서비스(AWS)는 Perplexity AI에 대한 조사를 시작하여 웹 크롤링 관련 규칙을 위반하고 있는지 여부를 확인하고 있습니다. Wired에 따르면, AWS는 특히 해당 서비스가 서버에 호스팅된 크롤러를 운영하면서 Robots Exclusion Protocol을 무시하고 있다는 주장을 조사하고 있습니다. 이 웹 표준은 개발자가 웹사이트에 robots.txt 파일을 두어 봇이 접근할 수 있는 페이지를 지정할 수 있게 합니다. 준수는 자발적이지만, 대부분의 신뢰할 수 있는 크롤러는 1990년대 이 프로토콜이 도입된 이후 이 지침을 존중해왔습니다.

Wired는 Perplexity와 연관된 것으로 여겨지는 IP 주소 44.221.181.252에 호스팅된 AWS 서버에서 자신의 robots.txt 설정을 우회하는 가상 머신을 발견했다고 보도한 바 있습니다. 이 크롤러는 지난 3개월 동안 Condé Nast 사이트에 수백 번 접근했으며, The Guardian, Forbes, The New York Times에도 여러 번 방문했습니다. Wired는 Perplexity의 챗봇을 테스트하기 위해 기사 제목과 짧은 설명을 제공하였고, 챗봇은 최소한의 출처 표기를 통해 기사와 유사한 응답을 생성했습니다.

관련 보도에서 로이터는 Perplexity 외에도 여러 AI 회사들이 robots.txt 파일을 우회하여 대형 언어 모델 훈련을 위한 콘텐츠를 수집하고 있다고 언급했습니다. 그러나 Wired는 AWS에 Perplexity의 크롤러 정보만 제공한 것으로 보입니다. AWS 대변인은 "당사의 서비스 약관은 남용 및 불법 활동을 금지하며, 고객들은 이러한 약관을 준수해야 합니다. 우리는 남용 혐의에 대한 보고를 정기적으로 받으며, 고객들과 소통하여 이러한 보고를 처리합니다."라고 밝혔습니다. 이 대변인은 AWS가 Wired에서 제기된 주장에 대해 조사하고 있다고 확인했습니다.

Perplexity의 대변인인 Sara Platnick는 AWS의 문의에 응답하며 자사의 크롤러가 Robots Exclusion Protocol을 위반하지 않는다고 부인했습니다. Platnick는 "AWS에서 운영되는 PerplexityBot은 robots.txt를 존중하며, Perplexity가 관리하는 서비스는 AWS의 약관을 위반하는 방식으로 크롤링하지 않음을 확인했습니다."라고 말했습니다. 그녀는 AWS의 조사가 잠재적인 남용 문제를 처리하기 위한 표준 절차이며, Wired의 연락 이전에 Perplexity는 조사에 대한 사전 통지를 받지 못했다고 덧붙였습니다. 특히, Platnick는 사용자가 특정 URL을 쿼리에 제공할 경우 PerplexityBot이 robots.txt를 무시할 수 있음을 인정했습니다.

Perplexity의 CEO인 Aravind Srinivas는 회사가 "Robots Exclusion Protocol을 무시하고 그것에 대해 거짓말하고 있다"는 주장도 반박했습니다. 하지만 그는 Fast Company와의 인터뷰에서 Perplexity가 자체 크롤러 외에도 제3자의 웹 크롤러를 사용하고 있으며, Wired가 지목한 봇이 이러한 제3자 도구 중 하나임을 인정했습니다.

Most people like

Find AI tools in YBX