Amazon проводит расследование в отношении Perplexity AI из-за обвинений в несанкционированном скрапинге веб-сайтов.

Amazon Web Services (AWS) начала расследование в отношении Perplexity AI, чтобы выяснить, нарушает ли компания правила веб-сканирования. По данным Wired, AWS в частности изучает обвинения в том, что сервис использует краулер, размещённый на его серверах, который игнорирует протокол Robots Exclusion. Этот веб-стандарт позволяет разработчикам размещать файл robots.txt на своих сайтах, указывая, какие страницы могут быть доступны для ботов. Несмотря на то что соблюдение этого протокола является добровольным, большинство уважаемых краулеров традиционно соблюдали эти инструкции с момента его появления в 1990-х годах.

Wired ранее сообщал, что был обнаружен виртуальный сервер, обходящий собственные настройки robots.txt, размещённый на сервере AWS с IP-адресом 44.221.181.252, который, по всей видимости, связан с Perplexity. Этот краулер якобы заходил на сайты Condé Nast сотни раз за последние три месяца, а также делал множество посещений The Guardian, Forbes и The New York Times. Чтобы проверить возможный сбор контента, Wired протестировал чат-бот Perplexity с заголовками и короткими описаниями своих статей. Чат-бот сформировал ответы, которые очень напоминали статьи, с минимальным указанием авторства.

В связанном отчёте Reuters отметило, что Perplexity не единственная AI-компания, игнорирующая файлы robots.txt для сбора контента для обучения крупных языковых моделей. Однако, судя по всему, Wired предоставил AWS информацию только о краулере Perplexity. Представитель AWS уточнил: "Наши условия обслуживания запрещают злоупотребления и незаконную деятельность, и наши клиенты должны следовать этим условиям. Мы регулярно получаем сообщения о предполагаемых злоупотреблениях и взаимодействуем с нашими клиентами для их разрешения." Представитель подтвердил, что AWS проводит расследование по данным Wired.

Представитель Perplexity Сара Платник заявила, что компания ответила на запросы AWS, отвергнув обвинения в нарушении протокола Robots Exclusion. "Наш PerplexityBot, работающий на AWS, уважает robots.txt, и мы подтвердили, что услуги, контролируемые Perplexity, не ведут сканирование, нарушающее условия AWS," - сказала Платник. Она добавила, что запрос AWS является стандартной практикой для решения потенциальных случаев злоупотребления и отметила, что Perplexity не получала предварительного уведомления об этом расследовании до обращения Wired. Стоит отметить, что Платник признала, что PerplexityBot может игнорировать robots.txt, когда пользователи предоставляют конкретные URL в запросах.

Генеральный директор Perplexity Аравинд Сринивас также опроверг обвинения в том, что компания "игнорирует протокол Robots Exclusion и лжет об этом". Однако он признал в интервью Fast Company, что Perplexity использует сторонние веб-краулеры, помимо собственного, и подтвердил, что бот, о котором сообщал Wired, является одним из этих сторонних инструментов.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles