Cloudflare hat ein neues kostenloses Tool eingeführt, das entwickelt wurde, um zu verhindern, dass KI-Bots die Websites seiner Kunden nach Inhalten durchsuchen, die für das Training großer Sprachmodelle verwendet werden. Dieses Tool ist jetzt für alle Kunden zugänglich, einschließlich der Nutzer von Gratis-Plänen. „Dieses Feature wird kontinuierlich aktualisiert, während wir neue Bot-Fingerabdrücke identifizieren, die an umfassendem Scraping beteiligt sind“, erklärte das Unternehmen.
In einem kürzlich veröffentlichten Blogbeitrag teilte Cloudflare Einblicke in die Reaktionen seiner Kunden auf den Anstieg von Content-Scraping-Bots. Interne Daten zeigen, dass 85,2% der Kunden entschieden haben, selbst die Bots von KI, die sich korrekt identifizieren, vom Zugriff auf ihre Websites auszuschließen.
Cloudflare hob auch die aktivsten Bots des vergangenen Jahres hervor. Der Bytespider-Bot, der zu Bytedance gehört, versuchte, auf 40% der Websites zuzugreifen, die unter dem Schutz von Cloudflare stehen, während OpenAIs GPTBot auf 35% der Seiten zugreifen wollte. Diese beiden Bots zählten zu den vier aktivsten KI-Crawlern, neben Amazonbot und ClaudeBot.
Es bleibt eine Herausforderung, KI-Bots konsequent und effektiv zu blockieren. Der Wettlauf um die schnellere Entwicklung von Modellen hat dazu geführt, dass einige Unternehmen die bestehenden Regeln für den Zugriff von Scrapern umgehen oder verletzen. Kürzlich sah sich Perplexity AI dem Vorwurf ausgesetzt, Inhalte ohne die erforderlichen Genehmigungen zu scrapen. Cloudflares Engagement zur Bekämpfung dieses Problems könnte zu wirksamen Ergebnissen führen.
„Wir sind besorgt, dass einige KI-Unternehmen ihre Strategien weiterhin anpassen könnten, um der Erkennung zu entgehen“, bemerkte das Unternehmen. „Wir werden wachsam bleiben und unsere Regeln für KI-Scraper und -Crawler verbessern sowie unsere Machine-Learning-Modelle weiterentwickeln, um sicherzustellen, dass das Internet ein Raum bleibt, in dem Inhaltsanbieter gedeihen und die Kontrolle darüber behalten, wie ihre Inhalte für Training oder Inferenz verwendet werden.“