Cloudflare a lancé un nouvel outil gratuit destiné à empêcher les bots IA de récolter le contenu des sites de ses clients pour entraîner des modèles de langage volumineux. Cet outil est désormais accessible à tous les clients, y compris ceux bénéficiant de plans gratuits. "Cette fonctionnalité sera mise à jour en continu au fur et à mesure que nous identifierons de nouvelles empreintes de bots engagés dans un scraping généralisé," a déclaré la société.
Dans un récent article de blog, Cloudflare a partagé les réactions de ses clients face à l'augmentation des bots de scraping. Des données internes indiquent que 85,2 % des clients ont choisi de bloquer même les bots IA qui s'identifient correctement pour accéder à leurs sites.
Cloudflare a également mis en avant les bots les plus actifs au cours de l'année écoulée. Le bot Bytespider, appartenant à Bytedance, a tenté d'accéder à 40 % des sites protégés par Cloudflare, tandis que le GPTBot d'OpenAI a essayé d'accéder à 35 % des sites. Ces deux bots figurent parmi les quatre crawlers IA les plus actifs, aux côtés d'Amazonbot et de ClaudeBot.
Le blocage des bots IA de manière cohérente et efficace reste un défi. La course à la vitesse de développement des modèles a poussé certaines entreprises à contourner ou violer les règles en vigueur concernant l'accès aux scrapers. Récemment, Perplexity AI a été accusé de récupérer du contenu sans autorisation adéquate. L'engagement de Cloudflare à traiter ce problème pourrait donner des résultats efficaces.
"Nous craignons que certaines entreprises d'IA ne continuent à adapter leurs stratégies pour échapper à la détection," a noté la société. "Nous resterons vigilants et renforcerons nos règles concernant les scrapers et crawlers IA, en faisant évoluer nos modèles d'apprentissage automatique pour garantir qu'Internet reste un espace où les créateurs de contenu peuvent prospérer et garder le contrôle sur l'utilisation de leur contenu pour l'entraînement ou l'inférence."