Cloudflare Responde: Protegiendo Sitios Web de Rastreadores de IA

Cloudflare ha lanzado una nueva herramienta gratuita diseñada para prevenir que los bots de IA extraigan contenido de los sitios web de sus clientes, utilizado en el entrenamiento de grandes modelos de lenguaje. Esta herramienta ya está disponible para todos los clientes, incluidos los de planes gratuitos. "Esta función se actualizará continuamente a medida que identifiquemos nuevas huellas dactilares de bots que participan en la extracción masiva", declaró la empresa.

En una publicación reciente en su blog, Cloudflare compartió información sobre las respuestas de sus clientes al aumento de bots de extracción de contenido. Los datos internos revelan que el 85.2% de los clientes ha optado por bloquear incluso a los bots de IA que se identifican correctamente para acceder a sus sitios.

Cloudflare también destacó los bots más activos del último año. El bot Bytespider, propiedad de Bytedance, intentó acceder al 40% de los sitios web protegidos por Cloudflare, mientras que GPTBot de OpenAI lo hizo en el 35% de los sitios. Estos dos bots se encuentran entre los cuatro principales rastreadores de IA, junto con Amazonbot y ClaudeBot.

Bloquear a los bots de IA de manera consistente y efectiva sigue siendo un desafío. La carrera por desarrollar modelos más rápidos ha llevado a algunas empresas a eludir o violar las reglas existentes que regulan el acceso de los raspadores. Recientemente, Perplexity AI enfrentó acusaciones por extraer contenido sin las debidas autorizaciones. El compromiso de Cloudflare para abordar este problema podría producir resultados efectivos.

"Nos preocupa que algunas empresas de IA puedan continuar adaptando sus estrategias para evadir la detección", señaló la compañía. "Mantendremos la vigilancia y mejoraremos nuestras reglas de Scrapers y Crawlers de IA, evolucionando nuestros modelos de aprendizaje automático para asegurar que Internet siga siendo un espacio donde los creadores de contenido puedan prosperar y mantener el control sobre cómo se utiliza su contenido para el entrenamiento o la inferencia".

Most people like

Find AI tools in YBX