Cloudflare推出了一款新的免费工具,旨在防止人工智能机器人从其客户网站上抓取内容,以供大型语言模型的训练。该工具现已向所有客户开放,包括免费计划用户。公司表示:“这一功能将随着我们识别到新的大量抓取机器人的特征而持续更新。”
在最近的一篇博客文章中,Cloudflare分享了客户对内容抓取机器人大幅增加的反馈。内部数据显示,85.2%的客户选择阻止即使是能够准确识别自己的AI机器人访问他们的网站。
Cloudflare还指出,过去一年中最活跃的抓取机器人。字节跳动的Bytespider爬虫尝试访问Cloudflare保护下的40%网站,而OpenAI的GPTBot则试图访问35%的网站。这两个机器人与Amazonbot和ClaudeBot共同位列前四大AI爬虫之中。
有效持续地阻止AI机器人仍然是一项挑战。为了更快地开发模型,一些公司选择绕过或违反现有的抓取规则。近日,Perplexity AI因未经授权抓取内容而受到指责。Cloudflare承诺将对此问题予以解决,并可能取得有效成果。
公司表示:“我们担心一些AI公司可能会继续调整策略以逃避检测。我们将保持警惕,增强我们的AI抓取和爬虫规则,并改进机器学习模型,确保互联网仍然是一个内容创作者可以蓬勃发展并掌控其内容使用方式的空间。”