#人工智能 真是人厌狗嫌啊!Anthropic Claude 的爬虫对知名拆解维修网站 iFixit 发起 DDoS 攻击,24 小时出现百万次的访问来抓取数据。AI 公司对数据的渴望是没有止境的,但这种高频次抓取会给网站造成巨大的压力,建议网站直接屏蔽 ClaudeBot 爬虫。查看全文:https://ourl.co/105119
Claude 是人工智能开发商 Anthropic 开发的人工智能应用程序,和大多数人工智能开发商一样,Anthropic 派出的爬虫每天会在互联网上检索并抓取海量内容用来训练人工智能模型。
iFixit 是业界知名的拆解维修网站,该网站有诸多文字和图片类的拆解文章,于是 Anthropic 派出的爬虫也对 iFixit 发起了疯狂的抓取。
该网站管理员在 X/Twitter 上抱怨称:我知道你渴望数据,Claude 真的很聪明,但你真的需要在 24 小时内对我们的服务器进行一百万次攻击吗?你不仅不付费就窃取了我们的内容,还占用了我们的开发运营资源,这太不酷了。
网站日志显示 ClaudeBot 每分钟对 iFixit 发起数以千计的访问,这会 iFixit 服务器产生的负面影响,因为这种抓取不仅会消耗服务器 CPU 资源还会消耗网络带宽,任何一个网站都不愿意看到这种情况。
iFixit 在接受 404media 采访时称:
我们是世界上最大的维修信息数据库,如果他们未经允许就把所有信息都拿走、导致我们服务器瘫痪。iFixit 目前拥有数百万个链接,包括各种维修指南、维修修订历史、博客、新闻帖子、研究、论坛、社区贡献的维修指南以及问答等。
对于抱怨 Anthropic 的支持团队并未道歉并且给出了如下回应:
按照行业标准 Anthropic 使用各种数据源进行模型开发,例如通过网络爬虫收集的互联网上的公开数据。我们的抓取不应该具有侵扰性和破坏性,我们的目标是适当的情况下尊重抓取延迟将干扰降到最低。
对网站来说最简单的方式就是直接屏蔽 Claude 爬虫,蓝点网也同样面临 Claude 爬虫的 DDoS 攻击,该爬虫确实会以每分钟几千次的频率进行抓取,这对蓝点网服务器产生了影响所以我们早早就屏蔽了 Claude 爬虫。
要屏蔽的话可以在 robots.txt 里添加以下内容:
User-agent: ClaudeBot Disallow: /
当然为了保险起见我们还在 Nginx 上使用了正则表达式匹配 ClaudeBot 爬虫,如果 ClaudeBot 爬虫未遵守 robots.txt 协议继续抓取,那可以直接拦截。
为了避免爬虫无法抓取 robots.txt 文件建议站长先更新 robots.txt,几天后如果在网站日志里仍然能看到 ClaudeBot 抓取非 robots.txt 文件的记录,那就代表未遵守协议,可以直接通过 Nginx 返回 HTTP 444 丢弃连接降低服务器负载。
感谢蓝点网网友 颜黎明 分享的消息
版权声明:
感谢您的阅读,本文由 @山外的鸭子哥 转载或编译,如您需要继续转载此内容请务必以超链接(而非纯文本链接)标注原始来源。原始内容来源:404media