在机器人程序(bot)与欺诈预防系统无休止的较量中,无处不在的网站抓取(website scraping)威胁已渗入到了互联网的各个角落。由于隐密算法以及组织对数据贪得无厌的需求,网站抓取攻击构成了一大挑战,严重威胁到了隐私和安全。
网站抓取有利可图,以至于它已催生了一个兜售“抓取即服务”的非法行当。这些影子企业绕过了机器人程序防御系统,为攻击者打开了闸门,从中大肆窃取数据。
抓取即服务简介
实际上,利用“抓取即服务”平台的网络犯罪分子可以部署一群虚拟机器人程序来模仿人类行为,这使得传统的安全系统极难辨别合法活动和恶意活动。通过利用这项技术,不法分子不仅可以获取敏感信息,还可以发动针对性的攻击、操纵在线内容,甚至扰乱或破坏数字服务。事实上,最近的一份报告指出,近40%的受访公司表示,在一个月的时间里,由于网站抓取,公司已损失了超过10%的收入。
抓取即服务加剧了网络安全形势,使威胁分子能够利用漏洞并逃避检测,从而加大了与未经授权的数据提取和网络入侵相关的风险。
对于在线企业、特别是那些严重依赖专有数据和数字资产的行业来说,急需加强安全防御,以抵御日益猖獗的网站抓取攻击。
图1
利用抓取即服务牟利
网站抓取背后的驱动力很简单:牟利。网络犯罪分子可以通过四种不同的方式利用网站抓取攻击牟利:
1. 模仿某个品牌的网站,建立假冒网站,收集有价值的个人信息。
2. 通过抓取来提取信息,从而获得竞争优势或削弱竞争对手的业务。
3. 抓取定价细节以获得套利机会,即从一个地方以较低的价格买进产品,再到另一个地方以较高的价格卖出,从而利用价差获利。
4. 利用定价错误获得免费赠送或大幅折扣的商品。
网站抓取不同于其他自动化威胁,比如凭据填充、信用卡测试和ATO,原因在于最初的挑战需要确定提出抓取请求的是机器人程序还是人类。
识别抓取者是一次性的会话决策,后续需其他方法来分析行为,以防止抓取促使机器人程序成功地完成已分配的任务。
抓取即服务平台这个新兴趋势为机器人程序管理添加了复杂性,因为威胁分子现在可以方便地利用这类工具发起复杂的抓取攻击,并实现自动化,利用难以辨别机器人程序交互和人类交互大做文章。
网络攻击中使用的抓取类型
抓取即服务涵盖各种各样的网站抓取技术,每种技术都是为满足用户的特定需求而量身定制的。这种秘密服务利用各种方法,从简单的HTML解析到更高级的技术(比如浏览器自动化和API滥用)。通过使用这些不同的方法,抓取即服务不仅增强了其适应不同目标网站的能力,还通过模仿人类交互模式来逃避检测。
抓取即服务的多面性不仅强调了其复杂性,还加大了安全专业人员在有效降低与数据自动提取相关的风险方面所面临的难度。
•内容抓取
从窃取知识产权到假冒网站,内容抓取不容忽视。初始请求被发送以加载和检索网页,HTML只加载页面一次,因为首次页面加载无法阻止。在这个关键时刻,抓取者迅速获取必要的数据,在企业有机会识破并阻止之前抓取信息。
此举形成了非常短的时间窗口来辨别入站请求是来自机器人程序还是来自人类,强调在区分自动交互和真实交互方面迫切需要迅速决策。
竞争对手通过抓取图片或整个页面内容来利用在内容开发上的投入——无论是时间、精力还是财力,并将其重新用于自己的网站。此外,内容抓取已经超越了单纯的竞争,它还采取了一种可能恶意的手段,企图破坏竞争对手的搜索排名。这是通过故意模仿网站内容来实现的,可对目标竞争对手的在线形象和知名度构成严重威胁。
由于抓取即服务,现在凡持有信用卡的人都可以毫不费力地从各种网站上提取信息。这种服务面向众多的热门网站,可以根据喜好度身打造网站,提供定制选项,这种服务常常与全面的套件捆绑在一起,包含的代理可以保证抓取请求保持隐身状态。
•价格抓取
价格抓取有其积极的一面,也有其消极的一面。以旅游和酒店业为例,酒店与旅游合作伙伴合作,在更广泛的网络上公开共享和分析价格信息。另一方面,也不乏恶意扫描价格的例子,比如竞争对手使用秘密抓取机器人程序来仔细跟踪、给出定价更低的策略。
尽管这背后有动机,但事实证明,遏制价格抓取是一个复杂的挑战。攻击者采用的策略包括将机器人程序伪装成良性的机器人程序(比如爬取网站的谷歌机器人程序)或人类行为。当模仿人类时,抓取机器人程序利用住宅代理网络,确保每个请求都模仿一个新的会话。更复杂的是,这些住宅代理网络可以专门为目标网站量身定制,采用地理定位和设备特有的配置,与真正的购物者无缝融合。
图2
•免费赠品
最近“免费赠品机器人程序”大行其道,给在竭力解决价格抓取问题的零售商带来了一系列新的挑战。与传统的价格扫描器不同,免费赠品机器人程序利用了零售商的定价错误,一旦检测到低于制造商建议零售价(MSRP)的可配置0美元或百分比折扣,这些机器人程序就会在定价错误被纠正之前迅速自动执行购买过程。免费赠品机器人程序在整个互联网上被大肆兜售,被描绘成是一条有利可图的途径,可以免费获得价值数千美元的商品和服务。
这些免费赠品机器人程序带来了类似价格扫描器的检测难题,依赖住宅代理来逃避检测系统。这些不良机器人程序以低廉的价格出售给了个人消费者。
此外,它们在极短的时间间隔内进行快速重复的扫描,趁定价错误还未被发现和纠正之前,竭力寻找错误。这一举措将零售商置于了一种糟糕的困境,因为成千上万的用户每隔几秒钟就会同时浏览他们的整个产品目录,只为了寻找偶尔出现的价格错误,以期免费获得商品。
图3
参考及来源:
https://www.arkoselabs.com/blog/scraping-as-a-service-how-harmless-tool-became-cyber-threat