介绍
在这项研究中,我们分析了网络钓鱼页面的存活时间以及它们在不活动时的迹象。除了一般数据之外,我们还提供了许多选项,用于根据正式标准对网络钓鱼页面进行分类,并分析了每个选项的结果。
由此产生的数据和结论可用于改进重新扫描最终出现在反网络钓鱼数据库中的页面的机制,以确定对新网络钓鱼案例的响应时间,以及其他目标等等。
数据检索方式
本研究选择了在2021年7月19日至8月2日期间被我们的签名反网络钓鱼引擎识别为“网络钓鱼”威胁的网站。该引擎的数据库每分钟监控一次,以避免在作出判断和将链接上传到研究数据库之间出现延迟。从每个子域中选择一个链接,以将样本范围最大化并排除任何异常值。我们共收集到5310个链接,其中绝大多数(5307个)导致了网络钓鱼页面,而其余的则导致了欺诈页面。
从“网络钓鱼”判断被分配到页面的那一刻起的三十天时间里,分析程序每两个小时检查一次每个链接,并保存服务器发出的响应代码以及检索到的HTML页面的文本(如果页面无法加载,则保存为错误日志)。然后将每个页面的内容与其早期版本进行比较,重点关注一些特征:页面的MD5哈希值、标题和大小。详细的分析过程如下图所示:
数据处理方式
30天期限结束后,每个链接存储了以下数据:
· 根据上述流程图分配的分析结论;
· 服务器响应代码;
· 错误日志;
· 基于分析手动分配标签的页面标题:
· 该页面包含网络钓鱼或诈骗;
· 该页面是托管存根;
· 该页面无法找到或无法加载。
此列表中的每个项目都有一个时间戳,以表示从开始监视链接起经过的秒数。使用时间戳,我们将数据记录到表格中,以绘制一个显示每个链接生命周期的图表。这使我们能够跟踪页面上何时存在网络钓鱼活动。
显示链接生命周期的图表示例。此图表显示链接的唯一标识符(在图表标题中)、页面标题(蓝色)和错误(红色)。x轴表示监测天数。
我们将与每个时间戳相关的分析结果加在一起,并计算了自开始受到监控以来经过一段固定时间后仍处于活动状态的页面数量。我们还计算了在此期间变为非活动页面的数量以及它们在最后一段非活动期间显示的错误(也称为“非活动迹象”)。
一般结果
钓鱼页面的生命周期
下图显示了在30天监测期内,钓鱼链接变为非活动状态的存活天数。鉴于程序是逐步检测到链接的,该图显示了每个链接被监测的相对时间,即天数。在监控的第一天之后,大量链接(1784)已经处于非活动状态。
根据活跃天数对钓鱼链接进行分类
乍一看,根据链接活跃时间的分类显示,大部分网络钓鱼页面仅活动不到24小时。在大多数情况下,页面在其生命周期的最初几个小时内就已经处于非活动状态。
根据活跃小时数对钓鱼链接进行分类。该图显示了每个链接生命周期前五天的数据。
在短短30天内,3,791(71.4%)个页面停止显示网络钓鱼活动的迹象。此外,四分之一的页面在开始监控后仅13小时就已处于非活动状态,而一半的页面存活时间不超过94小时。
网络钓鱼活动结束的标志
在这项研究中,我们发现以下迹象表明页面上的网络钓鱼活动已结束:
· 超时—域已成功转换为IP地址,但Web服务器没有响应
· 域名解析错误—无法将域转换为IP地址
· 无内容—钓鱼内容已被替换为“找不到页面”存根,或者尝试打开链接时出现404错误
· 托管存根——链接页面清楚地表明该域是托管的(例如,“帐户被阻止”、“正在重建的网站”等),而不是网络钓鱼内容。
· 其他—还有一些罕见的迹象,例如证书错误等等。
下图显示了在研究中包含的链接中最常观察到的迹象。
表明网络钓鱼活动结束的标志
在其生命周期内更改为网络钓鱼页面
在大多数情况下,网络钓鱼页面在整个活动期间都保持不变,尽管它们可以发生变化。例如,网络钓鱼者可以更改品牌名称,即他们冒充的目标组织。我们通过分析页面标题来监控目标组织的变化,因为标题的变化最常表明目标的变化。
另一种选择是更改页面的代码,我们通过分析页面的大小来识别。这比分析代码符号更合适,因为它允许我们过滤掉代码中包含随机变量的页面。网络犯罪分子经常使用它们来避免被阻止:整个页面的哈希总和(被反网络钓鱼引擎用于检测相似页面)即便在进行最细微的更正时也发生变化。分析页面的大小还可以让我们快速处理大量的网页对。
网络钓鱼页面在其生命周期中经历的变化
本研究中监控的页面没有一个在其生命周期中改变其目标组织。原因可能是许多网络钓鱼网站在其URL中使用一系列符号,旨在模仿他们冒充的目标组织(例如amazon)。这种网络钓鱼很难重新定位以复制不同的组织,网络犯罪分子创建新的网络钓鱼页面比调整现有页面更容易。
根据其目标对在其生命周期中改变其内容的网络钓鱼页面进行分类
在改变内容的网络钓鱼页面中,那些模仿PUBG游戏中奖品的网页尤为突出。这可能与PUBG交替运行临时事件(“季节”)这一事实有关。鉴于网络犯罪分子想让他们的网络钓鱼页面具有说服力,他们会定期更改页面内容。假冒的PUBG赠品示例:
根据各种标准对链接进行分类
上面提供的数据可以对现代网络钓鱼页面的生命周期做出一些一般性结论,而无需关注特定类别。但是,如果我们按照固定的标准对这些页面进行分组,并研究它们的生命周期特征如何因组而异,我们可以更多地了解此类页面。
我们根据以下正式标准对网络钓鱼页面进行了分组:
· 域创建日期
· 顶级域(TLD),如.com或.ru
· 钓鱼页面在网站根目录或单独目录中的位置
· 钓鱼页面所在的域级别
域创建日期
我们从WHOIS公共数据中获得了域创建日期。根据这些数据,我们将所有域分为五类:
· 创建于2021年6月或之后;
· 创建于2020年6月至2021年6月之间;
· 2015年6月至2020年6月创建;
· 2015年6月之前创建;
· hosting。
根据创建日期分布收集的域
时间框架基于这样一个事实,即新域上的网络钓鱼页面的生命周期更多地取决于其创建的确切时间,而不是旧资源上的网络钓鱼页面的生命周期,因此周期长度会有所不同。“hosting”类别结合了卡巴斯基反网络钓鱼数据库中标记为主机域的域上的页面。为这些页面创建了一个单独的类别,因为WHOIS服务指示了二级域的创建日期,而托管网络钓鱼页面通常位于创建日期不可用的子域上。我们也无法找到511个与托管无关的域的创建日期,这就是这些页面在本节中被忽略的原因。*此类别中四分之一的域变为非活动状态所经过的小时数。
**此类别中的一半域变为非活动状态所经过的小时数。
根据创建日期分布钓鱼页面
基于这些数据,我们进行了一些观察。以下是关键要点:
· 托管的网络钓鱼页面变得不活跃的速度比其他页面更快。四分之一的页面存活时间不超过8小时,30天后只有12.3%的页面保持活跃,因为最简单最便宜的选择是创建托管网络钓鱼网站。托管服务提供商提供免费试用期,而这通常足以满足网络犯罪分子的计划,一旦免费试用期结束,他们可以简单地创建一个新页面并放弃旧页面。
· 结果证明,最具“弹性”的页面是在2015年6月之前创建的页面:这些页面中有45.7%在30天后仍然处于活动状态。其中大部分是被网络犯罪分子入侵的旧网站,他们将网络钓鱼内容放在那里。这些页面可能会长期保持活动状态,因为它们已被其原始创建者遗弃,或者位于装有过时软件的服务器上,这使得网站更容易受到攻击。
· 对于较新的网站,不成功的域名解析是活动停止的更常见的迹象,而较旧网站上最常表示网络钓鱼活动结束的迹象是显示“未找到”和404错误的页面。
顶级域(TLD)
我们将所有使用的顶级域分为三组:流行gTLD(通用顶级域,包括com、.org.和.net)、便宜的gTLD(.xyz和.top)和ccTLD(国家代码顶级域)级别域:.cn、.ru等),我们还决定计入不属于前两个类别(.live、.app等)的gTLD。
顶级域名分布
网络钓鱼页面最常使用已建立的知名域名,例如.org和.com。同时,.xyz域名在网络犯罪分子中很受欢迎,它是顶级域名之一,可以让您以低成本或免费注册新域名,方便创建一日网站。*此类别中四分之一的域变为非活动状态所经过的小时数。
**此类别中的一半域变为非活动状态所经过的小时数。
根据使用的顶级域对网络钓鱼页面进行分类
钓鱼页面最常被发现的TOP 10顶级域
30天后,在流行的旧TLD上的网络钓鱼页面中观察到了最低的活动百分比为(22.8%)。对这个数字作出很大贡献的网站“位于”动态域名服务duckdns.org上。任何服务器的所有者都可以将duckdns.org上的域名免费链接到其服务器的IP地址,网络犯罪分子可以使用这些地址来快速创建网站。
域名解析失败案例中,位于廉价域名上的网站所占比例最大,为63.1%。原因是在这些域上注册一个新名称很容易,这仅对网络钓鱼攻击有吸引力,其中域名拼写出拼写错误的知名品牌。当不再需要某个网站时,所有者将放弃该网站并且不再续订注册。这意味着该网站将永远从互联网上消失。
网络钓鱼页面在网站上的位置
网络钓鱼页面可以根据它们在服务器上的位置分为两组:
· 其文件位于服务器根目录的页面,例如https://example.com/;
· 其文件位于文件夹(目录)中的页面,例如https://example.com/phishing。
根据位置分布钓鱼页面
有关网络钓鱼页面文件所在位置的信息可以帮助我们确定攻击者是创建了专门用于网络钓鱼的网站还是黑客入侵的网站。在合法网站的根目录设置网络钓鱼页面可能需要更改服务器上的文件结构并删除合法网站的内容。这可能比在服务器上创建一个不干扰网站的其他信息资源的新文件夹更麻烦。*此类别中四分之一的域变为非活动状态所经过的小时数。
**此类别中的一半域变为非活动状态所经过的小时数。
根据网络钓鱼页面在服务器上的位置分布
结果证实了之前的假设,即网络犯罪分子更容易在被黑网站上创建单独的目录以实现其目标:显示错误“无内容”的页面中有97%以上位于目录中。“无内容”表示该文件已从服务器中删除。通常情况下,当网站的合法所有者重新获得对网站的访问权限或只是检测到威胁并删除可疑内容时,就会发生这种情况。
事实证明,位于目录中的网络钓鱼页面比位于根目录的页面更具弹性:大约30%的链接在30天内保持活动状态(相比之下,根目录中的页面为20%)。此外,目录中一半的网络钓鱼链接仅在157小时后才变为非活动状态,这是在根页面观察到的活动长度的四倍。
域级别
按域级别分布
域级别可以指示网站是大型网络的一部分,例如托管服务还是独立的在线实体。在确定域级别时,复合顶级域(如.co.uk)被计为一个级别。*此类别中四分之一的域变为非活动状态所经过的小时数。
**此类别中的一半域变为非活动状态所经过的小时数。
第六级以上的域很少见,通常是为了通过模仿真实网站URL的编写方式来欺骗用户。一个例子是虚构的网站:https://www.google.com.secure.domain.phishing[.]xyz。用户快速浏览该链接会看到google.com,但可能不会注意到这不是完整的域名,并且该网站与Google没有任何联系。
按域级别分布网络钓鱼页面
我们根据收集的数据进行了一些观察。以下是关键要点:
· 域级别越高,页面的弹性就越大。这反映在30天后仍处于活动状态的页面百分比。
· 在变得不活动的三级(和更低级别)域上的页面上遇到错误“找不到内容”。这进一步证实了并非每个二级以下的网络钓鱼链接都位于托管服务上。
· 反之亦然,即并非二级域中的每个页面都位于其自己的服务器上:托管存根位于该级别。这与您在托管服务上注册网站时可以连接预先注册的二级域有关。
在网络钓鱼中最常遇到哪些特征组合?
我们已经研究了根据正式标准对网络钓鱼页面进行分类的不同方式。基于这些数据,我们现在可以查看最常见的特征组合,以确定最常遇到哪些网络钓鱼网站。
所有特征组合的频率表
*此类别中四分之一的域变为非活动状态所经过的小时数。如果没有足够的域在 30 天内停止活动,则该图表将留空。
**此类别中的一半域变为非活动状态所经过的小时数。如果没有足够的域在 30 天内停止活动,则该图表将留空。
*** 此类别中四分之三的域变为非活动状态所经过的小时数。如果没有足够的域在 30 天内停止活动,则该图表将留空。
网络钓鱼页面最常位于热门顶级域(占所有链接的11%以上)上托管的三级域的根目录,在这些特征组合中存在高度相关性:当我们看到钓鱼页面位于域的根目录下,在超过一半的情况下,网站托管在三级域中。通常,这些页面只会在极短的时间内处于活动状态——75%的链接在两天后变为非活动状态。
2020年6月至2021年6月期间创建的大多数网站都使用域名.com、.org、.net和.info。这类网站不仅包括被黑客入侵的新网站,还包括由网络犯罪分子专门构建的网站。在此类别中脱颖而出的页面是用于窃取用户银行卡详细信息的虚假电子支付表格。这些页面可能是欺诈网站或单独网站的一部分。有太多虚假网站链接到某些虚假支付页面,这些页面已进入Alexa前100万人气排名。“电子支付”网站的示例:
在2021年夏季创建的域主要是二级域。通常,被卡巴斯基产品屏蔽的最新网站是专门为网络钓鱼而创建的。这些一日网站通常在网络上没有广泛的设备系统,因此它们不需要子域,这就是攻击者停留在二级域的原因。
第二个最受欢迎的组合是位于2015年6月之前创建的三级域目录中的网络钓鱼页面。这是最具弹性的网络钓鱼页面类型:不到四分之一的页面在30天内停止显示网络钓鱼活动的迹象,这明显低于平均水平。
对该类别中的链接进行更详细的分析,发现它们几乎都使用相同的二级域名,并且具有相似的随机生成的三级域名。在这些情况下,该网站可能成为网络攻击的受害者,黑客在不接触主网站内容的情况下获得了访问权限并创建了多个子域。
结论
我们已经研究了网络钓鱼页面生命周期的关键阶段:其创建、内容更改和活动结束。根据研究结果,我们得出以下结论:
· 大多数网络钓鱼页面都在短时间内处于活动状态:一半的链接在检测后不到一周内就已经处于非活动状态。
· 现代网络钓鱼页面很少更改:在其生命周期内,没有一个被监测的页面在其生存期内更改其目标组织。内容的重大变化主要出现在针对在线游戏玩家的页面上,这些页面提供定期优惠和赠品。网络犯罪分子必须调整他们的网络钓鱼页面以跟上这些提议,并使页面尽可能令人信服。
· 平均而言,只有不到一半的页面显示超时作为不活动的标志。其他的迹象包括域名解析失败、没有内容和托管存根。
· 几乎三分之一的链接指向托管网站——这是活动时间最短的链接类别。在某些情况下,这些网站只存在几个小时。
本文翻译自:https://securelist.com/phishing-page-life-cycle/105171/如若转载,请注明原文地址