【顶会论文分享】未知模式加密恶意流量实时检测
2023-10-7 16:56:24 Author: mp.weixin.qq.com(查看原文) 阅读量:14 收藏

一. 引言

流量加密技术已经被广泛应用于保护互联网信息的传递,但同时也会被一些攻击者利用,用于隐藏其恶意行为,如恶意软件、漏洞利用、数据泄露等。现如今,大多数加密流量检测方法都依赖于已知攻击的先验知识,而无法检测未知模式的攻击。

本文介绍一篇来自Network and Distributed System Security Symposium (NDSS) 的文章《Detecting Unknown Encrypted Malicious Traffic in Real Time via Flow Interaction Graph Analysis》[1],主要介绍一种实时无监督恶意流量检测系统HyperVision,旨在通过分析流之间的交互模式来检测模式未知的恶意流量。

二. 模型框架

通常情况下,加密恶意流量与良性流量流的特征极其相似,而在攻击者与受害者交互模式中出现的恶意行为与良性行为差异较为明显。HyperVision检测系统正是利用紧凑图维护各种流之间的交互模式,并通过学习图的特征来检测异常交互,可以在不了解已知攻击流量的前提下分析图结构特征,从而实现对各种攻击的无监督检测。图1展示了HyperVision的三个关键部分:图构建、图预处理和异常交互检测。

图1 HyperVision框架图

文章设计了四步轻量级无监督图学习方法:第一步,通过提取连接的成分来分析图的连通性,并通过聚类高层统计特征来识别异常成分;第二步,根据边缘特征中观察到的局部邻接性,对边缘进行预聚类,在降低特征处理开销的同时保证检测的实时性;第三步,利用Z3 SMT求解器求解顶点覆盖问题来提取关键顶点,以最小化聚类数量;第四步,根据每个关键顶点的连通边进行聚类,这些连通边位于预聚类生成的聚类的中心,从而得到表示加密恶意流量的异常边。

三.  HyperVision设计细节

3.1

图构建

这一部分用于维护各种流之间的交互模式。由于网络中大多数数据包都存在在长流中,而短流信息量较少且数量较多,因此将流量分为长流和短流进行处理。具体信息如图2。

图2  长流和短流的分布特征

短流聚合:由于短流信息量较少,HyperVision将相同时间窗口内的短流进行聚合处理,这样做能够在减少短流数量的同时提高计算速率。图3为聚合前后对比图,其中每个顶点表示的是一条流,顶点与顶点之间的连线表示流之间的交互。

图3  HyperVision聚合前后对比

长流的特征分布拟合:HyperVision通过分布拟合技术将数据流映射至图的顶点,将流中的数据包映射为顶点的特征,拟合长流中报文特征的分布来构造与长流相关的边,既可以保证记录的流交互模式的高保真度,同时也解决了传统方法中流特征粗粒度的问题。

3.2

图预处理

这一部分的主要目标是对图进行规范化,以便后续的使用。从而帮助实现后续对未知加密恶意流量基于图学习的实时检测。

顶点处理:通过深度优先搜索方式获得连接组件,并进行聚类排除异常来获得关键组件。

边预聚类处理:并不对所有的边进行聚类,只对连接到关键顶点的边聚类。

3.3

异常交互检测

HyperVision通过图神经网络学习流量交互图的深层特征,通过自编码器重构原始图,并与原始图对比判断流量是否异常。图4展示了检测异常流的过程。

图4  识别异常顶点

3.4

流记录熵模型

流记录熵模型,旨在定量评估HyperVision图中保留的信息,使用三个指标来对恶意流量检测的数据表示:(i)信息量,即通过记录一个数据包获得的平均香农熵;(ii)数据的规模,即用来储存信息的空间;(iii)信息的密度,即单位存储器上的信息量。

基于此模型,对HyperVision使用的基于图的流量记录模式以及三种典型的流量记录模式进行了建模,即:(i)记录和存储整个数据包特征序列的理想化模式;(ii)基于事件的模式(例如,Zeek),记录特定事件;(iii)基于采样的模式(如NetFlow),记录粗粒度流信息。具体记录信息可参考文章内容,最终通过数值研究来比较真实环境中的流量记录模式。通过选取协议、长度和到达间隔三个数据包特征作为实例,得到结果:(1) HyperVision使用图形能够维护更多的信息。(2) HyperVision使用图维护了接近最优的信息。(3) HyperVision具有更高的信息密度。

四.  实验评估

4.1

数据集介绍

文章采用WIDE MAWI项目的真实网络流量数据集作为背景流量,通过构建真实的攻击来生成恶意流量。将实验中使用的80个新数据集分为四组,其中三组是加密的恶意流量:(1)传统的蛮力攻击。(2)加密泛洪流量。(3)加密web恶意流量。(4)恶意软件生成加密流量。另外,还使用了12个现有数据集,包括Kitsune数据集、CICDDoS2019数据集和CIC-IDS2017数据集。

4.2

准确度评估

表1总结了HyperVision相对于现有方法的检测精度和改进。HyperVision在80个数据集上的平均F1范围在0.927 ~ 0.978之间,平均AUC范围在0.974 ~ 0.993之间,比基线的最佳精度提高了35%和13%。此外,HyperVision不仅能检测加密恶意流量,还能够检测传统攻击类型,能够检测出其他五种方法检测不到的攻击,说明HyperVision有效。

表1 数据集的平均精确度

另外,无论对于传统攻击流量,加密泛洪流量,加密网络流量,恶意软件流量,Hypervision都获得了比其他五组基线准确率获得一定程度的提高.

4.3

吞吐量评估

图5展示的是图检测的吞吐量信息。分别表示:(a)1.0s时间窗口内的平均吞吐量分布;(b) 每个时间窗口的最大吞吐量;(c) 平均吞吐量;(d)系统性能稳定时的吞吐量。

图5 图构造和图检测的吞吐量信息

4.4

吞吐量评估

由于图检测引起的延迟在图6中展示,图片分别表示:1.0s窗口内构建每条边的最大延迟,HyperVision的平均构建延迟为1.09s ~ 1.04s;(b)延迟的组成:流量分类、短流聚合和长流分布拟合的延迟分别占50.95%、35.03%和14.0%。(c)平均检测延迟;(d)每个步骤中的延迟, 75.8%的延迟来自于预聚类,然而预聚类步骤主要是为了减少后续处理,即选择关键顶点和聚类。

图6 图构造和检测延迟

五. 总结

本文介绍了一个实时恶意流量检测系统HyperVision,通过紧凑的内存图保留流交互模式,利用图的连通性、稀疏性和统计特征来检测加密流量,同时,Hypersion以高吞吐量和低延迟方式分析流量,实现未知类型的攻击检测。

参考文献

【1】Fu C, Li Q, Xu K. Detecting Unknown Encrypted Malicious Traffic in Real Time via Flow Interaction Graph Analysis. Network and Distributed System Security Symposium.

内容编辑:创新研究院 薛甜
    责任编辑:创新研究院 舒展

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我


文章来源: https://mp.weixin.qq.com/s?__biz=MzIyODYzNTU2OA==&mid=2247495954&idx=1&sn=a05f90933336b2cd9091cd0969aad94d&chksm=e84c57cddf3bdedbf5714ba7249686ff132091075df3e78a3c8328f1901a114d229b57b0833e&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh