流交互图上无监督检测加密恶意流量

流交互图上无监督检测加密恶意流量
2024-6-19 23:50:51 Author: mp.weixin.qq.com(查看原文) 阅读量:3 收藏

工作来源

NDSS 2023

工作背景

互联网上加密恶意流量的占比在显著增长，超过所有恶意流量的七成。已知的检测方法无法同时检测加密恶意流量和非加密恶意流量，二者的特征存在显著差异。

使用 IP 地址作为顶点，传统的四元组作为边构建的稠密图不能反映流的交互模式。并且互联网上的大多数流都很短，而大量的包与超长流有关。

工作设计

实时加密恶意流量检测系统 HyperVision，能够检测加密恶意流量与非加密恶意流量的攻击。由于单流的加密恶意流量与良性流量十分相似，但攻击者与受害者间交互模式的差异则更为明显。

图构建

HyperVision 首先将流量分为短流和长流。通过聚合海量相似短流来降低图的密度，再对长流的包特征分布进行拟合，尽可能地保留流交互信息。最终构建点边通联的流交互图。借此方法解决传统方法中流特征粒度过粗，存在信息密度下降的问题。

流量分类

获取每个数据包的源 IP、目的 IP、端口号、协议、包长与到达间隔等数据包特征。长短流分类算法如下所示，核心是维护一个 HASH(SRC, DST, SRC PORT, DST PORT) 为Key、以数据包特征为 Value 的哈希表。其中，用于判断流完成时间的 PKT_TIMEOUT 被设置为 10 秒、流内包数 FLOW_LINE 阈值被设置为 15。

短流聚合

如果通过传统方式用四元组构造边，就没法进行分析了。由于大多数短流的数据包特征几乎相同，可以进行聚合来降低图密度。

聚合算法如下所示。满足以下条件时，短流会被聚合：

源IP相同或者目的IP相同
协议相同
流的条数超过 AGG_LINE（被设置为 20）

聚合成一条边后，为所有流及其四元组保留一个特征序列（协议、包长和到达间隔）。短流会有四种边，源 IP 地址聚合边、目的 IP 地址聚合边、双端 IP 地址聚合边与非聚合边。值得注意的是，点可能是一个 IP 地址也可能是一组 IP 地址。

通过聚合可以减少 93.94% 的点与 94.04% 的边。聚合使存储开销大幅度降低，才能够将图结构保存在内存中。

长流特征拟合

此前有研究使用直方图拟合反映 P4 交换机上的硬件流表，此处用类似的方法来拟合长流。此前研究也发现粗粒度的流统计数据不足以进行加密恶意流量监测，还会丢失流交互信息。

使用包长为 10 字节、到达间隔为 1 毫秒构建直方图。可以看出，长流中的绝大多数数据包都有相似的包长和到达间隔。

图预处理

基于流交互图提取连通分量，再利用统计数据对连通分量进行聚类。通过聚类检测出仅具有良性交互模式的连通分量，过滤掉这些连通分量可以进一步降低图的规模。

连通性分析

通过深度优先搜索获取连通分量，可以发现大部分连通簇包含具有相似交互模式的边。提取连通簇的五个特征（长流数量、短流数量、短流边数量、长流字节数、短流字节数）后，使用基于密度的聚类（DBSCAN）计算到中心的距离。距离超过 99 百分位时，即为异常情况。

边预聚类

大多数边其实都与特征空间中相似边相邻，使用 DBSCAN 进行预聚类、KD-Tree 进行局部搜索，选择已识别簇的中心代表簇中的所有边，进一步降低图的规模。

为长短流提取了 24 个特征，包括出度与入度。

异常检测

首先识别图中的关键点，后续根据流特征和反映流交互模式的结构特征对所有边进行聚类，实现无监督检测。最后通过计算聚类的损失函数来实时识别异常边。

识别关键点

满足以下条件的即为关键点：

每条边的源 IP 或目的 IP 都在子集中，确保所有边都连接到一个以上的关键点并至少聚类一次
子集中选定的顶点数最少，确保最小化聚类次数

利用 Z3 进行求解，发现关键点。

边特征聚类

使用的特征如前所述，此处使用 K-Means 算法对长短流相关的边进行分别聚类。根据聚类损失衡量恶意程度，losscenter 表示与连接到关键点的其他边的差异、losscluster 表示预聚类涵盖的时间范围（越持久的交互越可能是良性的）、losscount 是流的数量（流数的爆发往往是恶意的）。

工作准备

2020 年 1 月 MAWI 互联网流量显示，流完成时间（FCT）与流长度分布如下所示。只有 5.5% 的流的 FCT 大于两秒。尽管长流在个数上只占 2.36%，但却占了 93.7% 的数据包数。

近万行代码实现了 HyperVision 的原型，通过 GCC 9.3.0 与 CMAKE 3.16.3 编译。

Mlpack（3.4.2）提供的 DBSCAN 与 K-Means 算法与 Z3 SMT Solver（4.8）。

硬件环境为 Intel Xeon E5645+24GB内存+Intel 82599ES 10 Gb/s 网卡+Intel 850nm SFP+光口。

背景流量还混杂了四大类恶意流量：恶意软件相关加密流量、加密的 Web 攻击、加密的洪水攻击与传统的爆破攻击。

工作评估

通过三个指标来进行评估：

信息量，数据包平均香农熵
数据规模，存储信息所需空间
信息密度，单位存储信息量

与三种流记录方式进行比较：

记录整个数据包特征序列的理想模式
记录特定事件的事件模式（Zeek）
记录粗粒度流信息采样模式（Netflow）

作者确认 HyperVision 的方法保留了更多信息，保持的信息量几乎与理论最优值相当。比传统流采样和基于事件的流日志多保留了 2.37 倍与 1.34 倍信息熵。在信息密度上，HyperVision 提升了 1.46 倍、1.54 倍与 2.39 倍。

与单包特征对比，HyperVision 可以将信息密度提升 35.51% 到 47.27%。

恶意攻击的检测效果不错：

恶意流量的子图模式如下所示：

各类恶意软件的加密流量也能检测：

工作思考

海量数据处理时，如何在少丢失信息的情况下尽量压缩数据的规模是十分关键的。本文给出了可以尝试的思路，并且作者在实时场景下性能如此高，也是让人眼前一亮的。

文章来源: https://mp.weixin.qq.com/s?__biz=MzkyMzE5ODExNQ==&mid=2247487175&idx=1&sn=76bdef1f18331efbead9987bd4af241f&chksm=c1e9f90bf69e701daa96f58e13564f51633cb4bbf5b3f4454f02d66662ff4a42897cca4407da&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh