引用
魏子钧, 程光, 陈子涵. 一种基于应用数据单元长度的加密网页识别方法[J]. 网络空间安全科学学报, 2023, 1(3): 3-12
WEI Zijun, CHENG Guang, CHEN Zihan. An Encrypted Webpage Recognition Method Based on Application Data Unit Length[J]. Journal of Cybersecurity, 2023, 1(3): 3-12
背 景
网页指纹攻击可获取HTTPS网络流量中的信息,进而泄露用户隐私。研究网页识别有助于发现当前加密协议存在的安全漏洞,这对于改进用户隐私保护策略具有重要意义,同时也有助于提升网络服务提供商(Internet Service Provider, ISP)的网络管理水平。研究提出了一种利用应用数据单元(Application Data Unit, ADU)的二阶段网页识别方法Penetrator,相比于直接从TLS或TCP层级提取的特征,ADU特征的表征能力更加显著。
创新点与贡献
研究了网页指纹的构建方法,并引入应用数据单元来表示HTTP协议所承载的应用数据。首先,介绍了ADU的相关概念并验证了其特征的有效性,随后提出HTTPS下的ADU还原方法。分别在HTTP/1.1和HTTP/2.0版本的数据集上验证了ADU还原的效果,并分别在封闭世界和开放世界证实了Penetrator方法进行加密网页识别的有效性。
方法描述
首先理论证明了ADU特征在网页流量识别问题上的有效性。其次,分析了 HTTPS 协议栈造成的 ADU 还原 误差,提出了约减这些误差的方法。最后,基于ADU长度序列,提出了加密网页流量识别方法。
图1 Penetrator 整体架构
Fig.1 Overall architecture of Penetrator
ADU还原方法
研究在协议栈解析的过程中对系统误差进行删减,并将随机误差的还原问题与常见的文本翻译问题进行类比,将数据报文的长度值类比为单词,借助Transfomer[模型的自注意机制等的有效特性实现随机误差的消减。
图2 ADU还原效果曲线
Fig.2 Curve of ADU reduction effect
基于还原ADU特征的加密网页识别
以ADU长度序列构建加密网页指纹特征,利用LS-LSTM擅长处理时序问题的特性建立识别模型。在测试过程中首先通过ADU还原方法获取还原ADU长度序列,并将其输入模型,实现加密网页精准识别。与基于常规序列特征构建指纹的识别模型对比,展现出更高的精度效果。
表1 F1得分对比
Table1 Comparisont of F1-Score
图3 两种分类器收敛速度对比
Fig.3 Comparison of convergence rate between two classifiers during training
总结与展望
研究验证了ADU特征的可用性和还原方法,并实验证实了其对加密网页指纹构建的突出效果。由于网页内容受到时间和广告插件等因素影响,所构建的指纹存在时效性问题,相应的网页识别模型也概念漂移问题,这些问题为加密网页识别带来挑战。此外,未来需要进一步将ADU特征引入其余加密流量分析任务。
论文全文下载方式
1 识别下方二维码;2 点击文末“阅读原文”。
来源:《网络空间安全科学学报》第三期
电话:010-89061756/ 89061778