论文题目:TrafficGPT: Breaking the Token Barrier for Efficient Long Traffic Analysis and Generation
论文作者:Jian Qu, Xiaobo Ma, Jianfeng Li
发表会议/期刊:arXiv https://arxiv.org/pdf/2403.05822
发布时间:2024
主题类型:流量分析
笔记作者:young_fan
预训练模型作为近年来主流的流量识别技术,存在能够通过大型未标记的数据集中学习稳定的数据,以此提高表示性能的优点。但是现有的预训练模型存在着诸如token长度限制等问题,这限制了它在现实中进行流量分析的实用性。在此背景下,本文设计了一种名为TrafficGPT的预训练深度学习模型,主要结构由Token化、预训练、微调三部分组成。该模型可以解决更长的流量分类问题,同时可以完成流量生成任务。
下图为本文提出的TrafficGPT模型的框架图,包含Token化、预训练、微调三部分。具体的,Token化部分将pcap文件分割为不同的流,将每个包进行标记,从而完成对整个流的标记。预训练部分中,模型使用先前生成的内容作为上文,从而生成后续词汇表示token,在训练过程中,自回归预训练采用交叉熵损失。需要注意的是,此处模型采用了作者所提出的线性注意力机制结合局部注意力策略,大大下降计算复杂度的同时保留了局部重要信息的捕捉能力,同时引入了令牌偏移来提高训练效率。在微调过程中,在流的token头部增加一个[cls]token,即表示模型即将承担分类任务,随后将[cls]与流token都输入到模型中。
实验共分为两个部分,分类实验和生成实验。首先,文章在五个数据集(ISCX-Tor2016、USTCTFC2016、ISCXVPN2016、DoHBrw2020和CICIoT2022)上做了流量分类实验,并比较了不同Token长度下的分类性能。
流量生成实验选择了JS散度作为评价标准。
同时,对比了其他两种线性复杂度的模型在包和流的两个维度的性能。
本文所提出的模型在流量分类和流量生成方面均有优秀的表现,但是根据其内容中所述,还存在着以下问题:
除了本文作者提出的以上问题之外,本人在阅读时还考虑了以下问题:
[1]. Qu J, Ma X, Li J. Trafficgpt: Breaking the token barrier for efficient long traffic analysis and generation[J]. arXiv preprint arXiv:2403.05822, 2024.
研究团队:马小博,教授/博导. 国家级青年人才. 陕西省杰出青年基金获得者. 仲英青年学者/思源学者. CCF YOCSEF西安主席. CCF高级会员/IEEE会员。长期致力于僵尸网络检测、加密流量分析、区块链安全研究。近5年,主持网络安全相关国家级项目8项,在USENIX Security、NDSS、IEEE/ACM TON、IEEE TDSC、INFOCOM等期刊会议发表论文30多篇,出版英文专著章节2部,授权及申请国家/国防发明专利近40项,成果在国家某工程、慧眼行动、国家重点研发计划“网络空间安全重点专项”应用示范类项目等取得重要应用。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com