西安交通大学 | TrafficGPT：打破Token长度限制的高效长时流量分析与生成框架

西安交通大学 | TrafficGPT：打破Token长度限制的高效长时流量分析与生成框架
2024-8-16 17:6:9 Author: mp.weixin.qq.com(查看原文) 阅读量:15 收藏

论文题目：TrafficGPT: Breaking the Token Barrier for Efficient Long Traffic Analysis and Generation
论文作者：Jian Qu, Xiaobo Ma, Jianfeng Li
发表会议/期刊：arXiv https://arxiv.org/pdf/2403.05822
发布时间：2024
主题类型：流量分析
笔记作者：young_fan

研究概述

预训练模型作为近年来主流的流量识别技术，存在能够通过大型未标记的数据集中学习稳定的数据，以此提高表示性能的优点。但是现有的预训练模型存在着诸如token长度限制等问题，这限制了它在现实中进行流量分析的实用性。在此背景下，本文设计了一种名为TrafficGPT的预训练深度学习模型，主要结构由Token化、预训练、微调三部分组成。该模型可以解决更长的流量分类问题，同时可以完成流量生成任务。

下图为本文提出的TrafficGPT模型的框架图，包含Token化、预训练、微调三部分。具体的，Token化部分将pcap文件分割为不同的流，将每个包进行标记，从而完成对整个流的标记。预训练部分中，模型使用先前生成的内容作为上文，从而生成后续词汇表示token，在训练过程中，自回归预训练采用交叉熵损失。需要注意的是，此处模型采用了作者所提出的线性注意力机制结合局部注意力策略，大大下降计算复杂度的同时保留了局部重要信息的捕捉能力，同时引入了令牌偏移来提高训练效率。在微调过程中，在流的token头部增加一个[cls]token，即表示模型即将承担分类任务，随后将[cls]与流token都输入到模型中。

实验共分为两个部分，分类实验和生成实验。首先，文章在五个数据集（ISCX-Tor2016、USTCTFC2016、ISCXVPN2016、DoHBrw2020和CICIoT2022）上做了流量分类实验，并比较了不同Token长度下的分类性能。

流量生成实验选择了JS散度作为评价标准。

同时，对比了其他两种线性复杂度的模型在包和流的两个维度的性能。

贡献分析

贡献点1：论文针对传统Transformer中传统的自注意机制，提出了一种线性的注意机制，实现了将原有模型处理token列表的范围从512扩大到12032的同时提高了效率；
贡献点2：论文针对传统预训练模型使用的tokenToken化方法很难从模型生成的标记列表中准确重建pcap文件问题，提出了一种可逆的token标记方法，实现了模型在模拟真实的网络流量时的可靠性。

论文点评

本文所提出的模型在流量分类和流量生成方面均有优秀的表现，但是根据其内容中所述，还存在着以下问题：

模型在预训练过程中缺乏对概念任务的考虑可能会引入概念差距。作者提出可以采用多任务训练策略，从而对这一限制进行缓解并提高分类结果。比如在训练过程中结合分类学习和自动回归学习；
模型在标签化的时候将一个pcap文件分解为多个流分别进行标签化，而忽略了流之间的关系。加入流之间的关系也许可以提高综合表现；
关于本文使用的数据集，其中的数据主要由TCP/IP数据构成，并没有包含蓝牙、Zigbee等协议，使得模型支持的数据包并不全面，影响了模型的通用性与适用性。此处的改进方向应该从数据集处入手，增加含有其他协议的数据集。

除了本文作者提出的以上问题之外，本人在阅读时还考虑了以下问题：

传统的transformer的自注意机制已经被证明了其时间复杂度在输入长度上是二次的。而本文提出的线性注意机制是传统的自注意机制的近似算法，这种近似算法的拟合效果对实验会产生什么样的影响，文章中并没有提及。也就是说，牺牲算法多少的正确性换来的时间优化作者并没有在文中说明；
文章中提出的针对包的标签化方式中有一种token是十六进制token，根据作者在文章中的表示，这个token仅仅是报文内容的16进制表示。如果遇到较长的报文内容可能会对模型的时间复杂度产生影响。

论文文献

[1]. Qu J, Ma X, Li J. Trafficgpt: Breaking the token barrier for efficient long traffic analysis and generation[J]. arXiv preprint arXiv:2403.05822, 2024.

研究团队：马小博，教授/博导. 国家级青年人才. 陕西省杰出青年基金获得者. 仲英青年学者/思源学者. CCF YOCSEF西安主席. CCF高级会员/IEEE会员。长期致力于僵尸网络检测、加密流量分析、区块链安全研究。近5年，主持网络安全相关国家级项目8项，在USENIX Security、NDSS、IEEE/ACM TON、IEEE TDSC、INFOCOM等期刊会议发表论文30多篇，出版英文专著章节2部，授权及申请国家/国防发明专利近40项，成果在国家某工程、慧眼行动、国家重点研发计划“网络空间安全重点专项”应用示范类项目等取得重要应用。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

文章来源: https://mp.weixin.qq.com/s?__biz=MzU5MTM5MTQ2MA==&mid=2247491131&idx=1&sn=a2d62e123b9709faef4447ead09f6b11&chksm=fe2ee1b0c95968a6e843c8807626491b3cf318fa0a847cbd4f4ed7b6795c2a3beb1748f640e5&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh