本数据集为移动应用流量数据集,超过600GB,具备350余种应用流量,包含了负载数据,并具备大类标签和具体应用标签,可为网络流量分析领域如网络流量应用识别、网络加密流量分析、用户画像、隐私分析等研究提供重要的数据支撑。同时数据集还包括了部分流量对应的手机品牌、型号、操作系统信息等标签。本数据集经过匿名化处理后由国防科技大学计算机学院网络取证课题组
发布,数据集地址为:https://github.com/Abby-ZS/NUDT_MobileTraffic。
随着移动网络的迅速发展,移动网络流量分析领域相关问题(如网络流量应用识别、网络加密流量分析、用户画像、隐私分析等)得到了广泛的关注和研究,与此同时,加密流量的剧增推动了相关研究转向利用机器学习和深度学习方法解决问题。然而,相关研究的进一步发展面临的普遍难题是缺乏大规模的有标签流量数据集,现有数据集普遍存在类别少、样本不均衡、样本多样性弱等不足。该课题组着力于创建一个规模大、数据丰富、可用性强的移动应用数据集,以期为广大科研人员提供大规模可用数据,为网络流量分析领域的研究创造更好的条件。
收集方式:采用众包的方式,招纳200余名学生参与流量收集工作。学生已被告知收集的相关数据会在匿名化后公开,面向科研需要提供相关研究者使用。
收集过程:课题组提供一组应用,学生自主选择应用在个人设备上进行安装并操作。基于提供的流量收集软件,产生的流量样本会上传到服务器。该软件可在双向流级进行准确应用标记,从而保证标签的准确性。采集过程持续约两个月。
数据集大小:经匿名化处理后,最终构建了大小约611GB的有标签流量数据集。数据集包含350个应用,每个应用至少包含100MB流量数据。
标签:(1)流量所属大类标签,共分为了22个类别;(2)具体应用的标签,共有350种应用;(3)部分流量所属手机品牌、型号、操作系统(如安卓系统版本)等标签,包括9种品牌,94种型号。
数据集优点:(1)包含上百种应用,应用规模大;(2)单个应用数据量较为充足,避免了样本不均衡的问题;(3)流量多样性强,涉及上百台不同型号设备/用户,多种网络环境,多种应用执行路径;(4)数据集可用数据丰富,包括报文原负载、设备数据、损失报文信息的统计特征等。
数据集中具体应用类别及流量大小分布如下图所示。
A Large-Scale Mobile Traffic Dataset For Mobile Application Identification, The Computer Journal, 2023, https://doi.org/10.1093/comjnl/bxad076.
Comprehensive Mobile Traffic Characterization Based on a Large-Scale Mobile Traffic Dataset. Network and System Security. NSS 2022. Lecture Notes in Computer Science, vol 13787. Springer, Cham. https://doi.org/10.1007/978-3-031-23020-2_12.
国防科技大学计算机学院网络取证课题组主要面向网络空间治理需求,针对网络流量分析取证关键技术开展研究,在应用识别、报文分类、网络测绘、移动网安全等多领域取得一系列原创性的成果,完成国家973计划、国家重点研发计划、国家自然科学基金等数十项各类科研项目,并研制多款设备部署得到广泛应用,相关成果获得多项国家、省部级科技进步奖和自然科学奖,发表高水平论文近百篇,授权国家发明专利数十项。课题组长期招收硕士博士以及博士后,同时招聘工程师,招生信息可访问http://yjszs.nudt.edu.cn/index/index.view,具体信息请联系魏老师([email protected])。
CFP:大家有其他可供研究的数据集也可以发送稿件到secdr#qq.com,推动安全科研数据共享,SecData专题开启!
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com