网络安全数据集的分布变化
美国空军部对人工智能 (AI) 彻底改变作战各个方面的潜力越来越感兴趣。对于这个项目,美国空军要求兰德项目空军广泛考虑人工智能不能做什么——了解人工智能在作战应用中的局限性。本报告讨论了人工智能系统在执行两项常见网络安全任务(检测网络入侵和识别恶意软件)中的应用,以及分布转移对这些任务的影响,这种现象可能会严重限制人工智能的有效性。当人工智能系统部署后遇到的数据与其训练和测试的数据明显不同时,就会发生分布转变。
该报告描述了分布转移的重要性,它如何能够并且确实显着限制了人工智能在检测网络入侵和识别恶意软件方面的有效性,如何测试和量化其影响,以及如何减轻这些影响。这项工作主要针对大型组织,例如总部设施,这些组织拥有带宽和计算能力来实施人工智能网络安全系统并定期更新其系统。
本报告是五卷系列报告中的第二份,该系列报告如何利用人工智能在四个不同领域协助作战人员:网络安全、预测性维护、兵棋推演和任务规划。本书面向技术读者;该系列整体上是为那些对战争和人工智能应用感兴趣的人而设计的
网络安全数据集遭受分布变化,特别是在标准网络入侵检测和恶意软件分类方面。
分布变化可以通过多种方式来表征,检测的难易程度取决于数据集。
尽管数据质量对于训练机器学习算法很重要,但数据的新旧程度也很重要。
在数据必须是最新的情况下才能有用的情况限制了可用于训练的数据,这反过来又限制了人工智能的性能。
任何基于人工智能的网络安全系统都应该进行数据集分段测试,以评估随着时间的推移,分布变化对性能的可能影响。这些测试可用于估计数据衰减率,进而可用于估计人工智能系统在必须完全重新训练之前的可能保质期。
还建议对数据集进行众所周知的统计测试,例如 Kolmogorov-Smirnov 测试,作为检测或确认分布偏移的附加措施。