原文标题:CVE-DRIVEN ATTACK TECHNIQUE PREDICTION WITH SEMANTIC INFORMATION EXTRACTION AND A DOMAIN-SPECIFIC LANGUAGE MODEL
原文作者:Ehsan Aghaei, Ehab Al-Shaer
发表会议:arxiv预发表
原文链接:https://arxiv.org/abs/2309.02785
主题类型:漏洞、情报
笔记作者:ALKA
主编:实习@安全学术圈
文章在TTP(Tactics, Techniques, and Procedures 战术技术程序攻击)预测器工具中实现的新技术来分析CVE的描述,并推断出利用该CVE引起的TTP攻击,最终集成了一个精确和可靠的TTP预测器。简单来说就是实现了CVE到TTP之间的预测。
论文主要贡献有三点:
SecureBERT:是BERT的一个衍生品,已经在大量的网络安全文档上进行了再训练
文章使用主-谓-宾(Subject-Verb-Object,SVO)结构和语义角色标注(Semantic Role Labeling,SRL)来识别CVE中威胁信息。但由于一个简单的主谓宾无法准确的表达威胁的内容,比如在“攻击者读取内存并导致拒绝服务”的上下文中,它表示内存读取是对攻击者的影响。然而,在“攻击者阅读内存以发现用户名和密码”的语境下,它表示了导致凭证盗窃的行为。
所以作者将SVO和上下文作为输入集成。
作者使用了AllenNLP语义角色标记(SRL)工具,这是一个专门为对文本数据执行语义角色标记而设计的预训练模型。该工具将一个句子作为输入,并为句子中的每个单词或短语生成相应的语义角色。
在经过模型后,作者又将其捕获到的语义分为了行为和影响。在定义了一系列判断语句之后模型的效果如下。
在经历过以上的步骤后,作者拿到了经过SVO后的威胁语句和威胁语句的上下文,接下来的工作得以继续开展。
作者也考虑到了入侵行为之间关系的继承性等关系,比如读取文件必定会读取内存,安装APP必定会修改设置。所以作者构建了一个共有16种威胁情报的模型
并给出了他们之间的关系例如因果和遗传特性。
在拿到了经过SVO后的威胁语句和威胁语句的上下文后,作者将这个东西放入了SecureBERT中,并输出一个对应的威胁情报类型。并根据因果和遗传特性图衍生出全部的威胁情报。
作者严格评估证明了其有效性,产生了约98%的显著准确率,同时在精确的组中F1分数从95%到98%,良好的性能证实了CVE语言在数据集创建中得到了有效的评估,并且模型适当地捕获了文本和功能之间的文本特征和语义关系。在最后作者还与当今火热的chatgpt进行对比,凸显其优越性。
本文的简单来说就是利用SRL和BERT实现了一个文本的多分类模型,并将模型应用于CVE的分类领域。看起来确实取得了不错的成果,当然将其识别的文字由CVE报告更改为医学诊断书或者事故描述报告,说不定能够再出几篇类似的论文。
其中值得注意的是作者并不是简单的将CVE语句输入进BERT中,而是将其威胁实体和上下文结合并输入。在一定程度上也提高了模型的准确率和上下文之间的关联性,是文章比较创新的地方。
从最后的评估也可以看出当今的很多模型也都笼罩在ChatGPT的阴影之下。大语言模型未来很长一段时间都要与其进行对比。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com