原文标题:Cyber Threat Intelligence Modeling Based on Heterogeneous Graph Convolutional Network
原文作者:Jun Zhao, Qiben Yan*, Xudong Liu*, Bo Li*, Guangsheng Zuo*
发表会议:23rd International Symposium on Research in Attacks, Intrusions and Defenses
原文链接:https://www.usenix.org/conference/raid2020/presentation/zhao
主题类型:图数据挖掘
笔记作者:ShuiChang
主编:黄诚@安全学术圈
提出了一种新的CTI(Cyber Threat Intelligence,网络威胁信息)框架:HINTI,用于建模异构IOC(Indicator of Compromise,威胁指标)之间的相互依赖关系以量化异构IOC的相关性。
论文主要贡献有四点:
HINTI由四个主要部分组成:
(a)收集与安全相关的数据和提取威胁对象(即IOC);
(b)将IOCs之间的相互依赖关系建模为异构信息网络;
(c)使用基于权值学习的相似性度量将节点嵌入到低维向量空间中;
(d)基于图卷积网络和知识挖掘计算威胁情报。
作者提出了一个基于多粒度分句的BiLSTM-CRF的NER模型。
在之后运用“句法依赖解析器”实现提取9种不同的关系,完成提取知识三元组。
作者设计了9种不同的元路径,分别为:
基于异构图卷积网络的威胁智能计算概念:给定威胁情报图G = (V, E),元路径集M ={P1, P2,···,Pi},威胁情报计算: i)基于元路径Pi计算IOC之间的相似度,生成相应的邻接矩阵Ai; ii)通过将IOCs的属性信息嵌入到潜在向量空间中来构造节点Xi的特征矩阵; iii)进行图卷积GCN(Ai, Xi),通过遵循元路径Pi来量化IOCs之间的相互依赖关系,并将它们嵌入到低维空间中。
威胁情报计算旨在对 IOC 之间的语义关系进行建模,并基于元路径测量它们的相似性,可用于高级安全知识发现,例如威胁对象分类、威胁类型匹配、威胁演化分析等。直观地说,由最重要的元路径连接的对象往往具有更多的相似性。
基于加权学习的节点相似度度量概念:
在这个基础上,作者引入了注意力向量w,用于学习不同的元路径对IOC表征的重要性。
度量整张图的IOC相似度的计算成本太高,故作者通过引入预定义的元路径来规定限制,同时,作者仅仅关注了对称的元路径。在这之后,根据元路径进行交换矩阵(Communiting matrix)的计算。对称元路径可以通过成对随机游走(pairwise random-walk)加速计算。
在上面的工作结束后,即可在元路径P下获得任何两个IOC:hi和hj的相似性嵌入。基于低维的嵌入,可推导出IOC的加权相邻矩阵Ai。同时,每个节点通过word2vec提取属性信息,嵌入到特征矩阵Xi中。利用Ai和Xi,就可使用GCN来表征IOC:hi和hj之间的关系。通过GCN执行图卷积,从而生成节点嵌入。loss函数可以采用交叉熵损失函数。最后采用随机梯度下降进行权重优化。
原始记录为245786份数据,包括73个国际安全博客(如fireeye、cloudflare)、黑客论坛帖子(如Blackhat、Hack5)、安全公告(如Microsoft、Cisco)、CVE描述和ExploitDB。训练所使用的是从5000份数据中抽取出的30000样本,采取BIO标注策略。这些样本被等分为6-2-2的训练-验证-测试集。
对序列标注任务,文章的模型表现如下表。
节点中心程度(Degree centrality,描述了节点有多少连接,多用于计算节点重要程度)被用作重要度排序。
通过对攻击者的嵌入向量进行DBSCAN聚类来模拟攻击者的偏好。
在攻击建模方面,只注意首尾都为攻击者(attacker)节点的元路径。
对漏洞节点嵌入进行无监督DBSCAN聚类。有两类的聚类准确度较低,作者解释为这两种漏洞所占总数据的比例太小(cluster8占3.4%,cluster10占4.2%),对于一般聚类表现正常。
使用元路径VDPD^TV^T进行聚类时,所有漏洞被聚到12个集群中,和CVEDetails所推荐的13种类别仅相差1个。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com