原文标题:Predicting Entity Relations across Different Security Databases by Using Graph Attention Network
原文作者:Liu Yuan, Yude Bai, Zhenchang Xing, Sen Chen, Xiaohong Li, Zhidong Deng
发表会议:2021 IEEE 45th COMPSAC
笔记作者:HowieHwong
文章小编:[email protected]
抽象的安全数据库,如常见漏洞和暴露(CVE)、常见弱点枚举(CWE)和常见攻击模式枚举和分类(CAPEC),这些概念被视为安全实体。同时,安全实体记录了许多潜在的关系类型,这些关系类型有助于跨越这三个流行数据库进行安全性分析和理解。为了支持安全实体关系的推理,基于翻译的知识图谱表示学习处理采用三重独立的方式进行实体预测。然而,它忽略了三元组周围邻域的重要语义信息。为了解决这个问题,团队提出了一个文本增强的图形注意网络模型(文本增强GAT)。该模型强调了三元组周围的2-hop邻居的重要性。因此可以从安全数据库的知识图中获取更多结构和文本信息。团队设计了大量的实验来评估我们提出的模型在预测安全实体关系方面的有效性。此外,在检测缺失关系方面,实验结果的平均倒数排名(MRR)为0.132,优于最新技术。
团队做出了以下贡献:
团队首先构建一个安全知识图谱,该图基于VE、CWE和CAPEC数据库的所有安全知识。该图由4003个曲线、891个WES和522个CAPEC组成。
Structure-Embedding Generation 考虑到安全知识图谱中实体和关系的结构形式,团队采用TransE来训练初始结构嵌入等三元组。从而避免了随机初始化所忽略的结构信息的负面影响,有效地获取了三个安全数据库之间的关系知识。团队将这个结构嵌入向量的维数设置为100。
Description-Embedding Generation 团队首先使用NLTK(pythonNLP工具包)对文本句子进行标记,删除停止词,并对这些句子进行词干处理。这些标记(单词)被发送到word2vec模型中。将每个坐标轴转换为一个维数为100的向量,并将每个实体描述中的所有单词向量连接起来。
最后,将TransE生成的结构特征向量和CNN生成的文本特征向量连接成一个维数为200的特征向量。
模型通过拼接操作和多层感知器提取了基于结构和文本描述两个不同维度的特征,并得到了结合两种向量表示的向量表达式。在提出的安全知识图中可以观察到同一实体通过其关联的关系扮演不同的角色。这激励团队观察实体周围的邻居,使用2跳的原因是因文2跳实体占据了大多数。因此,一个实体可以从其2跳邻居中获取额外的实体和关系知识。在2跳邻居的路径中,将关系的嵌入值求和,并将其视为扩展的关系嵌入值。同时,在每个图形注意层(见图3 d)之后,对实体的嵌入值进行规范化,以防止状态爆炸的问题。
给定编码的实体和一个三元组的关系特征向量,应用ConvKB对这种特征向量进行解码。ConvKB中的卷积层有助于分析每个特征维上三重矩阵的全局嵌入值。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com