LLM很酷,KG也很酷
2023-9-6 15:35:21 Author: mp.weixin.qq.com(查看原文) 阅读量:3 收藏

一.  引言

正如gpt等大规模语言模型(Large Language Model,LLM)在表征抽象、深层语义上的优势一样,知识图谱(Knowledge Graph,KG)也能够以一种符号化的方式组织结构化存在的具象概念。同时,知识图谱也可以通过图表示学习、图算法获得图上实体、关系的向量化表示,进而基于向量实现推理计算。
对比LLM和KG,LLM经过大量语料的训练,使得词语能够考虑并保存词语上下文的语义信息;而KG仅对信息抽取后的少部分词语进行训练,训练得到的节点特征向量不如LLM中词向量的表达充分。LLM在训练过程中不区分名词和动词,也不区分动词的具体内容,而是一律使用一个低维稠密的词向量表示;但KG不仅区分名词(点)和动词(边),还人工区分不同边关系(一般是动词)的类型,如本体构建阶段就对每一种边关系及其所连接的节点进行人工敲定。
基于LLM的生成结果是未知的,如下图1使用GPT3.5抽取文本中的“compromised data”事件,抽取结果为“Local Admin user credentials”,而非原文中的“credentials of a Local Admin user”。这一现象展示了LLM的生成特点,即无论使用多少万亿级别的参数规模,LLM都是依据概率函数输出几个“最大可能性”的词语。但这种“未知”在KG上的推理过程则表现得更为“确定”,事实上KG的输出同样使用了概率函数去输出最大可能性的结果,但区别在于KG的输出主体是知识图谱上的图节点。同时,在推理过程中,可以通过设置游走路径去获得确定实体类型的节点,从而进一步减少了输出的不确定性。

图1. LLM文本抽取示例

除此以外,KG不仅可以利用图表示学习实现推理、问答等应用,还可以基于图可视化及自身的结构特点生成有效的推理规则,进而帮助相关业务的开展。如图2所示,为真正了解利用知识图谱并实现图上应用,本文将分别从图数据的存储优势、信息抽取技术、图表示学习和推理算法等方面进行介绍。

图2. 知识图谱技术体系

二.知识图谱相关技术

2.1 

符号化表示

在将图谱中的点转化为向量之前(图表示学习),我们应该先了解图的符号化表示方法。如下图3所示,知识图谱可以表示为属性图和RDF图,两者的最大区别在于是否将属性信息提炼出来作为图上的一个节点。RDF图上只存在节点和边,节点对应于图上的头尾顶点,边对应头尾顶点之间的链接,同时,由节点和边构成的“主语-谓语-宾语”结构也被称为三元组。

图3. 知识图谱的符号化表示

2.2 

关系的显式表达

知识图谱的最大优势在于“关系的显式表达”,这一特征在数据的存储方式上也有鲜明的体现。如下图,关系型数据库(RDBMS)仅存储节点信息,却不存储关系(关系是通过二维表的外键来隐式表达的),这一方式将带来查询和计算的复杂性。而原生图通过邻接列表显式地存储了图中的边关系和相邻节点信息,若同时引入图上的查询语句(如Cypher、gremlin等),可以极大地提升数据的查询效率。
如图4案例可以鲜明的体现关系显式的性能优势。假设一个图谱包含1,000,000个“person”,且每个“person”存在50个“friend”关系,那么使用RDBMS进行3跳查询的耗时为30s,进行4跳查询的耗时达到1500+s,进行5跳查询的耗时将无法估量,而此时使用原生图的查询耗时仍在3s之内。

图4. 知识图谱的存储结构

2.3 

命名实体识别技术

搭建好数据库,你开始构建自己的知识图谱。但我们所获取的大多数数据都是非结构化的,如何对非结构化文本进行应用并构建对应的知识图谱,就需要命名实体识别(Named Entity Recognition,NER)技术的参与。下图5描述了一种经久不衰的NER框架—编码-解码框架。

图5. 编码-解码框架

编码解码框架是一种著名的AI框架,编码器先将输入文本中的词语转化为词向量,然后使用RNN、LSTM、GRU等结构整合获得输入文本整体的语义向量,解码器对整合后的句向量进行解码,进而根据不同的NLP领域任务设计对应的输出主体,从而完整不同的NLP任务。NER任务的重点在于解码器的设计,如下图6展示了四种常用的解码方法,分别为序列标注、指针标注、基于token_pair的标注、基于span枚举的标注。

图6. 四种实体识别常用解码方法

2.4 

图表示学习

结合实体识别后的抽取结果,以及人工设计的本体结构,就可以构造一张特定领域的知识图谱。那么如何利用图结构获取未知的隐含关系呢?这一部分需要图表示学习的参与。

图表示学习将节点映射为向量表示,从而更多的保留图上的拓扑信息(图结构)和特征信息(节点特征)。图表示学习的目标是希望图上“接近”的节点,经过嵌入表示后,能够在向量空间上也“接近”。其中,如图7所示,图上的接近是指节点在语义、逻辑、结构关系上的相似,而向量的接近是指通过欧氏距离等方法计算得到的接近。

图7. 图表示学习过程

本文将介绍两类著名的图表示学习方法。第一种为基于随机游走的方法,如DeepWalk、node2vec、LINE、metapath2vec等。如图8所示,这类方法的主要思想是从图上的一个节点出发,以一定概率向其他节点转移,从而获得了一条随机采样的节点序列,进而将这条序列输入NLP的语言模型中,从而将图表示学习转化为word2vec获取词向量的问题。

图8. 基于随机游走的图表示学习方法

第二种为基于局部子图的方法,如GCN、VGAE、GAT、GraphSAGE等。如图9所示,这类方法将每个节点表示为相邻节点特征的组合,从而既捕获了该节点的结构信息(节点和哪些节点相互连接),又捕获了节点的特征(节点与接近的节点具有一定相似性)。这类在有效地捕捉子图的特征的同时,又有效减少计算量和参数数量,因此,在实际应用中,基于局部子图的方法已经成为了一种重要的图嵌入技术,并在社交网络分析、推荐系统等领域得到了广泛应用。

图9. 基于局部子图的图表示学习方法

在网络安全领域,基于节点向量的距离计算可以用于制定防护策略。如
  1. 针对攻击组织(如“Lazarus”,‘UNC2452’,‘Equation Group’)和攻击模式实体(如‘勒索’,‘钓鱼’,‘恶意软件’等),可以通过欧式距离计算得到每个攻击组织最惯用的攻击方式。
  2. 针对漏洞实体,仍利用距离计算方法可以发现潜在的攻击路径和可能被攻击的目标.
  3. 针对攻击工具、攻击者、攻击目标等实体,可以通过向量推理算法计算三者之间的未知关系,进而帮助安全维护人员了解攻击背景、制定安全防护方案。

2.5 

图的推理

利用获取的节点向量,可以实现图上关系推理,如Trans系列、DistMult等,均利用节点向量进行数学运算,从而对知识图谱中存储的知识进行推理和计算。如图10所示,trans系列将将三元组 (h, r, t) 表示为头尾实体向量之和的加法向量,即 h + r ≈ t。而DistMult将实体、关系和实体之间的关系表示为矩阵乘积的形式,即是用惩罚来表示头尾向量之间的关系。

图10. 图上关系推理方法

在网络安全领域,图的推理可以理解为:针对包含主机、路由器、交换机、防火墙等实体,端口连接状态、协议类型等关系,利用推理计算可以找到设备潜在的安全风险。使用点乘运算计算某设备和其他设备的相似性,结果越大,则两节点关系越紧密,从而可以在攻击的过程中,将攻击的目标从目标设备转移到关系紧密的设备上,从而在有限的资源下达到相同的攻击目的。

三.结合网络安全领域

网络安全领域,知识图谱被广泛应用于威胁情报分析、安全事件响应、漏洞管理和渗透测试等方面。

首先,在威胁情报分析方面,知识图谱可以帮助安全团队收集包括黑客交易、漏洞利用、APT攻击等的安全数据,并将其表示成知识图谱的形式,以发现攻击者的隐藏行为、推断攻击者的攻击策略和能力,从而帮助企业更好地了解自身的风险状况。
其次,在安全事件响应方面,知识图谱可以帮助安全人员追踪攻击路径、恶意主机和漏洞利用的来源等信息,加速事件响应和修复漏洞,从而有效降低企业遭受攻击的影响。
除此之外,知识图谱还可以应用于漏洞管理和渗透测试方面。漏洞管理需要对已知漏洞和未知漏洞进行全面的收集、整理和分类,而知识图谱可以帮助自动化地构建漏洞库和检测漏洞。渗透测试则需要对被测试系统进行全面的安全性评估,而知识图谱可以用于指导和优化渗透测试的流程和结果。
内容编辑:创新研究院 卜   天
    责任编辑:创新研究院 董炳佑

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我


文章来源: https://mp.weixin.qq.com/s?__biz=MzIyODYzNTU2OA==&mid=2247495790&idx=1&sn=602bb943449fca96f374fe064e777af6&chksm=e84c56b1df3bdfa740952b96e4b3fcfc0faca7f1bf07ca87bcef2a2df39e6cdf3689436aee03&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh