ChatRule—基于LLM挖掘KG中的逻辑规则
2024-5-13 14:56:17 Author: mp.weixin.qq.com(查看原文) 阅读量:6 收藏

一.  引言

在本文中,我们提出了一个新的框架 ChatRule,提升LLM在知识图谱上挖掘逻辑规则    的能力。具体而言,该框架以基于 LLM 的规则生成器为起点,利用 KGs 的语义和结构信息  来促使 LLMs 生成逻辑规则。为了改进生成的规则,规则排名模块通过整合现有 KG中的事实 来估计规则的质量。最后,规则验证器利用 LLMs 的推理能力通过思维链验证排名规则的逻 辑正确性。ChatRule 在四个大规模 KG上进行了评估, 涉及不同的规则质量指标和下游任  务,展示了我们方法的有效性和可扩展性。

二.   一个示例

知识图谱(KG) 以三元组的结构格式存储了庞大的现实世界知识 。KG 推理旨在从现有  事实中推断新的知识,是 KG中的一项基本任务,对于 KG问答和推荐等应用至关重要 。最近,对可解释的 KG 推理的需求日益增加,这可以帮助用户理解推理过程,并提高KG 推理在高风险场景中的可信度 (如医学诊断和法律判断) 。 因此,逻辑规则被广泛应用于 KG 推理中,它们可读性强,可以推广到不同的任务 。例如,如图 1 所示,我们可以找到一  个逻辑规则:GrandMother(X,Y)←  Mother(X,Z)∧Father(Z,Y),用于预测“GrandMother ” 关系的缺失事实 。 

图 1

为了自动从 KG中发现有意义的规则用于推理,逻辑规则挖掘在研究界引起了重视。早期关于逻辑规则挖掘的研究通常通过发现 KG 结构中频繁模式的共现来找到逻辑规则。 然而, 它们通常需要对 KG中的所有可能规则进行枚举, 并通过估计的重要性对它们进行排名。尽管最近的研究提出使用深度学习方法对规则进行排名,但它们仍受限于对规则的穷举枚举, 并且无法扩展到大规模的 KG。

一些最近的方法通过从知识图谱中抽样路径并在其上训练模型来解决这个问题,以捕捉  形成规则的逻辑连接,但它们通常忽略了关系语义对于表达逻辑连接的贡献。例如:一个人的“父亲 ”的“母亲”是他的“祖母 ”,基于此可以定义如下规则,

如 GrandMother(X, Y)  ←  Mother(X, Z)   ∧  Father(Z, Y) 。然而, 知识图谱中的不同关系均需要领域专家进行手工注释,整个KG的规则注释过程将极为繁琐 。因此,在发现知识图谱中的逻辑规则时, 自动地结合关系的结构和语义是至关重要的。

大型语言模型如 ChatGPT 和 BARD 在理解自然语言和处理许多复杂任务方面表现出很强 的能力 。经过大规模语料库的训练, LLM存储了大量的常识知识, 可以用于促进知识图谱 推理 。 与此同时, LLMs 并没有设计用于理解知识图谱的结构, 这使得直接应用它们来挖掘 知识图谱上的逻辑规则变得困难 。此外,广为人知的幻觉问题可能导致 LLMs 生成无意义的 逻辑规则。

为了弥合 LLMs 和逻辑规则挖掘之间的差距,我们提出了一个新颖的框架称为 ChatRule, 它利用知识图谱的语义和结构信息来引导 LLMs 生成逻辑规则 。具体而言,我们首先提出了  一个基于 LLMs 的规则生成器,为每个关系生成候选规则 。我们从知识图谱中抽样一些路径  来表示结构信息,然后在一个预定义的prompt中利用 LLM的能力进行规则挖掘 。为了减少  幻觉问题,我们设计了一个逻辑规则排序器,通过涵盖知识图谱中观察到的事实来评估生成  规则的质量并过滤掉无意义的规则。质量评分进一步在逻辑推理阶段用于减少低质量规则的  影响。最后,为了消除虚假规则,即在知识图谱中得到支持但在逻辑上不正确的规则,我们  利用 LLM 的逻辑推理能力通过思维链(CoT)推理来验证规则的逻辑正确性。在我们的框  架中,挖掘得到的规则可以直接用于下游任务,无需进行任何模型训练。对四个大规模知识  图谱的广泛实验证明, ChatRule 在知识图谱补全和规则质量评估方面显著优于现有方法。

本文的主要贡献总结如下:

•  我们提出了一个名为 ChatRule 的框架,利用 LLMs 在逻辑规则挖掘中的优势 。据我们 所知,这是第一个将 LLMs 应用于逻辑规则挖掘的工作。

•  我们提出了一个端到端的流程, 利用 LLMs 的推理能力和知识图谱的结构信息进行规 则生成 、规则排序和规则验证。

•  我们在四个数据集上进行了大量实验 。 实验结果表明, ChatRule 显著优于现有方法。

三.   相关工作

3.1

逻辑规则挖掘

逻辑规则挖掘是一项长期以来研究的任务, 其重点是从知识图谱中提取有意义的规则 。传统方法会枚举候选规则,然后通过计算权重得分来评估规则的质量。随着深度学习的进步, 研究人员探索了以可微分的方式同时学习逻辑规则和权重的思路 。然而,这些方法仍然对规则空间进行了大量的优化,限制了它们的可扩展性。最近,研究人员提出了从知识图谱中抽样路径并在其上训练模型来  学习逻辑连接的方法 。RLvLR 从子图中抽样规则,并提出了基于嵌入的评分函数来估计每个规则的重要性 。RNNLogic 将规则生成和规则加权分离开来,彼此可以相互增强并减少搜索空间 。R5 提出了一种强化学习框架,通过在知识图谱上启发式地搜索并挖掘潜在的逻辑规则 。先现有研究中,RLogic 和 NCRL 达到最优效果。然而,它们虽然预测了规则主体的最佳组合,却并没有考虑关系的语义, 并且可能导致次优的结果。

3.2

问题定义

知识图谱(KG) 以三元组的形式表示事实的集合,其中  G = {(e, r, e')   =  E  ×  R  ×  E}, 其中  e, e'   ∈  E  和  r   ∈  R  分别表示实体和关系的集合。

逻辑规则是一阶逻辑的特殊情况,它可以促进对知识图谱进行可解释的推理 。逻辑规则ρ以如下形式表示逻辑蕴含关系:

其中

表示一系列关系的合取,称为规则主体;rh(X, Y)表示规则的头部;L 表示规则的长度。 如果规则主体的条件满足,则规则头部的陈述也成立。

规则的一个实例是通过在 KGs中用实际实体替换变量 X 、Y 、Z* 来实现的 。例如, 给定 规则 GrandMother(X, Y)  ←  Mother(X, Z1)   ∧  Father(Z1, Y),一个规则实例δ可以是

GrandMother(Alice, Charlie)  ←  Mother(Alice, Bob)   ∧  Father(Bob, Charlie),这意味着如果 Alice 是 Bob 的母亲, 而 Bob 是 Charlie 的父亲,则 Alice 是 Charlie 的祖母。

四.   方法

ChatRule用于在LLM上挖掘知识图谱中的逻辑规则。整体框架如图 2 所示,包括三个   主要组件:1)基于 LLM 的规则生成器,利用语义和结构信息生成有意义的规则;2)规则 排名器, 用于评估在知识图谱上生成的规则的质量;3)思维链(CoT)规则验证器, 用于 验证规则的逻辑正确性。

1)基于 LLM 的规则生成器

传统的逻辑规则挖掘研究通常集中在使用结构信息,忽视了用于表达逻辑连接的关系语 义的贡献。为了充分利用大型语言模型(LLMs)的语义理解能力,我们提出了一种基于 LLM 的规则生成器,利用知识图谱的语义和结构信息来生成有意义的规则。

为了使 LLMs 能够理解用于规则挖掘的知识图谱结构, 我们采用广度优先搜索(BFS) 采样器从知识图谱中采样一些闭合路径,这些路径可以被视为逻辑规则的实例。给定一个三 元组(e1,rh,eL),闭合路径被定义为连接 e1 和 eL 的关系 r1,...,rL 的序,例如,给定一个三元组(Alice,GrandMother,Charlie) ,可以找到一个闭合路径 p,如下所示:

它在知识图谱中闭合了三元组(Alice,GrandMother,Charlie) 。通过将三元组视为规则头部,将闭合路径视为规则主体,我们可以得到规则实例δ,如方程(2)所示。

给定目标关系 rh, 我们首先从知识图谱中选择一组种子三元组{(e , rh,e')}, 然后进行 BFS 采样, 以获得一组长度小于 L 的闭合路径{p}, 构成一组规则实例{δ} 。 然后, 我们将规 则实例中的实际实体替换为变量,得到规则样本 Srh = { ρ}。规则样本以顺序格式传达了知识 图谱的结构信息, 可以输入到大型语言模型中以促进规则生成。

基于大规模语料库训练的LLM展现出理解自然语言语义和进行常识知识复杂推理的能力 。为了结合结构和语义信息,我们 设计了一个预定义的prompt来利用 LLMs进行规则挖掘。

 对于Srh 中的每条规则,使用规则采样器获得关系 rh 的规则样本。 我们通过移除关系名称中的特殊符号将其转化为自然语言句子,这些特殊符号可能会降低 LLMs 的语义理 解能力 。对于原始关系的逆关系(例如,wife -1) ,我们通过添加一个"inv"符号来将其转化 为自然语言表达。然后,我们将转化后的规则样本放入提示模板中,并将其输入到 LLM 中生成规则 (例 如,ChatGPT)。图 3 展示了关系"husband(X,Y)"的规则生成提示示例和LLM生成的结果。

由于规则样本数量庞大,无法同时将它们全部输入到 LLMs 中,因为超出了上下文限制。 因此,我们将规则样本分成多个查询,提示 LLMs 生成规则 。然后,我们收集 LLMs 的响应, 并要求 LLMs 对结果进行总结,得到一组候选规则 Crh = { ρ} 。完整的prompt如下:

2)逻辑规则排名

众所周知, LLMs 存在幻觉问题, 可能会生成不正确的结果 。例如,在图 3 的结果中生成的规则 husband(X,Y)  ←  husband(X,Z1) & brother(Z1,Y)是不正确的。因此,我们设计了一个规则排名器,通过知识图谱中的事实来检测幻觉并评估生成规则的质量。

规则排名器旨在为候选规则集 Crh 中的每个规则ρ分配一个质量评分 s( ρ) 。 受到先前的 规则挖掘工作的启发, 我们采用四个指标来评估规则的质量, 即支持度(support) 、覆盖 度(coverage) 、置信度(confidence) 和 PCA 置信度(PCA confidence) 。

支持度表示满足规则ρ的知识图谱中的事实数量, 显然, 支持度为零的规则可以在没有 进一步优化的情况下轻松从候选集中剪除。然而,支持度是一个绝对数值,在知识图谱中具 有更多事实的关系可能具有更高的支持度, 并提供有偏的排名结果。

覆盖度衡量了在知识图谱中由规则ρ蕴含的现有事实的比例 。 为了进一步考虑规则的错 误预测,我们引入置信度和 PCA 置信度来估计规则的质量。

置信度假设所有从规则体中推导出的事实都应该包含在知识图谱中 。然而,在实践中, 知识图谱往往是不完整的, 这可能导致缺失证据事实 。 因此, 我们引入 PCA 置信度来选择 能够更好地推广到未见事实的规则。

PCA 置信度定义为满足规则ρ的事实数量与在知识图谱的部分补全中满足规则体 body( ρ)的次数之比 。PCA 置信度的分母不是从规则体中推导出的全部事实的数量, 而是基 于我们知道为真的事实以及我们假设为假的事实的数量。因此,在不完整的知识图谱中,PCA 置信度更好地估计规则的质量和推广能力 。规则质量评估的实验结果也支持了这一观点。

3)基于思维链(CoT)的规则验证器

在逻辑规则排名之后,我们获得了一组针对目标关系 rh ,按优先级排序的规则 Rrh = {(ρ , s( ρ))}。 虽然我们可以剪除支持度为零的规则以提高生成规则的质量, 但需要注意的是,  知识图谱中可能存在噪音,导致出现虚假规则 。这些规则表面上由知识图谱中的事实支持, 但在逻辑上是不正确的, 这可能导致下游任务中的错误预测 。 因此, 我们利用 LLM 的推理能力,使用链式思维(CoT)推理验证规则的逻辑正确性。

对于每个规则ρ  ∈  Rrh,我们将其输入 CoT 提示模板,并要求 LLM 验证其逻辑正确性。 图 4 显示了一个例子, 经过排序后具有 8 个支持度的虚假规则 。经过验证后,我们可以自动删除虚假规则,得到最终的规则 Prh。

最终的规则可以用于逻辑推理和解决下游任务,例如知识图谱补全,通过应用现有的算 法,如前向链接。

五.   实验

对于 ChatRule,我们分别使用 ChatGPT1 和 GPT-43 作为规则生成和验证的 LLM。我们选择 PCA 置信度作为最终的规则排名指标,并将最大规则长度 L 设置为 3。

知识图谱补全是一个经典的任务,旨在通过使用基于规则的逻辑推理来预测缺失的事实。这 个任务已经被各种现有的规则挖掘方法(如 Neural-LP 、 RLogic 和 NCRL) 采用, 用于评估 生成规则的质量。我们采用每种方法生成的规则,并使用前向链接来预测缺失的事实 。结果如表 2 所示。

从结果中, 我们可以观察到 ChatRule 在所有数据集上始终优于基准方法 。具体来说, 传统 方法 AIME 只利用归纳逻辑编程中的结构信息, 已经取得了相对较好的性能 。但是,在大规 模知识图谱(例如 FB15K-237 和 YAGO3 -10) 中,AIME 的性能下降, 因为关系和三元组数 量增加 。最近基于深度学习的方法(如 Neural-LP 、DRUMP 和 RNNLogic)通过利用神经网 络的能力获得了更好的性能。然而,由于规则搜索空间的复杂性,它们在处理大型知识图谱 时很容易出现内存不足的问题。尽管先进的方法(如 RLogic 和 NCRL)通过采样闭合路径来 减少搜索空间, 但它们仍然忽略了关系的语义, 导致性能不佳 。相比之下, ChatRule 可以 通过融合知识图谱的结构和语义信息生成高质量的规则 。 因此, ChatRule 在所有数据集上 都可以取得最佳性能。

为了进一步证明规则排名中采用的四个度量(支持度 、覆盖度 、 置信度和 PCA 置信度) 的 有效性,我们使用它们来评估每种方法生成规则的质量 。结果如表 3 所示。

对比基准方法, 我们可以观察到 ChatRule 可以生成具有更高支持度 、覆盖度和置信度。具体来说,我们可以观察到度量标准的分数与知识图谱补全的性能一致。这证明所选的度量标准可以很好地量化规则的质量 。此外, ChatRule 生成的规则质量也优于  基准方法。值得注意的是,即使 ChatRule(ChatGPT)在 YAGO3 -10 的支持度和覆盖度得分  更高,但它的知识图谱补全结果仍然被 ChatRule(GPT-4)超过。原因是 ChatRule(GPT-4) 生成的规则具有更好的 PCA 置信度, 更适合评估不完整的知识图谱中的规则 。更高的 PCA   置信度分数表示 ChatRule(GPT-4)可以生成具有更好泛化能力的规则,而不仅仅依赖于提  示中提供的采样规则 。因此,ChatRule( GPT-4)可以在知识图谱补全任务中取得更好的性能。

参考文献

[1] Linhao Luo. ChatRule: Mining Logical Rules with Large Language Models for Knowledge Graph Reasoning[J]. arxiv, 2023, arXiv:2309.01538.

内容编辑:创新研究院 卜天
    责任编辑:创新研究院 舒展

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我


文章来源: https://mp.weixin.qq.com/s?__biz=MzIyODYzNTU2OA==&mid=2247497272&idx=1&sn=9263a25aadfaf0d5ff9d98c6f829c52e&chksm=e84c50e7df3bd9f1a7c336d920479c9f9d4442a5fc7e8181b0dcc134d60cdf4e3abd9ad1bf41&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh