[研究目的]信息技术的发展丰富了社交媒体用户的沟通交流方式,研究社交网络舆情多模态知识图谱的构建对网络舆情治理具有重要的现实意义。[研究方法]基于多模态数据的语义互补,讨论了实体属性关联、图像(视频)文字描述、图像(视频)属性、图像(视频)关联等多种异构数据融合方式。在此基础上,提出社交网络舆情多模态知识图谱的构建框架,并分析了在多模态语义理解、多模态实体对齐、多模态知识表示等方面存在的问题与挑战。[研究结论]提出基于多模态知识融合的社交网络舆情多模态知识图谱构建框架,为交互方式日趋丰富的社交网络舆情治理提供有益参考。关键词:社交媒体;多模态;多模态知识图谱;多模态数据;网络舆情;舆情治理;情感分析随着移动互联网的迅速发展,社交媒体平台作为桥接物理和虚拟世界的信息通信工具,逐渐成为网民表达诉求、观点和情绪的渠道之一,例如微博、微信、抖音、小红书等。这些平台提供了丰富的多媒体展示空间,网民不再仅仅局限于采用单一模态的文本信息,而是综合使用文本、图像、视频等多种模态信息。各种不同模态数据之间相互呼应和补充,极大地丰富了人们的感官和认知。在这种背景下,仅以文本数据作为知识来源的传统知识图谱将不能全面客观地反映现实世界的真实状态,需要各种不同模态数据之间进行语义上的补充。多模态知识图谱(Multi-modal Knowledge Graph,MMKG)可以将不同模态的数据(如文本、图像、视频等)融合在一起,构建跨模态的实体以及语义关系, 丰富只包含文本数据的传统知识图谱。但是由于不同模态数据之间存在语义鸿沟,而且数据结构差异性较大,数据之间不能直接融合。所以,如何利用丰富的多模态数据构建社交网络舆情多模态知识图谱成为一个关键且具有挑战性的问题。由于缺乏有效的提取技术,早期的知识图谱主要是基于文本数据构建的,例如维基百科。随着计算机视觉和多模态学习研究的深入,提取视觉数据成为可能。视觉数据能够为多模态知识图谱提供更加丰富的实体信息,帮助人们更好地理解实体的含义和特征,以及不同实体之间的关联。
ImageNet 等数据集的出现为构建通用多模态知识图谱提供了基础。然而,由于图片搜索的准确性较低,有学者提出对图片增加文本标注,并进行知识库存储的方法,以此来提高图片搜索的质量。早期的多模态知识图谱主要是基于这种方式进行构建的。根据知识图谱构建的目的和应用领域不同,一般将知识图谱分为通用知识图谱和领域知识图谱两大类。下面分别介绍通用多模态知识图谱和领域多模态知识图谱的研究现状。表 1 所示是现有部分通用多模态知识图谱,这些知识图谱主要采用文本和图像模态数据构建。早期的Wikidata主要是以嵌入式链接的形式提供多媒体文件,并没有提取多媒体文件本身的视觉特征。IMGpedia开始尝试对视觉内容进行描述,但图片之间的关系仍然较为单一,没有进行深入的挖掘。MMKG对Freebase15k、YAGO15k 和 DB15k 三个知识图谱进行了实体对齐,但规模较小,缺乏对图像多样性的考虑。Richpedia 是国内 Wang 等人提出的代表性工作,利用图像的文字描述提取图像中的实体,同时增加了图像实体之间的语义关系。随着通用多模态知识图谱的发展, 越来越多的领域专家开始尝试将多模态技术应用于领域知识图谱中。李直 旭、 茶 思 月 等 构 建 了 多 模 态 教 学 知 识 图谱,孟卓宇构建了多模态生长发育知识图谱,彭京徽等构建了军事装备领域多模态知识图谱,付国华等构建了基于多模态矮小症辅助诊断知识图谱,郭利荣构建了汽车行业多模态知识图谱。然而,社交网络舆情领域的知识图谱绝大多数仍以单模态文本数据为主,例如于凯等构建的突发事件网络舆情事理图谱、夏立新等构建的网络舆情主题图谱、王晰巍等构建的意见领袖主题图谱、安璐等构建的跨平台知识图谱等均是以文本数据作为数据来源,进行实体和关系的抽取,从而对网络舆情事件的主题、网络结构以及舆情事件的演化进行分析。由此可见,现阶段针对社交网络舆情多模态知识图谱的相关研究还比较缺乏。基于此,本文首先介绍多模态知识图谱涉及的相关概念,然后在分析社交网络舆情不同模态数据间语义互补方式的基础上,探讨多模态数据的融合方式和构建框架,并进一步分析多模态知识图谱构建过程中存在的困难与挑战,为多模态知识图谱在社交网络舆情领域的相关研究和应用提供参考。在多模态知识图谱的构建过程中,涉及多模态数据、多源数据、异构数据和多模态知识等多个概念,概念的内涵和外延决定了它们之间具有不同的关联关系。多模态是指使用不同的输入和输出来进行交互和传达信息的方式,通常包含文本、图像、视频、音频等不同的数据形式,用以提高用户的交互体验和信息传达的效率及准确性。由于社交网络舆情领域的数据模态主要以文本、图像、视频为主,所以本文主要讨论这三种数据模态。多源数据是指数据的来源不同,例如有的数据来源于微博,有的数据来源于抖音。所以多源数据和多模态数据之间并不存在直接的关联。通常情况下,用于构建多模态知识图谱的多模态数据可以从单一数据来源中抽取,也可以从多源数据中抽取。不同来源的多模态数据,语义的互补方式可能存在差异,在进行多模态数据表征学习时应该进行综合考虑。异构数据是指数据的结构和存储方式不同,例如表格数据属于结构化数据,XML 和 HTML 属于半结构化数据,图像和视频属于非结构化数据。对这些数据进行预处理之后,需要分别存储在关系型和非关系型数据库之中。由于多模态数据含有文本、图像、视频等多种不同的表达形式,所以多模态数据属于异构数据。知识来源于人们对客观世界的认识和理解。在传统的知识图谱中,文本模态知识通常被表示为 RDF 三元组的形式,例如 x1(h,r,t) ,其中 x1 代表某一种模态, h 代表头实体, t 代表尾实体, r 代表头实体和尾实体之间的关系。知识可以来源于单一的文本实体与关系,也可以来源于多个文本实体与关系的组合。从多个三元组中获取的文本模态知识 k1 可以表示为 f(k1 ) = x1( h1 ,r1 ,t1 ) + x1(h2 ,?,t2 ) + x1(h3 ,?,? ) ,其中 ? 代表不完整RDF 三元组中的未知元素,即文本模态知识 k1 可以包含完整和不完整的三元组组合。以此类推,从多个 RDF 三元组中获取的图像模态知识 k2 可以表示为f(k2 ) = x2(h1 ,r1 ,t1 ) + x2(h2 ,?,t2 ) + x2( h3 ,?,? ) ,音频模态知识 k3 可以表示为 f( k3 ) = x3( h1 , r1 , t1 ) +x3(h2 ,?,t2 ) + x3(h3 ,?,? ) 。由于视频一般可以分解为图像和音频,所以视频模态知识可以认为是图像模态知识和音频模态知识的组合。多模态知识图谱中的数据属于异构数据,知识的复杂度要高于单纯的文本知识。多模态知识需要从不同模态数据中抽取语义知识,然后根据其一致性或互补性进行特征变换和融合得到。所以,多模态知识 k4可以表示为 f( k4 ) = x1( h1 , r1 , t1 ) + x1( h2 ,?, t2 ) +x1( h3 ,?,? ) + x2( h4 , r4 , t4 ) + x2( h5 ,?, t5 ) +x2( h6 ,?,? ) + x3( h7 , r7 , t7 ) + x3( h8 ,?, t8 ) +x3(h9 ,?,? ) ,其中 x1 代表文本模态, x2 代表图像模态, x3 代表音频模态。在网络舆情事件中,社交媒体用户通过发表跟舆情事件相关的博文或评论来表达自身的观点、情感和诉求,发表的内容可能包含文本、图像、视频等多种模态的组合。理解不同模态数据间的语义互补方式,有助于进行网络舆情相关事件检测和情感分析,挖掘多模态数据中的隐含信息。仅利用文本信息进行事件检测的方式已经无法适应当下网络舆情事件表达的多样性。例如,在 2021 年7 月 20 日发生的“河南遭遇特大暴雨”事件中,根据“知微事见”平台的统计,网络舆论峰值传播速度达到了 10577 条/ 小时,引起了社会各界的极大关注。其中一条微博信息如图 1 所示,包含文本和视频两种数据模态。图 1 中的文本包含事件的细节内容,例如,暴雨的发生时段为 7 月 20 日,地点为河南郑州。从文本中,我们仅能获悉暴雨导致“市区积水严重,地铁关闭,铁路停运”,但头脑中并不能产生直观的场景,也很难意识到这场暴雨所带来的灾难性后果。然而,文本下面的视频却提供了更多关于暴雨的真实场景和更加丰富的信息。图 2 中是视频关键帧截图,( a) 是电动车骑行人员艰难前行,( b)是车辆被洪水冲走,( c)是地铁站湍急的积水,(d)是救援人员乘坐冲锋舟救援,这些图像对人的视觉产生了强烈的冲击,不仅印证了文本中的内容,并且补充了文本中缺失的信息。从视频中可以看到,区别于普通的暴雨,此次暴雨导致了严重的城市内涝,很多室外人员身处危险之中,急需救援和物资帮助。所以,通过文本、图像和视频在内容上的相互关联和呼应,快速捕捉到舆论信息所反应的现实世界的真实状态,能够帮助我们更好地进行网络舆情事件的检测,从而可以及时做出相应地处理和响应。
3. 2 情感分析
在网络舆情的分析中,社交媒体用户的观点和情感,是实时态势最直观的反映。随着舆论信息的短文本化和多模态化,基于文本的语义挖掘在用户观点和情绪抽取方面的表现面临越来越大的挑战。
图 3 所示是在“河南遭遇特大暴雨”事件中,用户发布的一条短文本、多模态的微博内容。文本信息很短,只有一句简单的描述:“郑州遭遇特大暴雨,火箭军驻豫部队及时赶到转移福利院儿童”。 基于常规的文本挖掘技术,很难抽取其中用户的观点和情感。文本下方的视频则提供了更加丰富的内容,通过对视频关键帧信息的分析,可以获悉本条微博内容表达了对火箭军及时赶到,并转移福利院儿童的感激之情,并且用户对战胜灾害充满信心。
所以,从不同的角度和层次抽取社交媒体多模态数据中的信息,然后进行特征变换和语义上的融合,能够获得比单一模态更加丰富和准确的信息,从而为社会治理提供决策支持。
4 多模态知识融合
构建多模态知识图谱的一个关键问题是除文本数据外,其它模态的数据以何种形式在知识图谱中进行表示,即存在单模态特征表示和多模态特征融合的问题。分析常见社交媒体平台中网络舆情信息的特点,总结出常见的信息模态组合方式通常为文本-图像、文本-视频、文本-图像-视频。下面以突发自然灾害事件“河南遭遇特大暴雨”为例,选取社交媒体平台中的部分多模态数据进行融合方式的说明。
4. 1 实体属性关联
将图像、视频等多模态数据的 URL 链接以实体属性的方式嵌入到传统知识图谱中,是最直接的一种多模态数据融合方式,如图 4 所示。但是在这种情况下,图像和视频中的内容并没有被提取出来,没有被作为独立的实体,只是以链接的形式直接被添加到知识图谱中。
4. 2 图像(视频)文字描述
图像(视频) 文字描述是指向传统的知识图谱中添加图像(视频) 数据的同时,还要添加描述该图像(视频)的文字描述。在图 5 中,图像和视频以实体的形式被添加到传统知识图谱中,同时增加了对图像和视频内容的文字描述,该描述同样以实体的形式被添加到传统知识图谱中。这种方式是以模态转换的形式将图像(视频)内容转换成文本内容,间接提取图像(视频)中的信息。但是这种方式不能完全获取图像(视频)中的相关属性信息。
4. 3 图像(视频)属性图像(视频) 属性是指向图 5 所示的多模态知识图谱中继续添加从图像(视频) 中提取出来的属性信息,如图 6 所示。
例如从图 6 左侧第一张图像中提取出“ 户外人员”和“被困”,将其分别以“主体”和“事件”的关系链接到相对应的图像上;从图6 中间的视频中提取出“救援人员”和“营救”,将其分别以“主体”和“事件”的关系链接到相对应的视频上。 这样可以增加知识图谱中实体和关系的数量及复杂度,有利于在下游应用中进行知识搜索和推理。但是,这种方式的数据融合,图像(视频)与图像(视频)之间仍然缺乏直接的关联。
4. 4 图像(视频)关联
图像(视频) 关联是指直接建立起多模态知识图谱中不同图像(视频)间的关联。在图 7 中,将中间视频与左右两边图像的关系设定为“救援”。 这种融合方式增加了图像(视频)之间的关联关系,提高了不同模态数据之间的关联度,这样不同模态的数据之间都能够直接进行知识搜索和推理,提高了图谱搜索和推理的灵活性和全面性。
5 图谱构建框架
根据社交媒体舆情数据分析和图谱构建的需求,可以将多模态知识图谱的构建步骤分为数据获取、数据处理、知识抽取、知识融合和图谱应用五个部分,如图 8 所示。
社交媒体平台中通常包含丰富的多模态数据,针对特定的需求,可以采集单一来源数据或者多源数据。常见的社交媒体多模态数据类型有文本、图像和视频。由于不同数据模态的处理技术存在差异性,这里将视频中的音频提取出来单独作为一种数据模态进行处理。采集到的原始数据可能存在空缺值、无关值、重复值等问题,需要进行数据清洗。数据清洗包括去除空缺值、去除无关值、删除重复值等步骤。然后,根据数据模态的差异,将数据进行分类存储。例如可以将结构化数据存储在关系型数据库中,将半结构化数据存储在 NoSQL 数据库中,将非结构化数据存储在对象存储中。存储在数据库中的数据还需要进行质量检测,以确保数据的准确性、完整性和一致性。不同数据模态之间存在着巨大的差异,为了后续更加全面的进行实体和关系抽取,需要将图像、视频和音频数据进行多模态的转换。图像数据的模态转换是指根据图像生成描述文本和场景图,从而帮助计算机理解图像的内容和语义。基于图像的文本生成又称为图像描述生成,是指让计算机根据图像生成语法正确,且能够描述图像视觉内容的自然语言,实现从图像到文本的模态转换。图像描述生成的方法主要分为两类:基于模板的方法和基于深度学习的方法。基于模板的方法使用预定义的句子模板和规则,根据图像的内容填充相应的词语和短语,生成描述文本。而基于深度学习的方法则使用深度神经网络模型,通过学习大量的图像-文本对,将图像映射到一个语义空间,从而生成描述文本,而后进行三元组信息提取。场景图是一种图结构,由节点和边组成,每个节点表示一个对象,每条边表示两个对象之间的关系,用于描述图像中的对象、关系和属性。场景图的生成通常基于深度学习算法进行目标检测和图像分割。首先,通过目标检测算法识别图像中的对象,并提取它们的位置和类别信息。然后,通过图像分割算法对每个对象进行像素级别的分割,得到对象的精确边界。最后,根据对象之间的空间关系和语义关系,构建场景图的节点和边。视频是包含时间序列信息的一系列图像,视频数据的模态转换是指将视频进行序列信息处理和生成主题文本。序列信息处理是指使用计算机视觉技术从视频数据中提取出序列信息,例如视频的帧序列、动作序列、物体序列等。通过提取序列信息,可以将视频数据转换为序列数据,便于后续的处理和分析。生成主题文本是指使用自然语言处理技术分析视频的内容和语义信息,从视频数据中生成与主题相关的文本描述,例如图像描述生成、视频摘要生成等,而后进行三元组信息提取。音频数据的模态转换包括背景音处理和生成音频文本。背景音处理包括噪声消除、音频增强和混响消除,从而使音频中的有效声音更清晰或更突出。基于语音识别技术可以生成音频文本,然后和本文信息一起进行三元组信息提取。多模态知识图谱构建过程中的知识抽取是将不同模态的信息转化为结构化的知识表示,以便于在知识图谱中进行存储和查询。知识抽取的过程可以分为文本三元组的知识抽取、场景图的知识抽取、序列信息的知识抽取和背景音的知识抽取。文本三元组的知识抽取包括命名实体识别、实体消歧、文本关系抽取和事件抽取。命名实体识别是指从文本中识别出具有特定意义的实体,如人名、地名、组织机构等。实体消歧是指将同义实体进行合并,解决同一实体具有不同表述的问题。文本关系抽取是指从文本中提取出实体之间的关系,如" 人物 A 是人物B 的父亲" 。事件抽取是指从文本中抽取出事件及其相关实体和关系。场景图的知识抽取包括目标检测、特征图像提取、图像实体识别和视觉关系检测。目标检测是指从图像中检测出具有特定意义的目标,如人、车、建筑等。特征图像提取是指从图像中提取出具有代表性的特征,以便于后续的实体识别和关系检测。图像实体识别是指从图像中识别出具有特定意义的实体,如人物、物体等。视觉关系检测是指从图像中提取出实体之间的关系,如" 人物 A 坐在椅子上" 。序列信息的知识抽取包括动作检测和时间范围获取。动作检测是指从序列信息中检测出人物或物体的动作,如" 人物 A 跑步" 。时间范围获取是指从序列信息中获取事件发生的时间范围,如" 事件 A 发生的时间区间" 。背景音的知识抽取包括声音分类和语音识别。声音分类是指将背景音进行分类,如环境声、交通声等。语音识别是指将语音转化为文本表示,以便于后续的知识表示和关联。在多模态知识图谱构建过程中,从文本中抽取的命名实体和从场景图中抽取的图像实体需要进行跨模态实体对齐,使它们在知识图谱中表示为同一个实体,从而实现不同模态之间的知识共享和交互。通过跨模态实体对齐,可以使多模态知识图谱中的知识联系更加紧密,提高知识的完整性和一致性。多模态知识融合是将来自不同模态的知识进行整合,以建立一个综合的多模态知识图谱。通过将不同模态中的实体进行对齐,并根据预定义的关系建立不同模态知识之间的关联关系,从而实现知识的融合,为下游应用提供更全面和准确的支撑。基于融合后的多模态知识,可以进行跨模态的知识查找。同时,基于已有的关联关系,可以识别异常模式,从而对潜在风险进行预警。这些都是进行知识图谱质量评估的方式,从而提高多模态知识图谱的质量和可靠性。最后,将通过质量评估的多模态知识以图结构进行存储和部署。通过可视化前端,可以提高多模态知识图谱和下游应用之间的交互性,从而实现更高效的信息处理和应用。知识图谱是实现人工智能由感知智能向认知智能转变的基石。然而,随着数据对象和交互方式的多样化,新一代知识图谱的构建也面临新的机遇与挑战。多模态语义理解是指将不同模态的数据进行融合来获取丰富、准确的语义信息。但是,多模态数据之间存在异构性。这些异构数据具有不同的特征和表达方式,很难直接融合。在文本语义理解任务中,通常使用基于词向量的方法来表示文本特征,但这种方法不能直接应用于图像和视频等其它数据模态的特征提取,所以需要寻找能够更好地在多模态数据之间进行特征提取和融合的方式。此外,视觉检测领域中的目标检测技术对图像信息的识别仍然停留在感知层面,主要关注物体的位置和类别,而对于物体的细节和特征表示能力有限,很难实现细粒度、实例化的图像识别,导致无法获取深层的语义信息。所以,如何针对知识图谱本身及其下游任务,让模型可以自适应地提取有价值的特征,并进行高效融合,是进行多模态语义深层理解的关键。多模态实体对齐是指将不同数据模态中的同一实体进行匹配和对齐。但是,由于不同模态数据之间存
在着语义鸿沟,机器不能自动识别跨模态数据间是否为同一实体。基于深度学习的处理技术虽然可以对任务进行辅助,但是依赖于大量的人工标注数据对模型进行预训练,训练过程对计算机的算力和存储能力要求较高。所以,如何降低多模态预训练模型对人工标
注数据的依赖性,过滤噪音数据,提高其在实体对齐任务中的表现是构建多模态知识图谱的另一个关键。基于多源、异构数据的多模态知识图谱未来的发展方向是模态层次更全面、知识粒度更细、语义关联更丰富。基于此,传统的 RDF 数据模型将不能满足知识的建模和表达,亟需一种符合逻辑规则,涵盖多种数据结构的多模态知识表示方法,这是构建多模态知识图谱的第三个关键。随着互联网和多媒体技术的发展,社交网络舆情呈现出文本、图像、视频等多种模态数据共存的现象,不同模态数据之间相互呼应和补充。所以,如何将不同模态的数据(如文本、图像、视频等)融合在一起,构建跨模态的实体以及语义关系, 丰富只包含文本数据的传统知识图谱,是亟需解决的重要问题。本文在分析通用和领域多模态知识图谱研究现状的基础上,提出社交网络舆情多模态知识图谱构建框架。在多模态知识图谱的构建过程中,多模态数据可以从单一数据来源中抽取,也可以从多源数据中抽取。多模态数据属于异构数据,所以获取多模态知识需要将异构数据进行特征变换和融合。多模态数据的融合方式包括实体属性关联、图像(视频)文字描述、图像(视频)属性、图像(视频)关联等。基于此,本文将社交媒体舆情多模态知识图谱的构建框架分为数据获取、数据处理、知识抽取、知识融合和图谱应用五个部分,并进一步讨论了多模态知识图谱构建过程中多模态语义理解、多模态实体对齐、多模态知识表示等方面存在的问题和挑战。作者简介:何巍,女,1986 年生,博士,讲师,研究方向:网络社会治理、数据分析。