【开源情报】谷歌地图黑客揭秘
2023-9-10 23:49:37 Author: mp.weixin.qq.com(查看原文) 阅读量:2 收藏

【摘要】

虚假信息在网络上的持续传播,导致对自动事实核查工具的巨大需求,以帮助机构和从业者检查网络内容的真实性。现有文献为特定任务提供了许多解决方案,例如文本事实检查或图像/视频真实性,这些解决方案与开源情报(OSINT)工具和原则的可用性一起,为新的综合解决方案铺平了道路。这项工作介绍了一种基于知识图的方法,用于事实检查和新闻揭穿。其思想是将利用OSINT的事实检查工作流活动映射到来自Web和社交媒体监控的特定场景。通过文本挖掘和语义分析技术对数据源进行分析,构建参考知识图谱。最后,进行了一个真实的案例研究,以显示该方法对事实核查目的的适用性。

1. 介绍

互联网上未经核查的信息(假新闻、谣言等)日益泛滥,可能会产生病毒式传播的内容,对现实社会的民意和平衡产生负面影响。虚假内容很容易在社交媒体(如Reddit、Facebook和Twitter)、新闻网站和博客上分享,并可能通过链接分享和发布在其他社交社区或网站上进一步传播。当最终被证明是虚假的时候,虚假内容已经在公众中引起了不必要的恐慌和焦虑。例如,在covid大流行的早期阶段,有人说,在城市内,covid -19感染密度的空间分布与5G塔的密度相关,这表明它们之间可能存在相关性。当然,这两种现象之间没有相关性,但假新闻的传播引起了观众的焦虑,为新的毫无根据的阴谋论铺平了道路。

事实核查技术可以用来防止虚假信息的扩散和人们由此产生的焦虑。具体来说,这些活动被认为是为了澄清所呈现的主要虚假信息,从而迫使接受者更深入地思考已发布的事实。为了证明内容的虚假,需要进一步收集与新闻相关的数据,并对它们进行比较,以发现一些不一致之处。新闻揭穿是一项多层次的任务,因为它不仅需要检查新闻/帖子内容的真实性,还需要检查日期、地点、来源和出处。在这方面,一些OSINT工具和服务可以帮助事实检查人员在网上查找信息。例如,谷歌地图(Google Maps)的街景地图(Street View)提供了一个获取被引用地点图像的机会,以检查所发布图像中的元素;Google Lens可以从发布的图片中找到元素,比如推荐其他用户或网站发布的地点或图片的功能,这些功能提供了有意义的信息,可以支持分析。

尽管有这种数字支持,但证明内容的真实性可能是一项非常有压力的任务,因为人类需要花费精力检查与新闻相关的多个特征,并选择首先关注哪个方面,或者搜索哪些数据以发现分析的独特元素。因此,问题出现了:首先要检查的元素是什么(例如,出处、来源、内容等)?事实核查员应该考虑和检索什么样的数据来证明事实的真实性?这些活动能否以一种独特的方式组织起来,以执行可靠的事实核查?

本研究试图通过描述和应用一种认知方法来回答这些问题,该方法描述了需要考虑的各个阶段,需要获取的数据,以及基于先前关于类似事实或事件的知识执行事实检查的不同OSINT技术。该方法利用知识图谱,通过对考虑的内容片段进行文本挖掘和语义分析构建,并指导选择合适的事实检查活动。通过艺术家Simon Weckert进行的一项实验,对真实新闻进行了完整的案例研究,证明了所提出模型的功能,该实验包括用模拟交通拥堵欺骗谷歌地图服务。论文贡献包括基于知识图谱的事实核查内容的认知方法。特别是:
  • 知识图谱利用了文本挖掘和语义分析;
  • 知识图谱根据经验建议合适的操作(在事实检查工作流中的操作);
  • 知识图谱收集专家的反馈来训练知识图谱;
  • 定义了一个新的本体模型 (Debunking Model) 来表示领域特定的概念;
  • 本体模型有助于识别证据片段之间的不一致性;
  • 语义分析包括继承现有本体并将其与本作品中描述的本体相结合。
  • 该方法的适用性已通过事实核查的实际例子得到了证明。
本文的其余部分组织如下:第2节提供相关工作,第3节介绍了拟议的事实核查认知方法,第4节在实际案例研究中展示了其潜力。结束语是本文的结尾。
2. 相关工作
许多方法探索了事实核查技术,以发现不同类型的虚假信息形式。特别是一些作品,侧重于揭穿社交网络上的谣言进行分析行为或探索特定的特征,例如揭露虚假评论或使用拒绝来增加分享和传播潜力。其他的研究集中在谣言传播和揭穿之间的相互作用。最终以一个模型来确定何时需要揭穿应用程序或最有效。
其他类型的研究侧重于设计自动化或半自动的事实核查工具,例如马丁引入了基于语义相似度和自然语言推理的模型来执行多语言事实检查和恶作剧传播监测。在其他情况下,这个想法包括比较不同可信度水平的不同来源,或者分析新闻认知中可能存在的偏见,并探索党派倾向如何影响事实核查的新闻选择算法。
其他一些作品利用知识来实现更稳健的事实核查,如Zhu提出了一种将Wikidata5M知识图和维基百科文档相结合的方法,将外部知识纳入声明中。此外,Seddari的论文介绍了一种结合语言和知识特征的混合假新闻检测系统,用于识别社交网络上的假新闻。
与现有文献相反,这项工作提出了一种认知方法,其知识图谱(KG)根据经验建议适当的行动(在事实检查工作流程中的行动),同时收集专家的反馈来训练知识图谱。此外,将所提出的方法应用于现有的案例研究,以检验其在揭穿和事实核查方面的适用性。
3.提出的方法
本文提出了一种由构建和维护知识图谱(KG)组成的方法,以在事实检查工作流所描述的活动中建议合适的事实检查活动。知识图谱使用来自Web和社交媒体的数据(参见图1)以及专家的反馈。以下小节详细介绍了建议方法中使用的知识图谱和工作流程。

3.1. 用于事实核查的知识图谱

如前所述,所提出的方法是基于知识图谱(KG),该知识图谱由网络或社交媒体上注意到的建议、疑问或怀疑提供。这个想法包括识别兴趣来源(例如,Facebook页面,Twitter帐户等),并不断监测其演变,主要是关于特定主题。可以通过抓取这些页面并应用结合语义分析的自然语言处理(NLP)技术来提取相关的建议。方便处理和概念化的建议填充知识图谱,并为后续的事实检查活动提供指导。此外,专家的选择和决策进一步促进了知识图谱的成长和更新。例如,假设专家实现了新闻方面和工作流阶段之间的相关性:这种直觉提供了图形。

图的构造利用了NLP技术和揭穿模型进行语义分析。揭穿模型由一个本体论模型组成,该模型与工作流中涉及的主要方面相关,以接口和分析收集到的关于文章或帖子的数据(即容器、内容、用户配置文件等)。本体建立在最先进的本体之上,分别对撰写和共享web内容的人的知识、与内容相关的时间和空间信息以及人的活动进行建模。添加到现有本体中的新类和属性表示事实检查和揭穿活动中涉及的主要方面,如图2所示,并总结如下:
类Container及其子类Website表示共享内容的网络空间。
类Publication表示发布的内容,可以是新闻站点上的文章(article),也可以是社交网络上的文章(Social Network)。帖子或文章的元素,如文本、照片、链接和视频,都表示为内容片段的实例。
类帐户表示在网站上撰写和共享特定内容(例如文章、帖子)的人员。

此外,图2还展示了基于第4节中描述的案例研究的本体实例化的简化示例。
3.2. 核实工作流程
主要来自重要新闻机构的事实核查专家分享了许多旨在评估内容可信度的提示。特别是,本节中描述的Urbani建议的工作流利用了开源情报(OSINT)基础。OSINT工具通过收集和分析公开可用的信息,可以提供帮助,例如,证明图像的所有权或确定图像中的位置。该过程主要包括验证内容的出处、来源、日期、位置和动机。
特别是:出处确保引用原始文章或内容。找到来源是指确定谁创建了原始内容。日期是指创建内容的时间。位置标识了捕获内容片段的位置。动机的目的是考虑是什么导致了内容的捕获。每个支柱都有助于更好地理解内容及其可靠性。下面的小节详细介绍了每个支柱。寻找内容的来源意味着检查其原始形式,以便更容易地理解是谁发布的,何时,何地以及为什么发布。发现原始内容的技术取决于内容的类型。
例如,反向图像搜索,包括在大型数据库(例如,Google Images)中搜索内容,可以是图像的解决方案。在视频的情况下,来自视频的一帧可以通过反向视频搜索进行反向图像搜索。在某些情况下,通过其他策略找到原创内容是困难的;在更私密和匿名的地方搜索可能会有所帮助。比如reddit、4chan、Discord5,以及Twitter和Facebook。
内容的来源(即所有者)可以是其可靠性的有效指示。然而,由于每个人都可以在互联网上转发他人撰写或捕获的内容,因此必须确定其真正的“所有者”。
一旦找到第一个上传者,我们应该了解内容是否与作者的地理位置、其他共享内容等一致。特别是,调查作者的社交账户,对账户图像进行反向图像搜索,在Google中搜索共享的帖子以了解是否有嵌入内容,等等,这可能会很有趣。
此外,检查声明的电子邮件地址是否与任何用户相关联(例如,通过Skype)可以帮助确定来源的可信度,例如,确保它不是一个自动帐户(即机器人)。在这方面,可以使用特定的技术(例如,学习模型),或者可以注意每天发帖的数量,以及一段时间的沉默是否与夜间休息有关。
查找日期意味着确定原始内容的创建时间。起始点引用与文章或文件元数据相关联的时间戳,例如,在图像文件的情况下,引用Exif(可交换图像文件格式)。然而,由于这些类型的元数据并不总是可用的,一些进一步的检查可以包括观察视频/图像来了解一年中的时期。从这个意义上说,方便的工具是:
  • SunCalcf。它允许在特定的一天在特定的地点观看太阳的角度,这可以帮助识别与照片或视频中事件相关的时间。
  • Wolfram Alpha 。它是一个计算知识引擎,除其他功能外,它使您能够查找特定日期的天气。这样,就可以在声明的日期和该日期的天气之间进行检查。
地点识别也可能出现日期重建方面的类似问题,因为地理标签并非总是可用,可能无法准确反映内容中提供的位置。在图像或视频中寻找具体细节,并利用卫星图像进行研究,可能有助于实现这一目标。例子包括寻找广场、标志、旗帜、横幅等,试图将一个位置与图片或视频联系起来。此外,口语和衣着也会有所帮助。但是,应特别注意图像的更新水平和该地区的最新事件,考虑到可能对地形产生重大影响的最近的当地事件(例如战争或极端恶劣的天气)。
关于动机,我们很难找到共同的线索:这个过程完全取决于所考虑的内容。然而,一般来说,找到相关人员的隶属关系或社区,并在可能的情况下尝试直接与他们交谈,可能会有所帮助。通过分析对文章/新闻、推文和引用文章的其他网络资源的评论,提取新闻事实的上下文,可以更好地描述动机。
4. 案例研究
第3节中描述的基于kg的方法已经在德国艺术家Simon Weckert的实验案例研究中得到了证明,他带着一辆装有99部智能手机的小货车走在柏林空荡荡的街道上,每个智能手机都运行GPS地图服务。艺术家的目的是通过利用大量的设备、它们的距离和马车的缓慢移动来模拟一个虚假的交通拥堵事件。这位艺术家在他的个人博客上发表了一篇名为《谷歌地图黑客》的文章,介绍了这个实验,并在《算法如何创造和防止假新闻》一书中进行了报道。
案例研究的目的是质疑一些技术方面的实验,作者没有充分描述。按照第3节中提出的方法,我们试图提取有用的信息来了解实验的可行性。特别地,案例研究从在Web上识别有关实验本身的相关建议开始,以了解工作流的支柱是什么。此外,每个支柱调查都有助于填充揭穿模型,如图2所示。最后,KG揭示了研究结果之间的不一致性。下面的小节详细介绍了所分析的每个支柱。
4.1. 出处
有关实验的新闻出现在许多新闻网站和博客上;然而,我们关注的是韦克特网站上发布的原始图片和信息。
4.2. 来源信息
信息来源是艺术家本人,他在自己的个人网站上发布了有关实验的信息。然而,通过交叉搜索,我们也找到了他的Twitter账户,从中我们也找到了实验本身的发布日期。发布这个实验的推特引起了很大的共鸣。特别是,其他推特用户的评论质疑了实验的技术模式。例如,他们对所采用的设备、互联网连接和可得性表示怀疑(见图3);韦克特没有澄清所有的因素。下面,对这方面进行进一步的研究。

由于描述所采用的智能手机的图片(参见图4)不足以发现设备细节,因此我们探索了Web以查找其他有用的信息。在Arte TV10发布的一段视频中,我们看到了图5中的图像,从中可以更好地看到智能手机。第一个评论是关于图4和图5中智能手机屏幕的区别:在图5中,尽管在实验执行中缺乏光线,但屏幕更暗,更不可见。

为了获得更多关于设备的信息,我们通过Google Lens搜索了相似的图像,得到了智能手机的型号。它是华为Mate 20 Pro,是2018年发布的一款特别昂贵的机型。因此,韦克特购买了所有这些昂贵设备的假设很难让人相信。相反,许多人认为他租用或购买了二手设备;无论如何,他没有提供更多的细节。
为了获得更多关于设备的信息,我们通过Google Lens搜索了相似的图像,得到了智能手机的型号。它是华为Mate 20 Pro,是2018年发布的一款特别昂贵的机型。因此,韦克特购买了所有这些昂贵设备的假设很难让人相信。相反,许多人认为他租用或购买了二手设备;无论如何,他没有提供更多的细节。

通过在Wolphram Alpha上的搜索,在给定的日期,天气与照片中的条件一致。此外,太阳的方向,通过太阳计算,是一致的光在图片中。

4.3. 从Weckert的网站上

目前尚不清楚该实验是何时进行的。唯一可用信息是在Twitter上发布新闻的日期(即2020年2月1日)。因此,通过FotoForensics11工具,我们提取了图像元数据,对于图6中的图片(即未随后修改),这些图像元数据报告的创建日期为2019年10月6日。对于图7中的图像,只有修改日期可用,即2019年10月14日。通过在Wolphram Alpha上的搜索,在给定的日期,天气与照片中的条件一致。此外,太阳的方向,通过太阳计算,是一致的光在图片中。

4.4. 位置

关于位置识别,我们先验地知道Weckert在德国柏林进行实验。然而,在实验描述中,确切的覆盖距离和访问的主要街道被报道为不清楚。因此,为了进一步分析实验的可行性,我们实现了一个场景分析重构路径,如下所述。

通过利用图片元数据,我们知道图片的时间顺序,如图6所示。此外,从图7的图像中,我们可以提取出经过的街道(通过Google街景搜索,也可以与相关图像匹配):
席林桥
迈克尔布吕克
Ziegelstraße 和 Ebertbrücke
发现图6图片中报告的位置需要通过Google Lens和Google Street View的协同作用进行深入分析。特别是,我们可以认识到,按时间顺序:
  • Mittelstraße盖施
  • 维斯特-肖尔大街
维斯特-肖尔大街图6中的第三个位置无法识别,因为没有可识别的位置。
在被引用的地点中,最长的路径在3到4公里之间(取决于所选路径的类型)。从这个意义上说,让我们注意到,在Weckert站点上显示的地图上,当交通模式打开时,路径显示为沿着路边的全绿线,如图8中最左边的图像所示。由于这种配置存在于按脚显示路径的地图中,我们假设谷歌地图已经检测到人们在路上行走的智能手机;否则,结果将如图8右图所示(即,智能手机将被视为99辆车)。根据谷歌地图(Google Maps)收集出行过程中的数据(即使用的设备类型和平均速度),尽管存在管理虚假账户的可能性,但该服务不会错误地将99部智能手机视为99辆车。此外,该服务将99台设备视为人的假设似乎也不可信。

4.5动机

西蒙·韦克特通过他的网站表达了他对数字世界及其对社会方面的反映的迷恋。他的目的是从未来几代人的角度来评估技术的价值。艺术家的哲学与实验的本质是一致的。

5.结论

本文提出了一种基于利用OSINT工具和原理以及领域本体的知识图谱的事实检查web内容的认知方法。特别是,该方法考虑了获取和事实核查信息的最先进的技巧和相关工具。获取的数据在每个工作流程阶段都可以方便地进行注释和分析,以确定不同方面(即网站,帐户配置文件,文章和内容)之间的不一致性,从而允许情报事实检查活动。提出的方法被应用到一个真实的案例研究中,该实验是由艺术家Simon Weckert进行的,包括用模拟交通拥堵来欺骗谷歌地图服务。本个案研究旨在展示建议的方法的实际潜力,以支持从业者和事实核查人员通过多方面的事实分析来确定网络内容的真实性。在未来,自动化支持技术任务(例如,KG的实现和查询)以及内容识别、提取和注释的整个工作流将是很有趣的。

上述资料原文及机器翻译已上传知识星球

    长按识别下面的二维码可加入星球

    里面已有8000多篇资料可供下载

    越早加入越便宜

    续费五折优惠


文章来源: https://mp.weixin.qq.com/s?__biz=MzI2MTE0NTE3Mw==&mid=2651138645&idx=1&sn=5095e81ef3a2fadfb9b37d46b46d86e5&chksm=f1af5d6fc6d8d479acf5dd8d44e8fb0efa0d21a0f97ccbb847119bc33d5394d832eb16cacdf3&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh