互联网泄密追踪过程中的“神探”
星期四, 三月 19, 2020
冯静 / 中孚信息(北京)研究院
2020年农历庚子年,一场突如其来的疫情打断了很多中国人的春节团圆梦。“新冠疫情”一次又一次打败流量粉丝,跻身热搜排行榜前列。疫情中多少感人事迹,特别是医务工作者作为“逆行者”勇担重任,冲在防疫最前线。其中有一个职业引起了我们的关注,他们并不在抗疫最前线,被称为战“疫”路上隐形的“逆行者”,低调的“排雷人”,但对阻断传染链条骑着举足轻重的作用,他们就是被称为疫情追踪过程中的“神探”——流行病学调查员。他们有着从足丝马迹中发现传染过程的本领,每一次流行病学调查都是一次与病毒威胁“斗智斗勇”的过程,就像侦探查案一样,整个过程一定要找到证据,建立起一个完整的证据链,环环相扣,在所有的证据链全部都符合的情况下,才能下结论,在这样严密的追溯下,隐藏再深的威胁源头,也能现出原形,正是有了他们,才在找到传染源,摸清传播链,真正控制住疫情的传播。
网络安全领域,也有很多这样的威胁,比如网络窃密。当今时代,许多行业的信息存储和传输全部都依赖于互联网,在这样的背景下,网络窃密成为这些行业信息安全的首要威胁。特别是我国的党政军机关和重要的企事业单位,一旦这些专有计算机遭到网络窃密攻击,将严重影响我国政治、经济、文化的和谐发展。发现失泄密线索,追踪溯源,找到窃密源头,是一项重要的“侦查”工作,越早发现,越能更快控制泄密范围,阻断泄密途径,保护国家和企业秘密安全。
当前,网络已成为窃密和反窃密斗争的主战场、失泄密的重灾区,保密防范和管理的难度越来越大。国际上通常使用“未授权信息”来描述涉密信息,美国国家安全局的定义是“把机密信息泄露给无涉密权限的人”。据前中央情报局局长罗伯特·盖茨统计,美国每年有多起泄密事件发生。自冷战开始以来发生的大型泄密事件包括“五角大楼文件事件”“猪湾事件”“伊拉克战前情报泄密”“常春藤铃事件”“亚速尔岛人行动”等等,以及后期发生的“维基解密事件”和“斯诺登事件”。
我国网络失泄密情况也不容忽视,据统计我国查处的互联网泄密占泄密案件的90%以上。网络传播的特点是全球性和即时性,任何信息一旦在互联网上发布,其传播范围就无法控制。网络传播形成了去权威化和去中心化的特点,网络传播的即时性特点使得监管的重要性更加凸显。大量涉密信息的存储、处理、传输直接依托于庞大而具有脆弱性的计算机和网络系统,泄密隐患和风险大大提高。特别是在移动互联深刻影响我们生活的今天,新媒体以其在信息获取和传递方式、用户体验等方面的优势逐步取代传统媒体。2019年1月25日,习近平总书记在人民日报社新媒体大厦集体学习讲话中指出:“要从维护国家政治安全、文化安全、意识形态安全的高度,加强网络内容建设,使全媒体传播在法治轨道上运行。”近年发生的各重大网络安全事件,一再警示我们,网络空间斗争形势异常严峻复杂,必须从国家战略高度,采取切实有效措施,切实筑牢保密防线,以确保国家秘密安全、维护国家安全和利益。
大数据时代,信息传输超国界、无边界,政府已不再是信息的唯一拥有者和权威发布者,信息控制的主体多元化、分散化,信息发布、传播的渠道愈加多样化,利用大数据分析获取国家秘密和关键信息已成为开源情报工作的常态。目前现有的保密检查系统存在无法对外网违规传输涉密信息进行全面、统一、实施动态监管和追踪溯源。很多信息是在未经过严格保密审查、未进行泄密隐患风险评估,或者未被意识到情报价值的情况下发布的。网络空间信息实时管控的难度较大,很多敏感信息被随手拍摄记录并上传至网络,非实名制、匿名制等为信息源头追溯工作带来很大困难,使得事后追责机制难以奏效。
为了有效地打击在互联网上的泄密行为,需要将互联网泄密侦查与计算机取证技术相互结合。传统的计算机取证主要是采取线下取证的方式,一般是在行为发生后才进行取证,不但取证周期长,而且过程非常繁琐。由于在互联网上泄密,泄密源头难以追溯,泄密人员容易消灭证据,所以一旦泄密行为发生后,取证工作成为难题,缺乏良好的取证手段不但导致取证人员对证据的提取不够充分,而且获得的证据也存在瑕疵,使得所获得的证据证明力相对较弱。2001年的数字取证研究会(Digital Forensic Research Workshop)给出了网络取证的定义:使用科学的证明方法来收集、融合、发现、检查、关联、分析以及存档数字证据,这些证据涉及多层次的主动处理过程以及数据源的传递过程,其目的是发现有预谋的破坏行为或己经成功的非授权的攻击行为,并为应急事件的响应和系统恢复提供有用的信息。
在这个互联网应用范围越来越广的时代下,通过一种合法高效的手段,来打击互联网上的泄密行为至关重要,互联网取证是打击互联网泄密的重要方式,取证过程主要包括取证准备(Preparation)、证据识别(Identification)、证据收集(Collection)、证据分析(Analysis)和证据提交(Presentation)等环节,对取证现场保护、证据连续性保全及证据鉴定等环节都有非常严格的要求。除此以外证据分析过程也是打击网络泄密的关键所在,能够在海量数据中分辨出有效数据,并提取出有价值的痕迹信息,并进行泄密过程的追踪溯源,确定泄露数据具体在何时何地被谁恶意泄露或者盗取,以此确定出相应的保护措施和方案,从而最大程度的提前避免此类事件的发生,或者在事件发生以后快速准确定责。
完整的失泄密过程一般是由一系列有着一定逻辑关系的泄密行为链完成的。这些操作所留下的操作痕迹散落在终端、服务器、网络及其接入设备等文件、日志中,涉及网络攻击时,还可能与URL、DNS、IP协议、连接,文件行为有关系,例如有没有改过注册表,有没有建不同进程,有没有通过API做过什么等等痕迹都可能预示是否有攻击发生。
针对网络失泄密过程的分析,必须要对外网计算机终端、门户网站、论坛、互联网出入口等信息进行全面监控,直接应用关联算法对获取到的多源数据进行逻辑关联分析,过程复杂较高,同时很难从中分析出有意义的泄密过程,不仅如此,由于存在大量的不相关数据,使得关联算法的效率低下。基于关联分析算法对多源取证数据进行智能化关联分析,将属性相似度高的事件聚合到泄密场景中,可以提高泄密场景重构的效率。多源数据多重分析框架如图:
基于Hook的进程监控与取证
很多接入互联网的终端为了防止失泄密会配备各种防泄密管理工具,即便如此仍然存在失泄密事件,这往往是因为终端使用人员会采用各种手段来绕过防泄密监控系统和工具,基于API HOOK的进程监控技术,可以实时监控任何电脑的操作行为,有效减少违规操作,阻断泄密途径。
HOOK是一种用来实现Windows平台下类似于中断的机制。应用程序可以在上面设置子进程以监视指定窗口的某种消息,所监视的窗口可以由其它进程创建。HOOK机制允许应用程序截获处理Windows消息或特定事件,当特定的消息发出后,在没有到达目的窗口之前,钩子程序就可以捕获该消息,掌握其控制权。这时钩子函数可以不作处理而继续传递该消息,也可以加工处理或改变该消息,甚至还可以强制结束该消息的传递,从而实现普通应用程序难以实现的功能。HOOK API是指截获特定进程或系统对某个API函数的调用,使得API的执行流程转向指定的代码,完成某种监控和取证目的后再恢复程序继续执行。
监控一般由客户端应用程序和服务器端应用程序两部分组成,进程监控用于监控主机上正在运行的进程及其相关信息。通过用户态或内核态的枚举进程等不同的方法,对当前系统中正在运行的进程进行监控,通过相关的进程控制模块,查询当前进程的运行时间、进程使用内存情况、进程所在完整路径及进程、线程句柄,父进程、线程的句柄(即子线程是由哪个父线程创建的)等相关信息,从而对相关进程进行控制和管理。进程监控可以配合文件监控同时执行,协助文件监控进行判断、识别,从而为更准确地确定文件监控行为提供依据。
基于属性相似度的关联分析
直接对多源息进行分析是非常困难的,所以首先对它们进行聚类处理。传统聚类算法对元素类别的划分比较清晰,需要非常明确区分彼此,而网络泄密信息监控采集的多源数据很多属性并不是数值型,概念相对模糊,因此不能简单地对其进行类别划分,而且大多数情况下,对数据进行分类时常无法事先规定划分的类别数目。在这种情况下,常采用属性相似度计算方法,此类方法不要求数据属性必须为数值性,而且能够很好地解决分类过程中模糊边界的问题,客观地体现真实世界的分类情况,因此使用基于属性相似度的关联算法可以对取证涉及到的多源数据进行初步关联分析。涉及的相似度计算包括:
时间相似度:很多日志信息的时间属性是决定泄密源头的重要因素,两个事件发生的时间间隔越短,越有可能是同一源头导致,另外很多告警信息的出现常常是由于同一敏感信息触发,需要筛除大量重复告警,因此一定时间阈值内,需对相同告警信息进行冗余处理。
时间相似度计算公式:
事件相似度:数据信息记录的事件类型是否相似也可以用来辅助确定它们在泄密过程中所产生的影响,根据事件发生的源头、影响力、作用方向和影响范围等等,可以将事件定义为一个高维向量,通过比较两个向量之间的距离,可以确定两个事件的相似度。
事件相似度计算公式:
智能标注
对敏感或涉密文件的监管,需要对监管的文件进行分类并实现同类文档合并处理,包括行业分类、格式分类、相似性判定、复杂关键词规则匹配、主题模型、智能推荐等功能。
文档标注的基础是语义标注,从原理上看一个信息抽取过程,但是它与信息抽取不同的是涉及到语义。涉及到信息抽取,建立规则是其中的首要工作,根据建立规则过程的不同,语义标注有基于统计的方法和基于机器学习的方法等。
基于统计的方法。一般用于排除歧义的场景,通过分类模型进行语义标注。语义标注前,可以对文档进行分类,每一种类别定义一个模式,常见的标注方法有基于随机过程的统计模型,比如利用隐马尔可夫模型设计的标注方法,不同内容之间可以建立多个维度的视图信息,包括空间、时间和上下文,信息之间可能存在依赖关系,根据依赖关系的强弱可以对另外的信息进行识别,完成相应语义标注。
基于机器学习技术进行文档的智能标注。基于机器学习的标注方法通常是通过手工标注的结果集合得到给定的训练数数据,然后根据这些训练数据不断的学习归纳,建立语义模型。根据模型不断迭代,得到标注的规则,最后利用这些规则得到文档的标注结果。这种方法还可以提高重复告警去除率,并根据以往的判定结果自动标注文件,最大限度减少人工判定工作量。
中孚网络失泄密智能分析平台
中孚“网络失泄密智能分析平台”通过融合各监管数据,进行大数据挖掘和关联分析,实现涉密信息实时发现、追踪溯源和及时处置的统一综合监管和处置能力,能够进一步增强互联网失泄密综合技术检测能力,实现面向互联网上下协同技术监管一体化的要求。
平台优势
● 综合业务处理:以文件为线索的告警处理,标记、排除等。不同平台相似文件只处理一次;
● 统计分析:分区域、分级别、分类型、分单位、分部门、分时间段……,生成多维度的统计报表;
● 关联分析:将相关的事件、实体、文档进行时间、空间的关联和呈现,从而进行告警溯源和实体画像等方面的分析;
● 语义分析:文本分类、版式识别、相似性判定、实体提取、热门主题自动生成;
● 大屏展示:此将系统运行状态,通过各种图表进行大屏展示。