根据NIST Cybersecurity Framework,安全运营工作可以分为识别、防御、检测、响应、恢复五个大的阶段,大多数组织机构在识别、防御、恢复三个阶段成熟度已经比较高了,相比之下检测、响应是当前安全能力短板。
在检测方面,目前多是以单点检测为主,检测的误报率较高,有效的告警信息被淹没在海量的无效告警中;同时,传统单点检测设备检测能力有限,很难检测未知威胁与潜伏威胁。在响应方面,目前多是以应急预案为主,与恢复阶段的内容结合的比较紧密,多是事后的恢复类响应,针对实时检测出的威胁事件的针对性响应不足,主动式响应能力不足。
再进一步说,识别、防御、检测、响应、恢复没有通过技术手段真正联动起来。包括安全检测与分析对于实时自动化风险分析贡献不足,以及在响应的过程中也没有与识别与防御能力进行联动。正因如此,安全运营中心应重点提高大数据关联分析这项关键核心能力,以帮助安全运营团队精准定位已知威胁、深度检测未知威胁,并在此基础上丰富安全事件场景、辅助安全运营决策。
一、大数据安全分析技术框架与关键技术
大数据安全分析利用大数据技术对海量数据的高效计算能力,结合关联分析、深度学习、机器学习算法等手段,对各种已知与未知威胁进行快速发现与预警,实现网络防御从被动到主动的转变。大数据安全分析总体架构由数据采集与预处理、数据存储与处理、多维度数据分析、数据应用与展示几个部分组成。
数据源是大数据分析的基础与前提,准确高质量的多源异构数据是安全分析效果的保证,进行安全分析需要收集的数据源包括:
日志数据:包括设备与系统的日志和安全告警信息。
流量数据:网络流量数据,包括Netflow数据和全流量镜像数据。
支持数据:包括资产信息、账号信息、漏洞信息和威胁情报信息等。
对数据源收集的信息进行解析、标准化和丰富化处理,从而为数据分析提供高质量的数据。
数据传输采集:根据不同类型的数据源,以及数据存在的状态,采用不同的传输与采集技术。
数据预处理:对数据进行解析、补全、标准化操作,从而提高安全分析的可信度,降低误报率。
大数据平台计算处理能力达到日存储数据超过1T,支持千亿条数据的秒级处理,PB级数据管理与应用,保证高吞吐量与高数据压缩率,为安全智能分析提供实时或者长期的关联分析数据基础。
全量存储网络中原始的网络数据,使数据结果分析更加全面可信。对所有网络行为数据建立索引,便于快速查询、管理分析和举证。
通过关联分析引擎对采集的实时数据流进行深度关联分析,包括安全告警、系统日志、资产、网络、漏洞等信息之间采用基于规则、基于统计、基于资产、基于情报等深度关联分析方法,综合分析进行安全威胁检测、预警。
通过机器学习和算法对大量的历史信息和安全信息的关联,以无监督学习(异常检测)为主,并有人工辅助的半监督学习(专家、管理人员反馈),对威胁行为进行一个长周期的分析,找出安全威胁与攻击的异常行为和隐藏的威胁行为。
依据数据分析结果,实现网络安全态势感知、安全预警、追踪溯源等应用。
二、大数据安全分析需要如何进行数据收集
关于大数据安全分析到底应该如何收集数据的问题,起初很多人认为应该收集尽可能多的全量数据,但也有人认为收集那么多数据占用很多资源,有些数据收集上来又没有什么用,主张需要什么数据就收集那些数据。
Gartner在安全分析方法论模型中,将安全分析要素分为应用场景、分析方法和数据源,三者缺一不可。安全分析有两种思路,一种可以从数据源头出发,收集全量数据,然后依据数据,挖掘分析场景,寻找分析技术;也可以从应用场景出发,按应用场景收集数据,寻找分析技术。
从安全数据的层面来讲,数据类别包括三类,第一类是安全告警数据(IDS、WAF等),这部分属于高威胁、低可信数据;第二类是内容数据(主机、流量等),这部分属于低威胁、高可信数据;第三类是上下文数据(资产、威胁、漏洞等),这部分属于辅助数据。
安全分析、数据类型这两点讲清楚了,回过头再来看如何进行数据收集,根本不需要争论到底是收集全量安全数据,还是需要什么数据再收集什么数据了,只要把握以下的策略方法就可以了。
1、告警类数据本身就归安全职能所有,所以需要对其进行全量收集,有多少就收集多少,存储至少保证六个月。这原因主要是:1)满足安全合规要求;2)持续进行场景建模;3)方便攻击溯源与威胁猎捕。
2、内容类数据大部分归网络或运维团队所有,应由其所有者存储全量数据。而且这部分数据类型和数量远比告警要多,安全团队没必要再单独存一份全量的数据,所以应安全运营需要从运维大数据中取。
3、上下文数据权属比较复杂,有些可能属于运维团队(比如资产),有些属于安全团队(威胁情报、漏洞等),但这部分数据从安全分析来讲属于辅助数据,所以可以按安全分析的需要,以及安全运营的能力进行采集。
三、大数据安全分析实践场景与方法总结
安全告警关联分析归纳起来可以分为四类:1、同一攻击源/目的特定告警数量叠加,可能遭受持续性攻击;2、内网主机发起安全攻击,可能主机已经失陷、横向攻击;3)不同网络位置的关联告警,可能已经绕过边界防护;4)告警/异常告警关联后判定攻击成功。
Ø 场景一:同一源地址多次发起同一类型攻击
场景描述:通过同一类型安全攻击告警次数,判定源地址是否发起持续性安全攻击。
分析方法:特定时间内(如10分钟内),同一源地址发起特定攻击(如远程漏洞利用攻击)超过一定数量(如20次)。
数据源:IDS、IPS、NTA
解决方案:检查被攻击机器是否存在漏洞,确认安全攻击是否成功。
Ø 场景二:同一目的地址遭受多次同一类型攻击
场景描述:通过同一类型安全攻击告警次数,判定目的地址是否遭受持续性安全攻击。
分析方法:特定时间内(如10分钟内),同一目的地址遭受特定攻击(如远程漏洞利用攻击)超过一定数量(如20次)。
数据源:IDS、IPS、NTA
解决方案:检查被攻击机器是否存在漏洞,确认安全攻击是否成功。
Ø 场景三:同一内网主机多次发起同一类型攻击
场景描述:通过内网主机发起安全攻击告警次数,判定内网主机是否已经失陷。
分析方法:特定时间内(如10分钟内),同一源地址内网主机发起特定攻击(如远程漏洞利用攻击)超过一定数量(如20次)。
数据源:IDS、IPS、NTA
解决方案:检查源地址机器是否被控制,检查被攻击机器是否存在漏洞,确认安全攻击是否成功。
Ø 场景四:同一内网主机被攻击后发起网络扫描
场景描述:通过内网主机被攻击后发起网络扫描,判定内网主机是否已经失陷。
分析方法:特定时间内(如60分钟内),同一源地址内网主机被植入webshell后发起网络扫描。
数据源:FW、WAF
解决方案:屏蔽该地址对内部服务的访问、对发生告警主机进行webshell查杀。
Ø 场景五:web网页扫描后发起web攻击
场景描述:通过web网页扫描与web攻击告警,判定web应用正在遭受持续性攻击。
分析方法:特定时间内(如60分钟内),同一源地址发生web扫描告警后,发生web攻击告警。
数据源:IPS、IDS、WAF
解决方案:屏蔽该地址对内部服务的访问,确定该事件是否为恶意攻击行为。
Ø 场景六:绕过WAF防护发起web攻击
场景描述:通过绕过WAF防护发起web攻击告警,判定web攻击已经绕过WAF防御。
分析方法:发生WAF攻击告警(事件A)后特定时间内(如3分钟内),发生IDS攻击告警(事件B),事件A.源地址=事件B.源地址且事件A.目的地址=事件B.目的地址。
数据源:IDS、WAF
解决方案:屏蔽该地址对内部服务的访问,确定该事件是否为恶意攻击行为。
Ø 场景七:SQL注入攻击后发生数据库提权
场景描述:通过SQL注入攻击后发生数据库提权告警,判定SQL注入攻击已经成功。
分析方法:web服务器发生SQL注入攻击告警后,特定时间内(如5分钟),发生数据库提权事件。
数据源:IPS、IDS、WAF
解决方案:屏蔽该地址对内部服务的访问,SQL注入攻击是否成功。
Ø 场景八:web后台登陆异常后被注入webshell
场景描述:通过SQL注入攻击后发生数据库提权告警,判定SQL注入攻击已经成功。
分析方法:特定时间内(如10分钟),同一源地址对同一web服务后台登陆异常后,被植入webshell。
数据源:中间件日志、WAF
解决方案:屏蔽该地址对内部服务的访问,同时对发生告警主机进行webshell查杀。
从安全告警层面来讲,威胁情报数据可以赋能给检测设备,同时也可以作为Context数据辅助安全分析。从异常检测层面来讲,威胁情报可以结合网络连接等数据,通过关联分析发现特定行为异常与安全风险。从分析方法层面来讲,威胁情报本质上属于黑名单机制,用于检测时的效果很大程度上取决于情报数据的质量。
Ø 场景一:外部攻击告警命中威胁情报分析
场景描述:安全告警中外网攻击源IP命中高置信威胁情报数据,判定外网恶意IP发起安全攻击事件
分析方法:安全告警源IP地址匹配威胁情报恶意IP
数据源:安全告警(WAF、IPS、TDA等),TI
解决方案:对安全攻击源IP进行一定周期的封禁
Ø 场景二:内网主机与威胁情报黑IP/域名进行通信
场景描述:内网主机与威胁情报黑IP/域名进行请求链接或通信,判定内网主机已经中病毒或失陷
分析方法:内网主机地址行为匹配威胁情报黑IP/域名
数据源:网络连接或服务请求(FW、NTA、DNS请求等),TI
解决方案:检查发送邮件的账号,确认该账号是否已经被攻击者控制
Ø 场景三:邮件服务器向威胁情报黑IP发送大量邮件
场景描述:邮件服务器向威胁情报黑IP发送邮件,判定发送邮件账号已经被攻击者控制
分析方法:特定时间内(如10分钟)邮件服务器地址与威胁情报黑IP网络连接数超过一定数量(如10次)
数据源:网络连接或服务请求(FW、NTA等),TI
解决方案:检查发送邮件的账号,确认该账号是否已经被攻击者控制
Ø 场景四:内网主机连接C&C服务器后进行文件/程序下载
场景描述:内网主机与威胁情报C&C服务器连接后下载文件/程序,判定内网主机已经被攻击者控制
分析方法:内网主机连接C&C服务器(请求域名或发起连接)后尝试下载可疑文件/程序
数据源:网络连接、服务请求、下载行为(NTA),TI
解决方案:对内网主机进行病毒/木马查杀,修复安全漏洞,入侵回溯分析
网络设备、安全设备、操作系统、中间件、应用系统都具有账号,只要有账号就会涉及到异常账号(状态)与账号异常(行为)的安全监控与分析。从风险类型来说,账号异常涉及到内部违规、暴力破解、账号失陷以及程序错误等类型,在安全日常监控与态势感知中都起到非常大的作用。
Ø 场景一:绕过堡垒机违规登陆服务器行为检测
场景描述:用户登陆系统的源IP不属于堡垒机IP范围,判定系统管理员违规登陆系统
分析方法:登陆服务器源IP地址与堡垒集IP地址不匹配
数据源:操作系统日志,堡垒机IP列表
解决方案:配置访问控制策略,仅允许从堡垒机登陆服务器
Ø 场景二:服务器发生安全攻击事件后创建新账号
场景描述:服务器被安全攻击告警后发生账号创建事件,判定服务器已经失陷被控制
分析方法:特定时间内(1天),发生服务器遭受安全攻击,同一目的IP发生账号创建事件
数据源:安全设备告警(IDS、IPS等),操作系统日志
解决方案:检查被攻击服务器是否被控制,确认账号创建是否异常
Ø 场景三:设备/系统/应用遭受暴力破解攻击分析
场景描述:设备/系统/应用发生大量账号登陆失败事件,判定设备/系统/应用正在遭受暴力破解攻击
分析方法:特定时间内(10分钟),同一设备/系统/应用发生大量(大于10次)登陆失败事件
数据源:设备/系统/应用登陆日志
解决方案:排查登陆失败事件属于安全攻击还是管理员行为
账号异常安全分析场景,都可以从同一源地址、同一目的地址、同一账号来分别建立分析规则,还可以更近一步细化出外网地址、内网地址。并且账号异常各事件之间还可以再进行关联,这样就可以扩展出非常多的分析场景来。下面就以账号登陆失败事件为基础,列举部分典型的分析场景。
Ø 通用账号异常关联分析拓展场景
拓展场景1:多次发生账号登陆失败事件后,发生账号登陆成功事件,可能暴力破解成功。
拓展场景2:发生暴力破解成功(拓展场景1)后,发生创建新账号/修改权限/修改口令等行为事件,可能入侵后提权或进行破坏。
拓展场景3:发生暴力破解成功并新建账号(拓展场景2)后,发生删除账号行为事件,可能入侵结束后消除入侵痕迹。
Ø FTP账号异常关联分析拓展场景
拓展场景1:多次发生账号登陆失败事件后,发生账号登陆成功事件,可能暴力破解成功。
拓展场景2:发生暴力破解成功(拓展场景1)后,账号发生下载文件数据行为,入侵成功后窃取数据。
拓展场景3:发生暴力破解成功(拓展场景1)后,账号发生上传文件数据行为,入侵成功后篡改数据。
Ø 账号状态异常关联分析拓展场景
拓展场景1:特定时间内,同一账号在超过2个不同地点登陆,可能发生账号失陷行为。
拓展场景2:特定时间内,同一账号在超过2个不同设备登陆,可能发生账号串用行为。
拓展场景3:高价值账号(如VPN账号)在非可信地点(如境外地址)发生登陆行为,可能已经失陷。
网络异常相关安全分析场景非常的多,归纳起来大致分为三类:1)网络端口扫描异常;2)安全攻击后网络连接异常;3)单一网络流量异常。下面按这三类列举了典型分析场景。
Ø 场景一:内网主机发起网络端口扫描
场景描述:通过内网主机发起网络端口扫描,判定内网主机被恶意控制或者感染病毒。
分析方法(1):特定时间内(如5分钟内),同一内网主机对同一目的主机发起连接的目的端口超过一定数量(如超过50)。
分析方法(2):特定时间内(如5分钟内),同一内网主机对特定网络连接(如icmp)目的主机超过一定数量(如超过50)。
数据源:FW、NTA
解决方案:确认主机是否被恶意攻击者控制,并及时进行病毒查杀,修复漏洞。
Ø 场景二:内网主机遭受/发起特定网络端口扫描
场景描述:通过内网主机发起特定网络端口(如445、3389等)扫描,判定内网主机被恶意控制或者感染病毒。
分析方法(1):特定时间内(如5分钟内),同一内网主机特定目的端口(如445、3389等)被连接超过一定数量(如超过50)。
分析方法(2):特定时间内(如5分钟内),同一内网主机特定目的端口(如445、3389等)连接目的主机超过一定数量(如超过50)。
分析方法(3):同一内网主机被大量特定目的端口(如445),短时间内(如5分钟内),向超过一定数量(如如超过50)的其它主机发起大量特定目的端口(如445)扫描。
数据源:FW、NTA
解决方案:确认主机是否被恶意攻击者控制,并及时进行病毒查杀,修复漏洞。
Ø 场景三:服务器被植入webshell后发起大量连接
场景描述:通过webshell与网络连接关联,判定特定主机被成功植入webshell。
分析方法:应用服务器发生webshell安全告警(事件A),特定时间(如30分钟)内,该主机发起大量网络连接事件(事件B)。A目的地址等于B源地址。
数据源:WAF,中间件日志/FW/NTA
解决方案:确认网络连接是否为恶意行为,屏蔽该主机对内部服务的访问、同时对发生告警主机进行webshell查杀。
Ø 场景四:服务器遭受web攻击后进行非法外连
场景描述:通过we攻击与网络连接关联,判定特定主机被攻击成功。
分析方法:服务器发生web攻击告警(事件A)后,特定时间内(如10分钟内),该服务器对外网发起网络连接(事件B)。事件A.目的地址=事件B.源地址and事件A.源地址=事件B.目的地址。
数据源:WAF/IPS/IDS,FW/NTA
解决方案:检查该主机服务器是否为恶意行为,屏蔽该地址对内部服务的访问,确认该服务器是否已经被攻击者控制。
Ø 场景五:内网主机服务器网络流量异常/超过流量阈值
场景描述:通过对内网主机发送网络流量异常,判定内网主机被恶意控制或者感染病毒。
分析方法:特定时间内(如10分钟内),同一内网主机发送的网络流量总和超过网络流量阈值(如超过2G)。
数据源:FW、NTA
解决方案:确认主机是否被恶意攻击者控制,并及时进行病毒查杀,修复漏洞。
四、大数据安全分析发展进阶是威胁狩猎
威胁狩猎(Threat Hunting)也被称为威胁猎捕、威胁搜寻等,是一种重要的主动安全防御方法与过程,通过主动、持续地分析入侵痕迹,捕获正在进行的入侵,从而缩短攻击驻留时间,阻止攻击者完成其攻击目标,降低攻击对业务造成更大损害。
高级别攻击隐蔽性、潜伏性比较强,甚至个别情况下检测设备也没有产生有效告警,这时就需要威胁猎手在适当时候、适当条件下去进行更广泛、更深入的威胁猎捕活动。正因如此,威胁狩猎属于安全成熟度模型的主动防御阶段,强调人为驱动依据数据、情报、资产线索进行主动分析挖掘。简单来讲,威胁狩猎需要设定具体目标,合理地进行条件假设,利用专业知识、经验与工具才能完成。因此,推动威胁狩猎成熟度,核心要素是“专业人员+数据”。除此之外,搜索与可视化、数据上下文丰富化、自动化,同样是非常重要的要素。
威胁猎手需要查看大量数据,以便能够从海量单一的片段数据中,揭示威胁行为的关联关系。如果收集的数据不足,无论多少经验丰富的威胁猎手,多么昂贵的专业工具,都无法发挥作用。威胁狩猎不但需要安全告警数据,还需要应用、主机、网络层面的日志数据,以及威胁情报等外部相关数据。在威胁猎捕工具方面,威胁狩猎并不存在万能的单一工具,SIEM、SOC、UEBA、SOAR等安全运营平台同样适用,其中的搜索与可视化、数据上下文丰富化、自动化都是很好的功能。除此之外,威胁猎手也会根据自己喜好编写脚本或者研发工具,甚至可以直接使用成熟的SaaS服务。
相比于安全监测与事件调查响应,威胁狩猎更加关注威胁行为背后的人,威胁方发起威胁行为必须具备意图、能力和造成损害的机会三个要素,威胁猎捕重点关注这三个特征,进而在网络环境中搜寻威胁对手,以能够尽可能提前进行威胁预警以及事件处置止损。除了攻击者画像之外,威胁狩猎还包括攻击者历史攻击行为、攻击者习惯的技战术分析,攻击事件过程包括攻击时间维度、阶段维度、技战术维度的分析,以及攻击趋势包括威胁情报/漏洞维度、保护对象维度的研判分析等。
由以上分析可见,威胁狩猎并非一个功能或平台,而是一种职能以及过程,并且大数据安全分析与威胁狩猎并没有明显的界限,总之,威胁狩猎伴随着安全运营的的存在而存在,并随着安全分析水平的提高而深入。
关于作者:
李鹏飞Leo:青藤安全服务中心资深安全专家,擅长安全架构设计、体系建设、安全运营、数据安全、合规审计等领域。
-完-
热门动态推荐