曾经国内很多客户对安全运营中心(Security Operation Center,SOC)的理解就是“大屏”,纷纷表示也想在企业内挂一块可以指挥作战(从“威胁监测”到“处置响应”)的大屏,目前,追求炫酷的“大屏”已经不再是客户的主要诉求,客户的主要诉求转变为:
下图是基于SOC的企业安全运营体系建设思路。
在安全需求变得越来越“实战化”时,甲方客户也逐渐意识到只购买安全产品是不能解决安全问题的,还需要建立安全运营团队,使用好安全产品,在与攻击者对抗的过程中提升和保障企业的网络安全建设。
基于SOC产品的安全运营体系,是一种不错的建设思路。但是,每个企业都有复杂的网络环境和不一样的业务模式,面临的安全威胁也不尽相同,因此,目前还没有一款SOC产品通过标准化部署就能满足客户需求的,所以,企业在选择SOC产品时,除了测试产品的能力满足需求之外,还需要考察该团队的定制开发能力(能够快速设计和开发甲方的合理需求)和安全运营体系理论水平(能够指导甲方进行安全运营体系设计和落地)。对于有实力有预算的企业,可以选择自研SOC产品。
企业如果选择通过购买SOC产品来建设安全运营体系,正确的做法是:自建安全运营团队,购买SOC产品,同步购买定制开发服务,以及“基于SOC产品的安全运营体系建设”的专家服务。
在选择SOC产品的时候,需要从两方面进行考虑:
SOC如何提升安全运营效率?
1)SOC应能够作为统一运营平台支持对接各类安全设备/产品。包括接入各类安全产品(NTA、EDR等)产生的风险或威胁告警、遥测日志或数据,支持快速检索、关联查询,比如查询一个资产IP,能够把各个系统的告警和日志统一按时间顺序呈现。
2)SOC厂商应提供快速接入一个或多个安全设备/产品的定制开发和运营服务。对于甲方企业来说,为了提升发现威胁事件的能力,建议选择威胁检测能力强、行为遥测技术全面、日志/数据开放性好的流量检测和终端安全产品。如果对安全性要求比较高,甚至可以购买多套。此时,如果SOC默认配置不支持某些安全设备/产品,需要SOC厂商定制开发和运营来支持接入。
3)提供多种准确的资产识别和分组方式。资产识别是安全体系建设的基础,如果资产梳理不清楚,就好像不知道自己的财产放在哪里一样,也就没有办法实施保护措施。因此,SOC需要具备从NTA、EDR等接入设备的日志和数据中发现并识别资产的能力,还需具备主动扫描发现资产的能力,比如遍历网段扫描、Web页面分析、App/小程序网络接口分析等。除了识别资产,SOC还需具备资产分组的能力。
4)威胁监测页的告警信息要方便安全运营工程师分析鉴定。关键信息要丰富,或者支持自定义选择呈现哪些信息。设计师为了美观或者因个人风格不同可能会设计得比较简洁或酷炫,但安全运营工程师为了鉴定确认一个威胁,若在首页得不到足够的信息,还要点开次级页面,有时甚至还要点开三级页面,这是不友好的设计,特别是当告警页有成百上千告警条需要确认时,大大影响了工作效率。因此,威胁监测页的设计应以安全运营工程师的需求为主,美观和酷炫的外表是次要的。
5)提供一站式关联分析能力。在企业安全运维的过程中,如果没有SOC,我们常常需要从各个系统调查取证,然后进行汇总分析,工作效率低。SOC的核心功能之一就是能够进行关联分析,整合多个系统的数据之后,就能够一键检索所有系统的数据了。然而,关联分析不仅仅是检索全量数据,需要按照一定的剧本给出更多的分析线索和可能的攻击路径。比如:NTA检测到某主机外链了一个恶意程序C2,EDR发现该主机上有多个可疑程序,关联分析需要给出以下信息:
通过以上信息,安全运维工程师可以比较方便地进行分析和响应。有的系统虽然有能力做关联分析,但需要点开一个又一个页面,使得复杂度倍增。所以在设计呈现上,建议尽量一页显示整个分析剧本,如果信息比较多及需要突出重点,可以采用点击展开方式进行下钻分析,切忌使用跳转页面方式,分析的时候来回切换页面的体验非常不好。所谓的一站式关联分析,就是在一个告警事件上点击“分析”,能够清晰地告诉我这是什么威胁、影响哪些资产、证据链是怎样的。
6)好用的工单系统。安全问题的解决往往不仅需要安全运维工程师,还需要网络运维工程师、研发工程师等,常常需要跨团队协作,因此,一个好用的工单系统能够方便事件流转和项目管理。
以上是一线安全运维工程师对SOC的主要需求,除了要做到有用,还要做到易用,在设计的时候主要考虑易用性,其次才考虑美观性。
如何通过SOC进行有效的安全管理?
安全通常是一个企业的被动需求,是为了保障业务和生产过程不受黑客攻击而中断,保障企业数据资产不被窃取或破坏。于是,企业就成立了一个小组,甚至一个部门来解决各种安全问题。
但是安全看不见,没有办法进行价值衡量。那么,首先需要做的就是使安全看得见。
在SOC接入各类安全系统的告警和日志之后,如果只是简单地堆积,虽然看见了,但是看不清,因此需要进行分类。告警和日志可以分为风险和威胁两大类。
有了分类之后,需要做分类统计。由于很多时候各防御系统的告警并不能准确地告知结果,发出的告警通常会带有一个可信度,这类告警只能算作“疑似威胁”,需要经过运营分析后才能最终确定。因此,常见的统计有疑似威胁发生的次数、疑似威胁受影响资产数、确诊威胁发生次数、确诊威胁受影响资产数、威胁拦截次数、受保护的资产数、失陷资产数、拦截失败导致失陷资产数、未发现攻击且失陷资产数等。
这些统计数据从宏观层面反映了企业所面临的威胁态势和防护体系的效果。理论上,随着安全运营(威胁分析、上线拦截策略等)的深入,未确认的威胁会越来越少,失陷资产也会越来越少,可以根据需求按日、周、月分别绘制威胁态势图和防护效果图。下图反映了在进行安全运营和治理之后,服务器资产的安全状况得到了很好的改善,但非服务器资产因治理措施不到位,反而有所加重。
除了宏观上的数据分析,还要从微观上对重要的安全事件做具体分析,即对高危事件、失陷类威胁事件做详细分析,需要搞清楚:
这里的难点是如何进行靠谱的损失评估,这是安全运营工作直观的价值衡量,是老板们看得懂且较敏感的数据模型。对于具体的事件,可以根据对业务、生产的影响,以及可能的潜在损失(如窃密、代码或数据泄露等)来进行综合评估。
最后,还需要设计一套算法,从宏观统计上来估算安全工作的价值,或者说如果不做网络安全保障工作,企业可能会遭受的损失。
真正进行价值衡量的时候,不能简单地对每次攻击进行累加。比如,有个攻击源每天都会对某个资产进行多次攻击尝试,然而都被防御系统拦住了,如果按攻击频次来累计价值,显然是虚高的,所以要进行单位时间内的去重处理,即按天统计是一次攻击事件,按周统计还是一次攻击事件,按月统计仍然是一次攻击事件。因此,安全运营的价值衡量应该基于事件维度进行统计。
现在,SOC系统已经通过各项数据指标具备了威胁趋势统计和防御价值衡量的能力,为了帮助安全运维团队更好地完成汇报和呈现,还需提供两项“武器”:
“一键生成报告”即根据选定的汇报周期生成汇报材料,内容主要包括威胁态势、治理成果、价值衡量、重要事件分析等模块,在数据呈现上,可以通过环比来体现所取得的成果。对于生成的材料,需要达到的汇报效果是“安全治理工作正在有条不紊且出色地完成,各类网络威胁尽在掌握之中”。
“威胁态势大屏”则是为了展示企业在网络安全治理上的成果。在设计上,首先要考虑的是炫酷和美观,要有科技感;在内容上,要看得到企业面临的威胁态势、企业治理网络威胁的成果、企业的安全防护体系及能力、通过重点事件展现成果和能力。需要达到的展示效果是“企业的安全防护体系很完善,威胁治理工作很出色”。
综上,SOC是一个工作平台,核心作用是帮助安全运营人员把工作做好,真正做到掌控和治理各种网络威胁,在此基础上,完成有效的安全管理和成果汇报。