复盘《CrowdStrike技术故障引起Windows系统蓝屏导致全球航空、银行等行业大规模服务中断事件》

复盘《CrowdStrike技术故障引起Windows系统蓝屏导致全球航空、银行等行业大规模服务中断事件》
目录：1.概述2.背景3.影响4.是国家级APT所为吗？5.利用该事件的网络攻击活动（网络犯罪团伙迅速“入场”）6.全球网络安全专家如何看待此次事件？7.各国政府的反应8.微软和CrowdStrike 2024-7-20 17:56:24 Author: govuln.com(查看原文) 阅读量:51 收藏

1.概述

2.背景

3.影响

4.是国家级APT所为吗？

5.利用该事件的网络攻击活动（网络犯罪团伙迅速“入场”）

6.全球网络安全专家如何看待此次事件？

7.各国政府的反应

8.微软和CrowdStrike事件有何关联？

1.概述

2024年7月19日，美国网络安全公司CrowdStrike的一次安全软件更新出现严重问题，导致全球范围内数不清的计算机和虚拟机瘫痪，影响到多个Windows版本。航空公司、机场、银行、酒店、医院、证券交易所和广播等行业均受到影响；政府服务如紧急电话和网站也受到波及。此事被专家称为“历史上最严重的IT故障事件”。

专家估计，此次故障造成的经济损失预计达数十亿英镑。

事发后，CrowdStrike股票暴跌20%，市值蒸发150+亿美元。

2.背景

CrowdStrike开发了一套安全软件产品，用于保护计算机免受网络攻击。Falcon Sensor产品在单个计算机的操作系统级别安装网络传感器，以检测和防范威胁。CrowdStrike定期向客户发布补丁，以使其计算机能够应对新的威胁。

7月19日04:09 UTC，Azure上的Windows虚拟机开始重启并崩溃，06:48 Google Compute Engine也报告了该问题。07:15 UTC，Google宣布CrowdStrike更新存在故障。

在有问题的更新发布前一天，微软Azure云平台曾出现故障，导致一些公司无法访问其在Azure美国中部地区的存储和Microsoft 365应用程序。据微软称，这两起事件没有关联，但加剧了这些受影响公司客户的问题。

3.影响（持续更新）

全球范围内都出现了故障，反映出Windows和CrowdStrike软件在许多业务领域的大型跨国公司中的广泛使用。事件发生时，CrowdStrike表示其拥有24，000多家客户，包括近60%的财富500强企业和一半以上的财富1000强企业。受影响的个人电脑数量难以确定。

一些国家受到的影响很小。努力实现IT自给自足的中国，在航空公司和银行等关键服务方面受到的影响很小，尽管该国的外资企业和豪华酒店受到了影响。受国际制裁限制，无法使用美国高科技公司服务的俄罗斯和伊朗均未报告受到影响。

航空运输

全球范围内，5，078次航班取消，占计划航班的4.6%。

印度尼西亚Ngurah Rai国际机场，由于航空公司的值机系统中断，亚洲航空公司乘客排起长队。

在北美，联合航空、达美航空和美国航空发布了地面停飞令。空中的航班继续飞行，但不允许新航班起飞。据美国联邦航空管理局(FAA)称，忠诚航空公司的航班也因故障而停飞。由于故障，美国约有1，500个航班取消。加拿大蒙特利尔特鲁多国际机场和多伦多皮尔逊国际机场受到影响，波特航空取消了所有航班。加拿大温哥华国际机场据报也受到影响，尽管目前尚不清楚这是否与全球停运直接相关。

在欧洲，捷克布拉格机场、匈牙利布达佩斯机场、斯洛伐克布拉迪斯拉发机场和荷兰史基浦机场都出现了问题。飞机不被允许在苏黎世机场降落。在布鲁塞尔附近，沙勒罗瓦机场的员工手动为乘客办理登机手续，但其他软件在10:00(UTC+2)之前缓解了问题，延误很小。ENAIRE的Aena(西班牙全国机场交通管制经理)在其网站和社交媒体上提到了IT故障。西班牙所有机场都报告了中断。戴高乐机场和奥利机场在值机和航班暂停方面也出现了问题。波兰波兹南瓦维察机场和华沙蕔邱机场的乘客值机系统出现中断，敦促乘客在线查看航班状态。应急系统已启动，但值机过程速度较慢。柏林勃兰登堡机场宣布，自当地时间07:00左右起，"外部供应商的IT问题"影响了运营流程，他们计划在8点(UTC)之前停飞。虽然乘客处理工作在一些限制下继续进行，但航班出现延误，一些航班不得不被航空公司取消。汉堡机场的几家航空公司(欧洲之翼航空、瑞安航空、Vueling航空和土耳其航空)不得不手工开具机票。克罗地亚和瑞典的空中交通管制也受到影响。

瑞士国际航空有30%的航班停飞。德国汉莎航空公司网站的"资料和预订查询"功能出现问题。瑞安航空的预订和值机服务无法使用，该航空公司"被迫取消少量航班"，建议乘客在起飞前至少提前三小时到达机场。Wizz Air将其在线服务中断归咎于此次事件。荷兰皇家航空公司暂停了大部分业务，宣布存在问题时无法处理航班，Transavia Airlines也出现问题。芬兰航空报告称，他们在向客户发送电子邮件和短信方面遇到问题。希腊主要机场，尤其是雅典的雅典国际机场和伊拉克利翁的伊拉克利翁国际机场，公民和游客遇到了重大延误。此次中断发生在旅游旺季高峰期，导致混乱场面，乘客被迫等待数小时才能登机。严重的人员短缺和新实施的时刻表是导致问题的因素。在伊拉克利翁，机场面临更多挑战，有八个航班被记录为问题航班。机场负责人George Pliakas表示，航班正在手动安排以应对中断，但不断涌入的航班给系统带来了更大压力。

英国几家机场也出现问题，包括爱丁堡机场(其离港显示屏冻结)和盖特威克机场(自动条码扫描停止工作，不得不人工检查)。管理希思罗机场行李的Amadeus表示，他们受到IT中断的影响。预计飞往和来自英国的航班会受到影响，但目前在马恩岛的影响很小。

香港国际机场在值机过程中出现延误，主要影响当地廉价航空香港快运航空的乘客，不得不让工作人员使用手写标识引导乘客前往不同的值机柜台。在航空公司网站和自动值机出现故障后，香港机场管理局启动应急响应。国泰航空、香港快运航空和香港航空等本地航空公司的预订系统无法使用。香港快运航空7月20日的一些航班不得不取消。济州航空和春秋日本出现问题。捷星日本航空不得不取消许多航班(主要是国内航班)。新加坡樟宜机场的一些自助值机亭受到影响，导致航班延误，迫使航空公司改为人工值机。新加坡航空公司和酷航报告7月19日全天出现各种程度的服务困难。宿务太平洋航空公司和菲律宾亚洲航空公司的航班延误。尼诺伊·阿基诺国际机场排起长队。

突尼斯机场出现暂时中断。土耳其航空公司取消了一些航班，以避免航班中断。

在印度，印度航空、Indigo航空、Akasa航空、SpiceJet和Vistara航空公司均出现中断。故障期间使用手写登机牌。民航部要求并命令各航空公司以及机场要有同情心，必要时提供食物和座位。截至印度标准时间18:14(UTC 12:44)，印度已取消200多个航班，仅Indigo一家就有192个。只有那些在网站托管、预订引擎、收入管理系统和离港控制系统等所有服务方面严重依赖微软Azure的航空公司受到影响。

新西兰基督城机场也出现问题。澳大利亚的澳洲航空公司、维珍澳大利亚航空公司和捷星航空公司受到影响。悉尼机场发言人表示，此次中断影响了一些航空公司的运营，"整个晚上可能会有一些延误"。墨尔本机场也受到影响，网站声明强调"全球技术问题"影响了值机程序，并建议乘客咨询相关航空公司。堪培拉机场、达尔文机场、阿德莱德机场、珀斯机场、霍巴特机场、朗塞斯顿机场和布里斯班机场也受到影响。

金融

受影响的银行包括加拿大的加拿大皇家银行和道明银行、南非的Capitec Bank和其他银行、以及几家以色列银行和菲律宾的银行，如RCBC、Metrobank、LandBank、BDO、UnionBank、BPI和PNB。据报道，菲律宾的Maya和GCash等电子钱包也出现问题。土耳其DenizBank的网站和移动银行应用程序无法访问。Visa受到影响。7月19日一整天，包括新加坡交易所(SGX)和星展银行在内的多家新加坡公司报告了各种程度的服务困难。

在印度，印度储备银行(RBI)表示，只有10家银行和非银行金融公司(NBFC)受到此次中断的影响，因为使用CrowdStrike工具的银行很少，许多银行的关键系统不在云上运行。印度国家证券交易所(NSE)、孟买证券交易所(BSE)和印度最大的银行印度国家银行(SBI)表示没有受到影响。

在巴西，Bradesco银行证实受到影响，客户在上午期间可以登录，12:00 UTC时银行禁用了登录按钮。

伦敦证券交易所运转正常，但无法在其网站上推送新闻更新。英国博彩公司Ladbrokes Coral和英国连锁超市Morrisons也报告了问题。澳大利亚国民银行、西太平洋银行、澳新银行、联邦银行、本迪戈银行和Suncorp的应用程序受到影响。包括桑坦德银行波兰分行、ING Bank Śląski和mBank在内的波兰银行遇到与中断相关的问题。桑坦德银行的帮助热线、视频和聊天服务受到影响。PKO Bank Polski澄清其iPKO和IKO服务稳定，但其他银行面临困难。在芬兰，OP Financial Group报告投资伙伴和股票储蓄账户出现轻微中断。乌克兰Sense Bank因更新而出现中断。

巴拉圭Ueno银行和大陆银行受到影响；他们的客户无法登录。

陆路交通

美国-加拿大边境出现交通中断，包括安大略省温莎市的大使桥和底特律-温莎隧道出现长时间延误。加拿大边境服务局将其归咎于电话报告系统的部分中断，该问题后来得到解决。出现长时间延误，警方建议驾车人员避开该地区。华盛顿地铁交通管理局在美国早上遭遇轻微服务延误；其网站/实时跟踪直到7月19日上午9:30左右才恢复可用。波士顿的MBTA失去了车辆跟踪和乘客到达通知。

马来西亚铁路运营商KTMB证实，其KITS售票系统出现技术问题。爱尔兰交通部门表示，由于中断，其应用程序无法使用。爱尔兰道路安全管理局表示，其国家汽车测试(NCT)中心遇到"严重中断"。在新加坡，由建屋发展局(HDB)管理的185多个停车场的出入口受到影响。

澳大利亚新南威尔士州亨特线和南高地线的区域列车被取消或延误，维多利亚州的V/Line区域公交和火车网络的所有线路暂停。

英国铁路公司也受到影响。在伦敦，出租车乘客无法使用信用卡或借记卡支付，因此需要现金。在瑞典和比利时，公共交通的车票无法出售，Keolis Nederland遇到问题。

医疗保健

北美各地的许多医院暂停了非紧急手术和就诊。虽然医院仍然开放，但对病历的访问有限，甚至无法访问。在美国，纪念斯隆-凯特琳癌症中心推迟了所有需要麻醉的手术，马萨诸塞总医院布莱厄姆医院系统取消了所有非急救手术和医疗就诊，辛辛那提儿童医院医疗中心也受到影响。加拿大大学健康网络遇到技术问题，表示医院的临床活动将继续，但警告预约可能会延迟。加拿大的其他一些医院也面临困难，纽芬兰和拉布拉多卫生服务部门启动应急计划，因为病人记录系统受到影响。

英国国家医疗服务体系(NHS)表示，这些问题"正在导致[英格兰]大多数全科医生诊所中断"，其一些依赖名为EMIS Web的软件产品的服务，如全科医生诊所，无法查看和管理病历、开具和管理处方，或者预约。马恩岛广播电台报道称，马恩岛的全科医生诊所受到影响。伦敦救护服务在中断后遇到前所未有的999和111呼叫激增，截至17:00(BST)已响应4，500个紧急呼叫。

三分之二的爱尔兰全科医生(GP)受到影响。在医院，放射治疗、手术室预订和员工值班表也受到影响。

比利时联邦公共卫生服务(FPS Public Health)已证实有两家医院受到影响，并启动了紧急IT计划。他们还表示，只有新患者入院受到影响，护理不受影响。比利时国家危机中心正在评估影响，并表示在安全部门及其关键基础设施(如发电厂或运输部门)没有收到重大问题的报告。他们还被告知该问题影响了比利时的两家医院。德国吕贝克和基尔的两家医院取消了非急救手术。西班牙阿拉贡、巴斯克、卡斯蒂利亚-拉曼查、加泰罗尼亚和加利西亚等自治区政府报告称，其医疗服务出现问题。天主教医疗系统出现中断，导致服务延迟。

澳大利亚布里斯班的韦斯利医院和圣安德鲁斯医院的系统受到影响。

克罗地亚的中央健康信息系统受到影响，尽管有说明称，这是由于将其服务器迁移到新位置而导致的并发问题。

葡萄牙Fernando Fonseca医院出现问题。

在以色列，Magen David Adom及其紧急服务热线受到影响。谢巴医疗中心、伦巴姆医院和拉尼亚多医院等医院出现问题，导致等待时间增加和手术延迟。

媒体和通信

由于全球中断，许多美国电视台无法播出。受影响的电视台之一KSHB-TV不得不借助Scripps News播出国家新闻。ESPN无法在中断当天上午在美国播出《SportsCenter》的早间版，而是在ESPN2上与ESPN Radio的《Unsportsmanlike》同步播出。ESPN和ESPN2随后在《SportsCenter》的时段同步播出《Get Up！》和《First Take》，尽管没有播出图表或B-roll。梅赛德斯AMG 佩特罗纳斯F1车队在匈牙利大奖赛的周五也遇到问题，梅赛德斯发言人证实，车队不得不手动解决其使用的每台计算机上的问题。该问题还影响了他们的发动机客户迈凯轮、阿斯顿·马丁和威廉姆斯。

印度TCS、Infosys、Oracle、诺基亚等大型IT公司也遭遇中断，导致员工提出数千个问题，设备陷入启动循环无法恢复。印度计算机应急响应小组CERT-In对此事件的严重程度评级为"关键"。

一些公司由于事件影响而提早让员工下班，话题"感谢微软提前放假"一度成为微博上最热门的词条。日本环球影城宣布，由于中断，周末将不会通过售票亭出售门票；但门票仍将在网上或通过指定的售票网站出售。

沃达丰出现中断。该问题影响了DPG Media Belgium的办公室笔记本电脑，这影响了JOE和QMusic Radio、银行、邮政服务和政府机构。与安特卫普城市服务部门的电话通信也受到影响。比利时网络安全中心表示，在比利时的影响有限。英国天空新闻无法直播，英国广播公司的儿童频道CBBC也无法直播。爱尔兰国家广播公司RTÉ表示，其新闻编辑室遭遇"间歇性互联网中断"，对输出的影响很小。加拿大广播公司也受到影响。

受问题影响的几个法国电视频道包括TF1、TFX、LCI和Canal+集团的网络。电话和互联网服务提供商Bouygues Telecom也宣布，由于中断，其客户服务无法使用。原定于下周在法国巴黎举行的2024年夏季奥运会的运营也受到影响。中断发生在奥运村开放后的一天，当时组织者正在处理运动员和代表团的抵达。组委会表示，应急计划已经启动，只有制服和证件的发放受到影响。该事件减缓了运营速度，新闻中心的认证柜台关闭，安检只能手动进行姓名核对。

在菲律宾，IT工作者、电信、广播和电视广播受到影响。7月19日一整天，包括SPH媒体、新电信和M1在内的多家新加坡公司报告了各种程度的服务困难。

受问题影响的澳大利亚媒体公司包括澳大利亚广播公司、SBS、Seven Network和Nine Network。周五晚上在Docklands Stadium举行的澳大利亚足球联赛埃森登轰炸机队和阿德莱德乌鸦队之间的比赛的售票受到影响。

政府

在美国，阿拉斯加、亚利桑那、佛罗里达、爱荷华、印第安纳、堪萨斯、密歇根、明尼苏达、纽约、俄亥俄、俄勒冈、宾夕法尼亚]和弗吉尼亚的部分地区出现911服务中断或911呼叫中心运营中断。新罕布什尔州全州的911服务瘫痪。此外，阿拉斯加的非紧急呼叫中心也出现问题。

由于中断，菲律宾的政府网站，如菲律宾众议院网站，无法访问。

在加拿大，多伦多市受到影响，加拿大儿童福利金(Canada Child Benefit)支付被推迟。新西兰议会出现问题。阳光海岸市议会是澳大利亚几个受影响的市议会之一。斯洛伐克国家安全局发言人证实，斯洛伐克的几个机构受到影响。

在美国，国土安全部、NASA、联邦贸易委员会、国家核安全管理局、司法部和教育部受到影响，财政部和国务院报告了轻微中断。退伍军人事务部和能源部出现中断，但目前尚不清楚这是否与该事件有关。佐治亚州、北卡罗来纳州、田纳西州和哥伦比亚特区的机动车管理局(DMV)受到影响。

零售

由于2024年7月全球网络故障，比利时Vanden Borre零售网站出现宕机

新西兰一家Woolworths超市的通知

菲律宾的超市受到影响，因为POS系统崩溃。德国连锁超市Tegut关闭了一些门店。新西兰Foodstuffs和Woolworths超市的客户也遇到支付问题。英国连锁杂货店Waitrose只能接受现金。澳大利亚的零售商和快餐连锁店也受到中断的影响，导致自助结账和在线订单系统无法使用。受影响的超市包括Woolworths和Coles，大多数商店被迫停止营业一天。

由于收银机出现问题，日本麦当劳暂时关闭了三分之一的门店。国际连锁店星巴克的移动应用程序被禁用。

在美国，由于事件导致的系统问题，运动用品零售商Dick's Sporting Goods被迫关闭了一些门店，并导致其网站暂时中断。

便利店连锁店7-Eleven在其仍在使用Speedway旧软件(使用BlueCube和Radiant Site Manager，可以追溯到Speedway由Marathon Petroleum Corporation拥有的时期)的Speedway品牌门店出现问题，一些门店无法接受信用卡或借记卡交易，而另一些门店则直接关闭。7-Eleven正在将Speedway门店转换为其专有的RIS软件，在已经转换为RIS的Speedway门店以及标准的7-Eleven或Stripes便利店没有出现问题。

挪威药房连锁店Apotek1不得不关闭门店一段时间。

4.是国家级APT所为吗？

专家1：

Mandiant Intelligent Response\HX（一款竞品）的专家分析，此次中断不是来自软件更新，而是来自内容更新。企业通常会延迟软件更新以降低风险，但内容更新会同时推送给大多数系统。况且从恢复说明来看，有问题的内容是由内核驱动加载的，因此影响严重。

从CrowdStrike代理架构的早期开始，他们就在内核中实现了大部分功能，而不是在用户层中实现。

这里有设计和风险的权衡 - 特别是性能(系统影响较小但BSOD风险更高)。

一个有趣的副作用是 - 任务管理器显示CPU/内存/IO使用率较低，大部分影响都隐藏在内核(PID 0)下。这成为了与竞争对手相比的一个卖点。

通常，反恶意软件产品可能会通过以下几种方式对系统造成重大影响:

1)驱动程序导致的BSOD

2)反恶意软件隔离系统关键文件

3)高CPU、内存或I/O影响

大多数成熟的企业安全产品(包括Crowdstrike)允许您选择哪些系统获得最新的软件更新(通常在这里安装驱动程序)，您可以运行N-1或N-2版本，以降低与#1和#3相关的组织风险。

中断不是来自软件更新(组织专门运行N-1来降低风险) - 而是来自内容更新(同时部署到大多数系统)。恢复说明显示内容位于驱动程序文件中(或由其加载)，而不是用户层进程。

专家2：

在分析Crowdstrike核心转储时发现，

已经确认最大41004字节的随机内存转储，看起来在更新过程中有一块堆数据以.sys文件的形式被写入磁盘。

事实上，现在回想起来 - 影子经纪人的泄露显示，美国国家安全局黑客团队（NSA TAO）会在Sun Microsystems的ebbv5.tgz中故意写入随机数据，以隐藏他们的漏洞利用尝试 - 通过破坏这个文件，它可能隐藏了在计算机网络行动中使用的漏洞利用。

几十年来，Sun Microsystems一直被渗透，美国人知道并利用后门和漏洞。微软和CrowdStrike也是如此。我不相信这件事的说法，肯定有问题。

我认为CrowdStrike的错误更新可能不仅仅是一个无心之失，而是有人故意为之，目的是隐藏一个漏洞利用的痕迹。如果我在使用我的宝贵的0day漏洞利用，并想要隐藏它，销毁证据就很重要，方法是用垃圾数据覆盖核心转储。如果这不是为了让系统崩溃，而是为了运行代码呢？当然这是推测，但这是个错误吗？不。

对于吹毛求疵的人来说，应该用CNA而不是CNO。我们需要对这一事件进行适当的调查，因为攻击者可能只是搞砸了，真正的错误是你的机器现在应该运行勒索软件。世界可能也躲过了一劫！

5.利用该事件的网络攻击活动（网络犯罪团伙迅速“入场”）

事件发生后，各国Cert已经观察到并发出预警，威胁行为体迅速利用这一事件进行了各种恶意活动，（国内网安同行在吃瓜的同时，是否已经把与“crowdstrike”相关的域名、邮件正文和附件都做了拦截处理？）

* 发送冒充CrowdStrike支持的钓鱼邮件给客户

* 在电话中冒充CrowdStrike员工

* 冒充独立研究人员，声称有证据表明技术问题与网络攻击有关，并提供补救建议

* 销售声称可以自动从内容更新问题中恢复的脚本

IOC

crowdstrike.phpartners[.]orgcrowdstrike0day[.]comcrowdstrikebluescreen[.]comcrowdstrike-bsod[.]comcrowdstrikeupdate[.]comcrowdstrikebsod[.]comwww.crowdstrike0day[.]comwww.fix-crowdstrike-bsod[.]comcrowdstrikeoutage[.]infowww.microsoftcrowdstrike[.]comcrowdstrikeodayl[.]comcrowdstrike[.]buzzwww.crowdstriketoken[.]comwww.crowdstrikefix[.]comfix-crowdstrike-apocalypse[.]commicrosoftcrowdstrike[.]comcrowdstrikedoomsday[.]comcrowdstrikedown[.]comwhatiscrowdstrike[.]comcrowdstrike-helpdesk[.]comcrowdstrikefix[.]comfix-crowdstrike-bsod[.]comcrowdstrikedown[.]sitecrowdstuck[.]orgcrowdfalcon-immed-update[.]comcrowdstriketoken[.]comcrowdstrikeclaim[.]comcrowdstrikeblueteam[.]comcrowdstrikefix[.]zipcrowdstrikereport[.]comndicators of Compromise (IOCs)Nombre del Archivo SHA256 HashCrowdstrike-hotfix.zip c44506fe6e1ede5a104008755abf5b6ace51f1a84ad656a2dccc7f2c39c0eca2sqlite3.dll 02f37a8e3d1790ac90c04bc50de73cd1a93e27caf833a1e1211b9cc6294ecee5vclx120.bpl 2bdf023c439010ce0a786ec75d943a80a8f01363712bbf69afc29d3e2b5306edinstrucciones.txt 4f450abaa4daf72d974a830b16f91deed77ba62412804dca41a6d42a7d8b6fd0maddisAsm_.bpl 52019f47f96ca868fa4e747c3b99cba1b7aa57317bf8ebf9fcbf09aa576fe006Setup.exe 5ae3838d77c2102766538f783d0a4b4205e7d2cdba4e0ad2ab332dc8ab32fea9datastate.dll 6010e2147a0f51a7bfa2f942a5a9eaad9a294f463f717963b486ed3f53d305c2madexcept_.bpl 835f1141ece59c36b18e76927572d229136aeb12eff44cb4ba98d7808257c299maidenhair.cfg (HijackLoader configuration) 931308cfe733376e19d6cd2401e27f8b2945cec0b9c696aebe7029ea76d45bf6rtl120.bpl b1fcb0339b9ef4860bb1ed1e5ba0e148321be64696af64f3b1643d1311028cb3vcl120.bpl b6f321a48812dc922b26953020c9a60949ec429a921033cfaf1e9f7d088ee628battuta.flv be074196291ccf74b3c4c8bd292f92da99ec37a25dc8af651bd0ba3f0d020349madBasic_.bpl(HijackLoader first-stage)d6d5ff8e9dc6d2b195a6715280c2f1ba471048a7ce68d256040672b801fda0eaRemCos Payload 48a3398bbbf24ecd64c27cb2a31e69a6b60e9a69f33fe191bcf5fddbabd9e184RemCos C2 Address 213.5.130[.]58[:]443

6.全球网络安全专家如何看待此次事件？

奇安信网络安全事件响应专家、威胁情报中心负责人汪列军表示

在产品升级时，要控制影响范围，俗称“爆炸半径”，掌控好升级策略，确保灰度升级，控制放量节奏。逐步测试，逐步增加覆盖。

青藤云COO、网络安全专家程度表示，此次事件也为业界带来重要的启示。首先安全依然是重中之重。其次，在对于安全产品技术路线的选择上，通常软件开发包括内核态和用户态，前者拥有更高的系统权限，可以直接访问硬件，但劣势在于错误的驱动可能危及整个系统的稳定性和安全性；后者如果出错通常只影响单个应用程序，不会导致系统崩溃。目前看来CrowdStrike应该是在内核态下导致的问题。如果尽量采用非内核态的形式，出现这类问题的概率会低很多

WithSecure网络安全公司首席研究官米科·许普宁(Mikko Hyppönen)表示:"这是历史上最严重的案例——我们从未遇到过如此大规模的全球工作站故障。"大约十年前，由于蠕虫或木马的传播，大范围的中断更为常见。最近，全球性的中断发生在系统的"服务器端"，这意味着中断通常源于亚马逊网络服务等云提供商、互联网电缆中断或身份验证和DNS问题。

Kaspersky前威胁情报团队负责人科斯汀·拉伊乌(Costin Raiu)表示，令人惊讶的是，一个内核驱动程序更新竟然能引发如此大规模的全球计算机崩溃。拉伊乌曾在Kaspersky工作了23年，去年离开该公司。他表示，在Kaspersky任职期间，针对Windows软件的驱动程序更新在推送之前都要经过数周的严格审查和测试。

更重要的是，这些更新需要微软也审核代码并以加密方式签名，这意味着微软很可能也错过了导致这次中断的CrowdStrike Falcon驱动程序中的任何bug。拉伊乌说:"令人惊讶的是，尽管对驱动程序更新给予了极大的关注，这种情况仍然发生了"，"一个简单的驱动程序就能摧毁一切。这就是我们在这里看到的。"

微软没有回应有关更新监管以及Azure中断和CrowdStrike情况是否有任何联系的置评请求。不过，微软发言人表示，"CrowdStrike的更新导致全球多个IT系统瘫痪。"

拉伊乌补充说，尽管如此，CrowdStrike远非唯一一家因驱动程序更新而引发Windows崩溃的安全公司。他指出，Kaspersky甚至Windows自己内置的防病毒软件Windows Defender的更新在过去几年也曾导致类似的"蓝屏死机"崩溃。"地球上每个安全解决方案都经历过他们的CrowdStrike时刻，"拉伊乌说，"这并不新鲜，但事件的规模前所未有。"

这一灾难性局面反映了互联网的脆弱性和深度互联性。许多安全从业者告诉《连线》杂志，他们预计甚至与客户合作，试图防范防御软件本身因恶意利用或人为错误而导致级联失败的情景。"这是一个关于我们全球数字脆弱性和核心互联网基础设施脆弱性的极其有力的例证，"牛津大学教授、英国国家网络安全中心前负责人说。

一次更新就能引发如此大规模的中断，这一点仍让拉伊乌感到困惑。根据市场研究公司Gartner的数据，按收入计算，CrowdStrike占安全软件市场的14%，这意味着其软件存在于大量系统上。拉伊乌推测，Falcon更新一定在Azure和亚马逊网络服务等云提供商那里引发了崩溃，这大大放大了这场灾难。"CrowdStrike很大，但不可能这么大，"拉伊乌说，"机场、关键基础设施、医院。CrowdStrike不可能无处不在。我怀疑我们看到的是多种因素的组合，一种级联效应，一种连锁反应。"

来自WithSecure的Hyppönen表示，他的"猜测"是，这些问题可能是由更新过程中的"人为错误"引起的。"CrowdStrike的一名工程师今天过得很糟糕，"他说。Hyppönen认为，CrowdStrike可能发布了与他们一直在测试的软件不同的软件，混淆了文件，或者可能是多种因素的组合。"这样的软件必须经过广泛的测试，"Hyppönen说，"这是我们要做的。当然，这也是CrowdStrike要做的。你必须非常小心你发布的内容，这很难做到，因为安全软件更新非常频繁。"

该公司最初处理此事件的"解决方法"指南称，Windows机器应该以安全模式启动，应该删除特定文件，然后重新启动。"到目前为止，我们看到的修复方法意味着你必须亲自检查每台机器，这将需要数天时间，因为现在全世界有数百万台机器出现了这个问题，"WithSecure的Hyppönen说。

7.各国政府的反应

澳大利亚政府召开了全国紧急会议来应对这次中断。总理安东尼·阿尔巴尼斯宣布启动国家协调机制，他说:"我理解澳大利亚人对这次全球性中断以及影响广泛服务的担忧。我的政府正在与国家网络安全协调员密切合作"。他后来说:"目前看来，关键基础设施、政府服务或三个零服务没有受到影响。国家协调机制已经启动，目前正在开会"。建议维多利亚州居民，如果火警响起或检测到烟雾，要拨打三个零，因为由于中断，一些建筑物内的自动报警器可能不会自动呼叫消防服务。

英国政府的COBR委员会召开会议讨论这一事件。

美国总统拜登已经听取了关于CrowdStrike宕机的简报，而且"他的团队正在与CrowdStrike和受影响的实体保持联系。" 这在很大程度上是因为联邦政府是CrowdStrike的客户，也受到了影响。

汇总报告称，拜登的团队"全天都在跨部门协调，获取各个行业的最新情况，并随时准备提供必要的援助。"

国土安全部在一条单独的推文中表示，正在与其美国网络安全局CISA、CrowdStrike和微软以及联邦、州、地方和关键基础设施合作伙伴合作，"全面评估和解决系统中断问题"。

如何防止这种情况再次发生

这次停机影响了广泛的关键基础设施提供商，这可能会引发美国官员和企业高管的新问题，即是否需要新的政策工具来避免未来发生灾难。

白宫高级技术和网络安全官员安妮·诺伯格（Anne Neuberger）在周五被问及IT故障时谈到了技术供应链中的"整合风险"。

诺伯格在阿斯彭安全论坛上回应有关IT故障的问题时说："我们需要真正考虑我们的数字弹性，不仅是在我们运行的系统中，还要考虑全球互联的安全系统、整合的风险、如何处理这种整合，以及如何确保如果发生事件，我们能够控制住并快速恢复。"

周五发生的混乱情况并不涉及恶意行为体，但世界各地的政府官员可能会模拟可能发生的情况。

澳大利亚外交部前网络安全和关键技术大使托比亚斯·菲金（Tobias Feakin）告诉CNN："CrowdStrike事件表明，如果恶意对手有这样的想法，可能会造成严重的破坏。"

8.微软和CrowdStrike事件有何关联？

根据微软的说法，Microsoft O365中断始于7月18日UTC时间晚上9点56分。他们说如果你受到CrowdStrike问题的影响，你需要在UTC时间晚上7点之前从备份中恢复。所以大约在MS 365中断前三个小时。所以大约有三个小时的窗口期。第一个肯定是CrowdStrike中断，然后在这三个小时内发生了一些事情，Office 365也受到了影响。它们是否有关联？很难说。。。

最后预测一下CrowdStrike的股价

推荐阅读

闲谈

威胁情报

1.威胁情报 - 最危险的网络安全工作
2.威胁情报专栏 | 威胁情报这十年（前传）
3.网络威胁情报的未来
4.情报内生？| 利用威胁情报平台落地网空杀伤链的七种方法
5.威胁情报专栏 | 特别策划 - 网空杀伤链

APT

入侵分析与红队攻防

天御智库

文章来源: https://govuln.com/news/url/VdOx
如有侵权请联系:admin#unsafe.sh