TLDR:
2024年7月19日,罗马尼亚切尔纳沃德核电站1号机组因厂区常规部分故障而自动与国家电网断开。有人推测这可能与同期发生的Crowdstrike(乌合之众)恶意软件攻击有关。
切尔纳沃德核电站采用加拿大CANDU 6反应堆设计,共有两台机组。两台机组虽有一定差异,但都采用了冗余和多样性设计以防范共因失效。此次事故似乎只影响了1号机组。
据报道,反应堆是在下午5点35分自动停堆的,这表明:
1. 这不是人工停堆,而是由于常规部分的故障触发了反应堆保护系统,导致受控停堆。
2. 停堆时间相对于"乌合之众"事件的高峰期似乎有些滞后。
基于现有信息,作者认为此次核电站事故可能与"乌合之众"攻击无关,但还需要更多细节来完全排除这种可能性。总的来说,在没有更多技术细节的情况下,很难下定论。但考虑到核电站对网络攻击的防范设计,二者应属巧合的可能性更大。
全文:
恶意软件研究界的传奇人物康斯丁·拉伊乌在他的X账号上发布了这条消息,所以它立刻引起了我的注意。
关于此次事件的技术细节很少。基本上,所有文章都在提供基于罗马尼亚国有核能公司Nuclearelectrica发布的新闻稿的相同信息。有趣的是,显然核电站常规部分的故障自动导致了反应堆停堆:
"7月19日晚,由于核电站常规部分出现故障,切尔纳沃德核电站1号机组自动与国家电网断开。"
那么,什么是常规部分呢?基本上,除了"核岛"(即核蒸汽供应系统,包括反应堆堆芯、稳压器、蒸汽发生器等)之外,核电站与其他发电厂相似。一旦蒸汽流向汽轮机,我们就可以说是任何其他发电厂了。所以,如果我们要定义"核部分"和"常规部分"之间的界限,可以说是位于蒸汽发生器回路中的主蒸汽隔离阀(MSIV)。
我画了下面这个简图来可视化这个概念。
切尔纳沃德核电站基于CANDU 6设计,是欧洲唯一采用此设计的核电站。事发时,1号和2号机组都在满功率运行,但2号机组并未受到影响。这说明了什么吗?我认为这不能说明问题。
1号机组比2号机组老,尽管它们采用相同的参考设计(1997年),但2号机组吸收了CANDU技术在1号机组建成后的所有改进。因此,两个机组在设计、安全性和可靠性方面存在一定差异。
我们还需要记住,核电站的设计是为了防范"乌合之众"式的事件,即最坏情况下的"共因失效"(Common Mode Failure),这会使电站的不同部分因单点故障而无法使用。因此,核电站采用了冗余和多样性作为纵深防御策略的一部分。我们也可以在其他安全关键系统(如航空电子设备)中看到类似的方法。
报道提到,1号机组在17:35(GMT+3)时"自动"断开并停堆。这有几个原因值得关注:
1. 这说明这不是人工停堆。这看起来显而易见,但实际上相当重要。这意味着不知何故,核电站的"常规部分"出现故障,成功地向反应堆发出了跳闸信号,并由反应堆保护系统(RPS)妥善处理,导致受控停堆。导致这种情况的原因可能有很多,在没有进一步信息的情况下,我无法真正缩小瞬变事件的范围,但它肯定是严重的(例如,由于汽轮机问题可能导致的负荷脱扣情况)。因此,我们应该假设停堆不是操作员根据当时的情况(例如,计算机崩溃)做出的决定。例如,2007年在美国的布朗费里(Browns Ferry)核电站就发生了这种情况,当时一个有故障的设备产生了大量以太网流量,最终导致操作员决定启动人工可控停堆。
2. 根据"乌合之众"攻击事件的发展过程,反应堆跳闸的时间似乎比其他干扰晚了一点。
基于目前掌握的信息,我认为"乌合之众"恶意软件攻击可能不是此次核事故的背后原因,但我们需要等待进一步的细节才能完全排除它作为根本原因的可能性。
备注:
- Crowdstrike:"乌合之众",一家网络安全技术公司,此处指代该公司同名的一起恶意软件攻击事件。
- Cernavodă:切尔纳沃德,罗马尼亚东南部城市,著名的切尔纳沃德核电站坐落于此。
- Nuclearelectrica:罗马尼亚国有核能公司。
- CANDU:加拿大重水铀(CANada Deuterium Uranium)反应堆,加拿大开发的一种核反应堆。
- Browns Ferry:布朗费里核电站,位于美国阿拉巴马州。
相关报道:
微软(Microsoft)声称,上周五与Crowdstrike(乌合之众)相关的大规模故障只影响了"不到1%"的Windows机器,这种说法试图淡化一个仍在全球经济中引起反响的事件,是一种透明的企业文过饰非。恢复工作比写一篇博客文章要困难得多。
在"乌合之众"Falcon平台的一次软件更新出错时,受到影响的850万个系统并非随机分布的Windows机器。这些机器被规模较大、资金较充足的组织用于需要"乌合之众"所承诺的那种保护的敏感功能,正如医疗、银行和金融、交通运输和公共安全等关键领域所遭受的破坏所证明的那样。
"这850万台设备所在的大型组织,其威胁和风险状况意味着它们有能力投资'乌合之众'的解决方案,"位于都柏林的网络安全咨询公司BH Consulting负责人布赖恩·霍南(Brian Honan)说。
英国网络安全专家凯文·博蒙特(Kevin Beaumont)在周一发布于社交平台Mastodon的帖子中表示,在有问题的更新发布三天后,清理工作仍在"进行中"。
受影响的系统陷入了无休止的崩溃循环:蓝屏死机、重启、加载有问题的"乌合之众"文件,然后再次崩溃。由于"乌合之众"直接访问操作系统内核,微软没有内置防御措施。修复受影响的系统需要删除该文件。微软已经发布了一个可以提供帮助的工具,或者受影响的用户可以进行擦除和恢复(参见:*"乌合之众"和微软的故障暴露了重大的恢复能力问题*)。
"我知道有不少组织还不到修复工作的三分之一,"博蒙特说。
在航空公司中,达美航空(Delta)继续受到特别严重的打击,导致公司层面和客户层面的业务中断。据航班跟踪网站FlightAware称,在周一上午美国时间10点左右,达美航空已经取消了当天19%即700个航班,这使得自周五以来取消的航班超过5000个。据路透社报道,大量航班取消和广泛延误使许多旅客滞留,达美航空尚未给出恢复正常运营的时间表。
微软周日发布了一个与"乌合之众"联合开发的工具,使管理员能够从受影响的系统中删除有问题的更新,尽管有一些注意事项。
任何使用微软BitLocker或类似产品进行全盘加密的系统(这在某些行业是监管要求)都必须先由管理员输入恢复密钥进行解锁。
一些组织集中存储BitLocker密钥,但许多组织只对关键服务器而非每一台台式机或笔记本电脑这样做。因此,他们可能需要让最终用户参与恢复过程。
另一个注意事项是:微软的工具需要从可启动的U盘运行,因此使用该工具需要物理接触系统。"你的生活将是从一个地点驱车到另一个地点,应用修复程序,然后继续前进。别想睡在自己的床上,或者吃一顿不是从快餐店买来的饭,"IT人士埃德·齐特隆(Ed Zitron)在一篇赞美系统管理员的文章中写道。
霍南说,需要亲自处理无法工作的设备将延长恢复时间,特别是"对于有许多远程工作或混合工作方式员工的组织而言,""这些员工需要到当地或中心办公室修复设备,或者IT人员需要到员工和设备所在的地方。"
参考资料:
https://www.linkedin.com/pulse/did-crowdstrike-fiasco-cause-romanias-npp-cernavod%C4%83-1-santamarta-witff
https://www.databreachtoday.com/blogs/crowdstrike-disruption-restoration-taking-time-p-3673
推荐阅读
闲谈
威胁情报
1.威胁情报 - 最危险的网络安全工作
2.威胁情报专栏 | 威胁情报这十年(前传)
3.网络威胁情报的未来
4.情报内生?| 利用威胁情报平台落地网空杀伤链的七种方法
5.威胁情报专栏 | 特别策划 - 网空杀伤链
APT
入侵分析与红队攻防
天御智库