观点|软件供应链安全分析报告:CrowdStrike “蓝屏”事件
2024-8-23 09:26:53 Author: www.freebuf.com(查看原文) 阅读量:0 收藏

摘要

2024年,全球网络安全领域发生了一起重大的供应链安全事件,即CrowdStrike的“蓝屏”事件。该事件不仅对CrowdStrike公司造成了巨大的声誉和经济损失,同时也对全球范围内依赖其安全产品的企业造成了严重影响。本报告旨在深入分析该事件的起因、影响及对软件供应链安全的启示,并提出相应的预防和应对策略。

1. 引言

软件供应链安全是确保信息技术产品和服务在整个生命周期中免受威胁的关键。CrowdStrike“蓝屏”事件的发生,凸显了软件供应链中存在的安全漏洞和风险管理不足。

2. 事件概述

2.1 事件背景

CrowdStrike是一家领先的网络安全技术公司,提供终端安全、威胁情报和事件响应服务。2024年初,CrowdStrike发布了一个软件更新,但该更新意外地引入了一个严重的bug,导致大量用户的操作系统出现“蓝屏”死机现象。

2.2 事件时间线

  • 2024年7月19日 04:09 UTC(北京时间12:09):CrowdStrike发布了一个针对Windows系统的传感器配置更新,该更新是Falcon平台保护机制的一部分,但这次更新意外地引入了一个严重的bug。
  • 2024年7月19日 05:27 UTC(北京时间13:27):CrowdStrike发现了问题并修复了缺陷,撤销了有问题的更新。在此时间之后上线的系统或在之前的窗口期内未连接更新的系统不受影响。
  • 2024年7月19日:全球多地用户开始在社交媒体上报告遭遇电脑蓝屏现象,至少20多个国家的交通、金融、医疗、零售等行业或公共服务的业务系统受到影响。
  • 2024年7月19日:CrowdStrike创始人兼CEO乔治·库尔茨公开表示歉意,并说明问题不是由安全事件或网络攻击引起,而是一个快速响应内容配置更新中的缺陷。
  • 2024年7月19日:微软表示已经意识到影响运行Windows客户端和Windows服务器的虚拟机的问题,并与CrowdStrike合作解决问题。
  • 2024年7月19日晚间:微软称根本问题已经得到解决,但残余影响仍在继续影响一些Microsoft 365应用和服务。
  • 2024年7月24日:CrowdStrike官网发布了Windows大范围蓝屏事件初步审查报告,并表示将在调查完成后公开发布完整的根本原因分析。

2.3 受影响范围

全球范围内使用CrowdStrike产品的企业均受到了不同程度的影响,包括但不限于金融、医疗、政府和教育等多个行业。

3. 软件供应链安全分析

3.1 软件供应链的概念

软件供应链是一个复杂且动态的生态系统,它涵盖了从软件的初始概念到最终用户手中的整个生命周期。这个流程不仅包括了需求收集、设计、编码、测试、部署和维护等关键阶段,还涉及到了各个阶段之间的交互和依赖关系。在软件供应链中,每一个环节都至关重要,因为它们共同决定了软件产品的质量和安全性。一旦某个环节出现问题,就可能引发连锁反应,影响整个供应链的稳定性和安全性。

3.2 风险点分析

软件供应链中的风险点众多,以下是一些主要的风险点:

源代码安全:源代码是软件产品的核心,其安全性至关重要。源代码的泄露或不当修改可能导致严重的安全漏洞,给攻击者以可乘之机;第三方库依赖:现代软件开发广泛依赖于第三方库和组件。这些第三方库可能存在未被发现的安全问题,一旦被利用,将直接影响到整个软件系统的安全性;编译和构建过程:编译器和构建工具的安全性同样关键。如果这些工具存在漏洞,攻击者可能利用它们在编译过程中植入恶意代码;分发和部署环节:软件在分发和部署过程中可能遭到篡改。如果分发渠道不够安全,恶意软件可能会被植入到最终用户的系统中;运行时环境:软件的运行环境配置不当也可能导致安全问题。例如,不安全的配置可能允许攻击者执行未授权的操作或访问敏感数据。

3.3 事件对供应链的影响

CrowdStrike“蓝屏”事件是对软件供应链安全性的一次严峻考验。该事件揭示了以下几个关键风险点:

  • 产品更新过程中的测试不足:CrowdStrike的更新未能在发布前通过充分的测试,导致bug未能被及时发现和修复。
  • 第三方组件的安全性问题:如果CrowdStrike的更新中包含了不安全的第三方组件,这可能加剧了问题的严重性。
  • 更新机制的缺陷:CrowdStrike的更新机制可能存在缺陷,未能有效防止或减轻bug的影响。

这一事件强调了软件供应链安全管理的重要性。企业必须在整个供应链中实施严格的安全措施,从源代码保护到第三方组件的审查,再到编译、分发和部署的每一个环节,都需要进行细致的安全评估和风险管理。只有这样,才能确保软件供应链的健壮性和抵御外部威胁的能力。

4. 事件原因分析

4.1 技术层面原因

CrowdStrike“蓝屏”事件的技术层面原因主要归结于代码缺陷、测试不充分以及更新机制缺陷。

代码缺陷是导致系统崩溃的直接原因。在软件开发过程中,代码的编写和修改是不可避免的。然而,如果代码审查不严格,就可能引入bug。在CrowdStrike的案例中,更新中可能包含了逻辑错误、资源管理不当或与操作系统的兼容性问题,这些缺陷在特定条件下触发了系统崩溃。

测试不充分是导致bug未被发现和修复的重要原因。尽管现代软件开发流程中包含了多种测试方法,如单元测试、集成测试和系统测试,但如果测试用例覆盖不全面或测试环境与实际运行环境不一致,就可能遗漏关键问题。CrowdStrike在更新发布前可能未能进行充分的回归测试或压力测试,导致未能捕捉到潜在的bug。

更新机制缺陷指的是在软件更新过程中缺乏有效的错误检测和回滚机制。理想的更新机制应该能够在更新失败或引发问题时自动检测并回滚到稳定版本,以最小化对用户的影响。CrowdStrike的更新机制可能没有实现这一功能,或者回滚机制执行不成功,导致用户遭受了长时间的服务中断。

4.2 管理层面原因

管理层面的原因涉及风险评估、应急响应和用户反馈处理。风险评估不足表明CrowdStrike在更新发布前可能没有进行详尽的风险评估。风险评估是识别潜在问题和制定应对策略的关键步骤。如果风险评估不够全面,就可能忽视了更新可能带来的负面影响。应急响应机制不完善反映了CrowdStrike在问题发生后的处理速度和效率。一个有效的应急响应机制应该能够在问题发生时迅速启动,评估影响范围,制定解决方案,并与用户沟通。CrowdStrike可能在这些方面存在不足,导致问题长时间未能得到解决。用户反馈处理不及时揭示了CrowdStrike在收集和响应用户反馈方面的缺陷。用户反馈是识别问题和改进产品的重要渠道。如果企业未能及时收集和处理用户的反馈,就可能错失解决问题的最佳时机。

4.3 人为因素

人为因素包括开发人员的疏忽、管理层的决策失误以及用户的不当操作。开发人员疏忽可能发生在编码或测试过程中。开发人员可能由于疲劳、分心或其他原因未能注意到代码中的潜在问题。此外,开发人员可能过于自信,忽视了某些测试用例的重要性。管理层决策失误可能在问题发生后出现。管理层可能由于压力、时间限制或其他因素做出了不当的决策,如忽视问题严重性、推迟发布修复补丁或未能与用户有效沟通。用户操作不当可能加剧了问题。用户在更新过程中可能由于不熟悉操作、误解更新说明或未能遵循最佳实践而导致问题恶化。例如,用户可能在更新过程中中断了更新过程,或者在更新后未能重启系统。

5. CrowdStrike 事件总结出的预防与应对措施

5.1 技术层面的预防措施

技术层面的预防措施是确保软件供应链安全的基础。以下是针对CrowdStrike事件总结的一些关键技术预防措施:

加强代码审查:代码审查是预防bug引入的第一道防线。通过代码审查,可以识别出潜在的错误和安全漏洞。企业应该建立严格的代码审查流程,确保每一段代码在合并到主分支之前都经过至少一名其他开发人员的审核。此外,可以利用自动化工具辅助代码审查,以提高效率和准确性。

完善自动化测试:自动化测试可以显著提高测试的覆盖率和效率。企业应该开发全面的自动化测试套件,包括单元测试、集成测试和系统测试,以确保软件的每个部分都能按照预期工作。自动化测试还应该能够模拟各种边界条件和异常情况,以发现潜在的问题。

优化更新和补丁管理:软件更新和补丁管理是维护软件安全的关键环节。企业应该建立一个稳健的更新机制,确保所有用户都能及时收到安全补丁和重要更新。此外,更新过程中应该有明确的版本控制和回滚策略,以便在更新失败时能够迅速恢复到稳定状态。

5.2 管理层面的改进建议

管理层面的改进对于预防和应对软件供应链安全事件至关重要。建立风险评估机制:在产品发布前,企业应该进行全面的风险评估,以识别可能的安全漏洞和潜在的负面影响。风险评估应该包括对源代码、第三方库、编译过程和部署策略的审查。强化应急响应流程:应急响应流程是企业在面对安全事件时能够迅速采取行动的关键。企业应该建立一个详细的应急响应计划,包括事件识别、评估、响应和恢复的步骤。此外,应该定期进行应急演练,以确保所有相关人员都熟悉流程并能够在实际情况下有效执行。提高用户反馈的响应速度:用户反馈是识别和解决软件问题的重要来源。企业应该建立一个高效的用户反馈系统,确保用户报告的问题能够被快速收集、评估和解决。同时,应该与用户保持开放的沟通,及时提供问题解决的进展和状态更新。

5.3 人为因素的控制策略

人为因素是软件供应链安全中不可忽视的一部分。提升员工安全意识:员工是软件供应链中的关键参与者,他们的安全意识直接影响到软件的安全性。企业应该通过培训和教育提高员工对安全问题的认识,确保他们了解最新的安全威胁和防御策略。加强培训和教育:定期的安全培训和教育对于保持员工的安全知识更新至关重要。企业应该提供在线和面对面的安全培训课程,涵盖编程安全、测试技巧、安全最佳实践等主题。制定严格的操作规范:明确的操作规范可以减少人为错误和疏忽。企业应该制定详细的开发、测试和部署指南,确保所有员工都遵循相同的安全标准和流程。此外,应该定期审查和更新这些规范,以反映最新的安全要求和技术变化。

6. 结论与建议

CrowdStrike“蓝屏”事件不仅是一个警示,更是一个深刻的教训,它凸显了软件供应链安全管理的重要性。这一事件表明,供应链的每一个环节都可能成为安全漏洞的源头,因此,必须采取全面而细致的措施来加强整个供应链的安全性。

加强软件供应链的安全管理是首要任务。企业应该从软件开发的最初阶段开始,一直到软件的部署和维护,确保每个环节都符合最高的安全标准。这包括但不限于源代码的安全存储、开发环境的安全配置、第三方组件的安全审查以及软件构建和分发过程的安全监控。

建立全面的安全测试流程是预防安全问题的关键。企业需要开发一个全面的测试策略,包括自动化测试、手动测试、性能测试和安全测试。这些测试应该能够覆盖软件的所有功能和边缘情况,确保在软件发布前能够发现并修复潜在的安全漏洞。完善风险评估和应急响应机制对于快速识别和响应安全威胁至关重要。企业应该建立一个系统化的风险评估流程,定期评估软件供应链中的潜在风险,并制定相应的缓解措施。同时,应该建立一个快速有效的应急响应机制,确保在安全事件发生时能够迅速采取行动,最小化损失。加强员工的安全培训是提高整个团队安全意识和能力的基础。企业应该定期为员工提供安全培训,包括最新的安全威胁、防御策略和最佳实践。通过培训,员工可以更好地识别和防范安全风险,提高整个团队对安全问题的反应速度和处理能力。

安全事件推动着安全管理制度的发展,但市场的整体能力提升一方面需要以事件为驱动,另一方面则需要制度做保障,对标准与优秀实践进行宣传与表扬,将管理底线与惩戒措施加以落实。实现“有形的手与无形的手”相结合,全方位推动软件供应链安全管理体系的建设与整个安全产业生态的发展。相信这次事件是一次重要的标志性事件,西方国家的政府机构与安全公司对事件做出的反应与处理措施将成为我们借鉴的依据。与此同时,我国能够避免此次事件的重大影响,也体现出我国在信息安全领域自主可控的重要成果与战略设计的高瞻远瞩。但事件依旧给我做出了一个提醒,也就是信息化体系如果无法在软件供应链安全底层做到整体安全保障与可控,那未来可能会出现仅发生在我国的“蓝屏”事件与信息系统服务终端的风险。对此我们更应提高警惕,将信息化安全防护工作做的更深入、更透彻更广泛,通过加强安全管理、建立全面的测试流程、完善风险评估和应急响应机制以及加强员工培训,提高我国软件供应链的安全性,预防和减少安全事件的发生。


文章来源: https://www.freebuf.com/articles/neopoints/409256.html
如有侵权请联系:admin#unsafe.sh