世界依靠数据运行。这一直是公认的事实,但数据的力量可能从未像今天这样强大。我们生活在信息的巨大时代——一个看似无限的知识宝库就在我们的指尖上。
但是,数据当然不仅仅是供个人使用。事实上,数据对商业世界的影响最大。数据是让企业发展引擎保持运转的燃料。
然而,事实是,企业平均使用的数据不到他们积累的一半。其余的数据存留在了网络上的某个地方,在那里它变成了所谓的“暗数据”,使您的客户、员工和公司面临风险。
什么是暗数据?
处理暗数据的最大挑战之一是,许多业务经理,即使是最高级别的经理,也不知道它是什么或如何管理它。这是一个问题,因为所有公司每天在开展业务时都会产生大量的暗数据。
暗数据是指通过普通业务交易收集的信息,这些信息在直接交易之外不具有特定的业务功能。它是通过普通业务流程生成的信息,即使在达到其直接目的后仍然存在。此信息可能包括客户电子邮件或邮寄地址、电话号码或购买日志。
由于数据没有真正的业务效用,因此经常被遗忘、无组织且不安全的存储。这是暗数据构成的真正威胁,因为即使它对您的业务没有合法功能,它也很容易被攻击者利用以进行各种网络犯罪,从身份盗窃到金融欺诈。
用最直接的术语来说,暗数据是组织不知道他们拥有的数据。它是庞大、复杂且不断扩张的大数据世界的一部分,也是最大的一部分。
考虑一下组织为特定目的收集和处理的所有数据。如果他们正在积极分析它,他们很可能知道数据的存在。但是,组织收集和存储的其余数据是未被使用、处理或分析的数据。潜伏在阴影中并隐藏在表面之下的数据,收集风险并沉睡在错失的商机中。组织不可避免地拥有但自身却不知道的无组织、未开发、未受保护和未知的数据。
暗数据的类型
组织产生、存储的数据分为三类:
1、关键业务数据,与企业持续增长和目标实现相关的高价值信息
2、隐藏在内部网络中的冗余、过时和琐碎 (简称:ROT) 的数据,一旦发现,可以标记为删除或移动到补救工作流中
3、公司不知道他们拥有未使用的暗数据,这会带来持续的风险
未知数据可以位于任何地方,虽然非结构化数据在暗数据中占比最大,但它可以驻留在以下来源中:
1、结构化数据。这些数据由预定义的数据模型表征。它们基于文本,易于搜索,由日期、电话号码、社会安全号码、姓名和交易历史等组成。这些数据通常存储在行和列中,并存在于关系数据库、数据仓库等中。
2、非结构化数据。在这些情况下,没有定义的数据模型。文本难以搜索,包括 PDF、图像和视频文件。数据以各种形式存在于应用程序、数据仓库和数据湖中。示例包括电子邮件、消息和对话记录,仅举几例。
3、半结构化数据。这是松散地组织在元级结构中,包含 HTML、XML 和 JSON 格式的非结构化数据。这些数据存在于关系数据库、标记文本格式、摘要和图表中。半结构化数据的示例包括服务器日志、按主题标签组织的推文以及按文件夹排序的电子邮件。
未开发的数据可能包括被遗忘的数据、元数据、不再相关的已过时的敏感数据等。一些常见的例子包括:
电子邮件和邮件附件
下载然后忘记的 zip 文件
前员工数据,包括项目文件和注释
演示文稿和电子表格
地理位置数据
日志文件和帐户信息
交易历史
客户通话记录和记录
音频、视频、图像和文本文件
财务报表
暗数据在哪里生成?
Gartner 将暗数据称为“组织在常规业务活动中收集、处理和存储的信息资产,但通常不会用于其他目的。”
因此,未使用的数据通常与被利用和处理的数据一起被收集。任何位置的任何数据(存储在任何类型的数据源中,本地或云中)都可能是暗数据。在普通组织的数据中,15% 是关键业务数据,33% 是 ROT 数据,52% 是暗数据 — 暗数据因其非常隐蔽的性质而容易受到攻击并受到持续的风险。
首先,通过提出以下五个问题来确定您在流程中的位置:
1、您是否知道敏感的非结构化数据在哪里,有多少数据,以及它对您的组织有多大的风险?
2、您是否跟踪谁有权访问数据?
3、如何在没有自动化的情况下对企业范围内的合规性数据进行分类和标记?
4、您多久对结果进行一次分类、验证和补救?
5、您如何了解数据风险并保护敏感数据的隐私?
暗数据挑战
暗数据通常与目的驱动的数据一起被捕获,因此通常包含敏感、个人、受监管、易受攻击或高风险的信息,这些信息必须不落入坏人之手。这些数据未经分析的事实给公司带来了主动和被动的问题——这些问题可能导致巨大的成本。
实际上,暗数据仅仅存在于公司的系统中,而不被注意,没有适当的保护措施,有时会持续很长时间,从而增加安全风险。由于数据是未知的,因此也没有公司通常会为合规而实施的必要监管流程。由于未知数据基本上被忽略,恶意攻击者认为它的时机已经成熟。
此外,未开发的数据可能包含有价值的信息,如果公司只知道它的存在、它包含什么以及如何定位和利用它,他们就可以利用这些信息来获得洞察力。企业可能会花费数百万美元收集或分析新数据,以从他们已经拥有的相关信息中获得见解,并可以利用正确的技术。
查找和识别暗数据
了解暗数据的存在并且认识到这是一个问题,是降低风险的必要步骤,但还不够。企业领导者还必须了解在哪里可以找到它,如何识别它以及如何处理它。
在查找、识别和管理暗数据时,您最好的策略将是数据映射。通过数据映射,您将能够确定正在生成哪些数据,何时、如何以及在哪里生成。跟踪数据源通常是确定数据生成后去向的第一步。
反过来,这使您能够找到潜伏在网络中的所有曾经隐藏的信息,尤其是在云中。这意味着您将能够更好地识别哪些数据点躲过了您的云数据管理流程和相关控制。
无论数据类型如何,发现和分类的工作流都可以分为三个主要阶段。
1、使用正则表达式、列表、算法和机器学习来查找敏感数据。
2、显示已找到的数据的清晰表示形式,以便所有人都可以看到。
3、使用所表示的数据遵守数据隐私政策和法规,以最大程度地减少退款、罚款和客户流失。
最后,您需要将所有三种数据类型完全可见并且都在一个地方。其中非结构化数据尤其重要,非结构化数据每年增长55-65%。通过连接非结构化数据源,您可以获得所有非结构化数据的可靠清单,发现可能使您的组织面临风险的隐藏数据,并验证和实施文件授权。
您应该如何处理暗数据?
查找和分类未知数据对于组织的隐私、安全性和合规性计划至关重要。如果您不知道您的数据存在,则无法确保其符合合规性,并且无法将数据与身份相关联,则无法满足数据隐私标准。此外,您无法保护您不知道自己拥有的东西,也无法知道它需要什么级别的保护。因此,未知数据具有未知的风险水平,但通常更容易泄露且更容易受到数据泄漏的影响——考虑到它很可能包含个人和敏感信息,这是一个非常可怕的消息。
对于许多企业来说,开始捕获未开发的数据似乎势不可挡,但从中查找、分类、分析和释放价值的过程只是实施正确的发现解决方案的问题。公司需要机器学习驱动的技术,这种技术具有深入的发现基础,可以在所有系统和资源中ーー无论在组织中的任何地方,无论数据藏在哪里ーー找到数据。
暗数据分析
暗数据分析是指公司用来定位未知数据的技术解决方案,以便可以释放其价值,从而为更好的业务决策提供信息。
优先考虑挖掘暗数据的公司已做好充分准备,以降低风险并释放有价值的业务见解,从而帮助他们的组织成长和发展。启用解决方案,以便将以前未开发的数据移动到数据分析平台,可以更广泛、更准确地查看整个企业中的客户数据。
照亮暗数据
为了保护暗数据免受不良行为者的侵害并将其提供给业务审计员,组织需要找到它并发现哪些数据是敏感的,哪些是可以暴露的。发现和分类暗数据使组织能够利用这些以前未知的信息进行决策。为此,安全团队需要知道敏感的暗数据驻留在何处、谁访问它以及何时发生滥用,以便立即采取行动。
评估和修改组织的暗数据有两种主要方法。有独立的咨询专家可以代表组织审查数据环境并对未使用和未编目的数据进行深入审查。组织还可以使用正确的工具自动查看其所有数据存储库,无论其数据位于何处。这通常是可取的,因为它进一步使组织能够识别违规行为,识别内部权限(谁可以看到什么),发现组织数据安全的其他差距,并识别可能危及机密和私人数据的潜在恶意或疏忽行为。如果组织选择使用数据分析解决方案而不是外部承包商,他们总是会更全面、更敏锐、更准确地了解他们的数据,并就如何继续补救任何风险采取更明确的行动。
只有组织能够了解其暗数据,才能发现其业务价值并相应地保护这些数据。构建一个基本框架以“标记”或编目这些隐藏数据是获得该见解的第一步。否则,组织就无法遵守数据治理标准、区域法规合规性、提供真正有效的安全性或为其客户和员工保证数据隐私。
组织需要知道他们的数据是否已经可见并被使用,是托管数据、业务关键型过时冗余数据还是暗数据?了解数据在哪里、是什么以及必须对其应用哪些标准和策略至关重要。了解谁在访问它以及如何(和应该)管理组织数据都是分类和发现的基本框架的一部分。经过适当的调查,可以安排删除真正过时的暗数据,从而减少数据存储所需的容量和相关成本。
保护云中的暗数据
在您发现并准确识别出可能堵塞系统(并且每年可能使您的公司损失数百万美元的存储费用)的庞大暗数据存储库之后,是时候组织起来了。
正如我们所看到的,暗数据可能会对您的网络安全构成重大风险,并破坏您的数据安全合规性。这些数据中的大部分很可能是敏感或私有的,应该受到保护,但事实并非如此。
对曾经的“暗”数据开展组织工作意味着对其进行严格的分析,以准确了解数据应该落在公司系统治理流程范围内的位置。例如,关键是要确保您保护曾经隐藏的数据免受内部威胁,例如不拥有适当权限的员工的访问或利用。
正确组织隐藏数据对于围绕公司的敏感信息安装额外的保护层也至关重要。例如,云数据存储虽然提供了重要的安全性,但绝不是无懈可击的。
云系统面临数据泄露的风险,除非制定适当的程序来限制访问并增强安全性。这可能包括优化云安全性的措施,例如使用多因素身份验证过程或加密现在组织的最敏感的暗数据。
总结
暗数据对当今的企业、员工和消费者来说是一种无处不在但相对较少被认识到的威胁。这是普通业务流程的必然结果,但许多商业领袖,包括训练有素的技术专家,都不知道它是什么或如何管理它。
暗数据是通过普通业务事务生成的信息,但除了该直接事务之外,它没有实际的业务效用。但是,生成的数据不会消失。相反,它们挥之不去,经常被遗忘,直到它们被不良行为者发现并用于邪恶目的。学习查找、识别和组织暗数据(尤其是存储在云中的暗数据)对于保护公司和消费者免受一系列威胁(包括金融欺诈和身份盗用)至关重要。
参考及来源:https://cybersecurity.att.com/blogs/security-essentials/identifying-and-securing-your-businesss-dark-data-assets-in-the-cloud