我们为什么要研究BigID呢?
BigID隐私数据管理产品化的先驱者,其解决方案因能够很好帮助企业解决GDPR合规性问题,赢得了2018年RSAC 创新沙盒(Innovation Sandbox)大奖,被评为“最具创新性的初创企业”。
BigID在官网里是这样介绍自己的,在他们出现之前,隐私仅是政策、流程或人事管理里的事项,并不是产品。换句话说,是BigID给隐私管理带来了根本性的改变。
When BigID formed in 2016, privacy was a matter of policy, process, and people – but not product.
BigID公司是一家位于以色列特拉维夫和美国纽约的一家初创高科技公司,成立于2016年。在2016年的融资中该公司原计划融资210万美元,结果获得了高达1610万美元的首轮融资。在2018年,考虑到公司的解决方案可以帮助企业应对GDPR法规的需求,BigID公司开展了1400万美元的A轮融资。目前,在全球6个城市拥有办公室,员工数不超过500人。
根据BigID的官网展示可以看出来,数据发现服务是基础(Discovery Foundation),其他的隐私、安全、治理都是在其上的服务套件(Suite)。
通过一个平台,从数据方面帮助企业完成隐私、安全和治理的工作。
可以将企业的数据安全管理抽象为3层,即底层的数据层,中间的发现层,顶层的管理层。BigID就是工作在中间层和顶层,其中间层使用了“4C”的方法论实现了企业数据资产测绘,为各种管理策略落地提供了基础保障。
4C即:
Catalog 数据目录
Classify 数据分类
Correlate 数据关联
Cluster 数据聚合
在4C的基础上,使用「应用市场」(App Marketplace)的模式,实现隐私、安全和治理的策略部署和技术控制。
BigID是一款B/S架构的产品解决方案,可以部署在客户本地的任何环境,包括内部数据中心、IaaS、混合云等,应用可以装在docker里,也可以装在实体机里。
整个解决方案由如下微服务组成:
用户接口/API 网关
网页
编排器
关联器
Rabbit MQ
MongoDB
扫描器
支持接入上百种数据源。
BigID会通过单词和句子模式及语法结构识别和分类数据库和文件系统中的数据内容。BigID安装了一整套字段分类器(classifier)--如电子邮件、国民身份证号码和性别,以及文件分类器--如健康表格、所得税申报表和租赁协议。
BigID的两大主要分类方法:
1、正则。系统有内置,用户也可以自己写正则。
2、NER(Named Entity Recognition,命名实体识别)。是一种先进的基于神经网络的技术,可以分析非结构化数据源中的文本,识别隐藏的个人数据并对内容类型进行分类。BigID这NER分类器开箱即用,无需用户配置,仅能开启或禁用。
另外,BigID还支持对元数据-列名的扫描与分类。
BigID应用一系列先进的技术来扫描您的数据源,发现个人信息(PI),识别每个字段或文件包含的PI属性,并将PI与实体相关联。Correlation页面使你能够直观地看到一个实体的PI属性在不同数据源之间的相互联系,即使字段名不一样。你可以看到哪些类型的数据被发现(如电子邮件、电话号码和 地理位置)以及数据的位置。
实体(Entities)是指:
拥有相关个人信息的独立的个人
包含个人信息的数据存储对象,如数据库表、存储在文件系统里的文件、邮件与附件、任何存储数据的对象。
上图示例,E-mail这个属性在多少张表里出现过
数据目录用户界面为BigID先进的机器学习技术所发现的所有信息和元数据提供一个综合的、可搜索的、可过滤的视图。它结合了编目、分类、关联和聚类分析的结果,提供了关于您所有数据的最完整的信息集。
点进一行,里面的内容如下:
Referential Integrity
参考完整性(Referential Integrity)在不同的表和数据库中创建了一个字段的血缘图,这些字段含有相同的 数据的项目,甚至是不同的字段名。
血缘图的建立方法:
相关性和丰富性自动化
主键
手动通过API
通过参考完整性手动添加
聚类分析是BigID多管齐下的深入数据发现方法中的一个核心渠道。通过快速、准确地识别文件内容和类型,为非结构化数据提供数据智能和洞察力。
BigID的聚类分析与数据扫描并行运行,将无监督的机器学习技术应用于支持的文件类型,以:
处理数据对象的多个方面,如元数据、文件结构和文件内容。
识别文件内容和隐藏模式。
发现重复的数据。
规范化文本,以便更准确地匹配。
量化内容的相似性和数据对象之间的关系。
当文件被分析并按属性、内容、类型、人物、敏感性、背景、政策和其他维度进行分类时,聚类过程根据内容的相似性创建动态地图。聚类过程根据内容的相似性创建一个动态地图,显示出可以采取行动的数据对象集群,分配一个标签,应用一个政策,评估风险等。
最重要的是,聚类使以前无定形的和不可测量的数据具有定性和定量的可见性。
每个圆圈代表一个数据对象的聚类。
圆圈的大小与聚类中对象的数量成正比。
聚类之间的接近度代表内容的相似性。
通过「4C」完成企业内部数据资产测绘,建设了企业的元数据管理目录。
进入产品首页,我们可以看到一个数据仪表盘(dashboard),展示了数据发现与管理的全貌。
Sources with Findings - 有「发现」的源,即存在个人信息和敏感数据的源
Monitored Entities - 在「关联」中被识别出来的个人实体数量
Policies Triggered - 触发了安全策略的策略数
Attributes Found - 已经发现的数据属性,如姓名、密码、身份证号等
Objects with Findings - 被发现的包含个人信息属性的数据对象数量
BigID可以为数据资产目录设定策略,以检查当前状态是否满足管理要求。一个策略是由一个触发查询和一个触发阈值来定义的,前者可以找到所有符合指定查询条件的数据实例,后者则规定了允许的实例数量。
如下图,该策略定义了如果在EU以外的数据源中找到了10条及以上的EU居民个人信息,则触发告警。最后的结果可看见,在2019年2月8日发现41,789条不满足策略要求的数据。
还能进一步配置如下策略:
未加密存储的身份证号码、手机号;
未授权存储敏感信息的库表
存储中存在非授权的个人敏感信息
... ...
短时间内,通过资料浏览无法完全理解这个产品的全部功能,但BigID的「4C」理念是非常值得我们学习的。
只有在知道了自己有多少家底的情况下,我们才能做出正确的合规策略落地动作,不出现遗漏。
另外,BigID产品亮点在于使用了【机器学习】技术自动化识别存储中的包含敏感信息的文件,可惜,不支持中文语义,我们需要自行研发。
类似BigID的公司还有不少,例如securiti、TrustArc、OneTrust等等,各有所长,整体看下来,这些软件都是在帮助合规团队老老实实落实监管要求,或许老外的合规团队职责真的是在拦着资本家“不作恶”吧。
作者:韭不黄,十余年来一直混迹于信息安全行业,扛过设备,卖过服务,做过审计,查过黑客,反过欺诈,岁月神偷带走了我的苹果肌,留下了一肚子的瘫软,貌似我将要成为一个油腻的中年男人,不过依然对世界充满好奇,依然是一颗嫩绿的韭菜~