数据已经成为推动现代企业高质量发展的重要资产,在全球产生的数据量中,80%的数据都属于非结构化数据,且规模和增长速度还在不断提升。尤其随着人工智能技术不断演进,非结构化数据的应用场景和发展空间将更加广阔,无论是从释放数据价值还是从保障数据安全使用的角度来看,非结构化数据安全必将成为数据安全发展的核心板块。
日前,安全牛邀请到数篷科技联合创始人兼CTO杨一飞,就非结构化数据的治理痛点、数据流转中的安全问题、数据安全治理平台的实践路径等话题进行了探讨。
“
杨一飞
数篷科技联合创始人&CTO,带领团队构建国内首个零信任数据安全平台。前百度高级架构师,负责百度对内安全产品研发。早年就职于腾讯,负责腾讯云计算平台的安全研发工作。基于十余年企业基础设施安全领域研发与运营经验,完成多项突破,包括:大规模分布式细粒度访问控制、超大规模数据中心安全管控、海量数据安全流转及其全流程追踪取证等等。
非结构化数据安全治理更需关注
非结构化数据“分布广、难控制、难分析”的自身特点,导致它的安全治理难度很高,也是数据安全行业下一阶段发展的关注热点。
对于杨一飞而言,从基础设施角度切入数据安全与治理,有着天然的技术能力背景。他早年在腾讯从事云计算的底层基础设施安全工作,主要解决身份安全问题。后来他加入百度,负责整个底层基础设施平台安全。杨一飞一直致力于构建基础设施原生的安全体系,涵盖多个安全防御层面,包括终端、主机、云、应用和数据等。
多年工作实践中,他逐渐清晰地认识到,数据是未来推动数字化转型、促进业务快速发展的血液。所以数据的安全成为数字化产业发展的重要支柱,也是必须跨越的鸿沟;与此同时,数据只有流动起来才能释放价值,流动中和使用中的数据安全是当前数据安全领域的焦点所在。
“一些业内人士曾风趣地说,过去企业的数据都锁在保险柜里,每天都感觉数据很安全。可现在,随着信息化、数字化深入,数据必须拿出来才能完成产业链合作和协同,才能把业务做大做强,甚至推向全球。数据自然流动的内生需求已经势不可挡,而数据安全技术发展迫切需要跟上需求的节奏,确保有效控制数据风险,赋能数字化产业全球化发展。”杨一飞说道。
过去的结构化数据治理主要围绕着数据载体平台,比如数据库,通过基于标准化的数据协议和载体平台层面的处理,为治理工作打下坚实的基础。然而,非结构化数据由于分布广泛、形态多样、种类复杂的特性,很难找到一种统一又有效的方式来彻底解决这个问题。
业内针对非结构化数据治理的诉求非常迫切,但传统的解决方案基本起步于数据防泄露技术(DLP),其分类分级粒度较粗,且在落地效果上难以支撑数据治理的需要,一方面体现在数据的局部分析能力弱,另一方面也体现在宏观层面,缺乏有效的数据关联分析,在实际使用中效果并不好。随着数据安全重要程度增加,企业更加注重从治理层面进行数据安全建设,针对非结构化数据的安全技术也亟待革新。
从基础设施的角度出发
行业现有的数据治理机制与体系存在落地困难的情况,关键在于两个能力的不足:感知力和控制力。
感知力指的是对数据位置、使用过程、数据内容的观测能力,而控制力则是结合治理机制对不同类型和级别数据进行持续差异化管控的能力。非结构化数据非常分散,企业可能将数据存储在标配设备上,也可能存储在临时分配的云空间或虚拟桌面中,甚至广泛分布于不同的应用系统内,这就导致很难对数据建立统一的感知力。同样,非结构化数据具有使用灵活、容易被获取的特点,因此也很难建设持续的控制力。于是,数据治理机制与体系便成了空中楼阁,难以对数据使用过程产生实际影响,更无法落地闭环。
杨一飞介绍,数篷科技的整体技术发展思路是从基础设施层面入手,逐层向上构建数据安全平台。一旦数据的基础设施能够完成标准化转型,那么承载在基础设施上的数据的使用、存储和流转也会变得标准化。一旦数据使用变成标准化的过程,相应的数据安全治理也就有了可观测和可控制的抓手,从而实现上层机制和策略有效落地闭环。
目前,数据库审核是业界相对成熟的安全技术。它的底层就是依托在像数据库这类数据中间件上,通过标准化的统一介质,实现对数据的感知和控制。如果能够构建一个统一的非结构化数据中间件,连接各种终端、应用和分布在不同地域、不同组织的分布式数据,就为安全和治理构建起一个天然的基础平台,也就可以实施整个数据安全体系化建设并将其切实落地。
在他看来,非结构化数据和结构化治理之间存在的差距就是缺乏相应的标准化工具和平台。有了这样的工具和平台,就能帮助企业完成对整个数据的能观、能控和标准化。为此,数篷科技研发了一款针对非结构化数据的创新产品——DACS Data+数据安全流转中间件。该中间件产品以数篷科技之前发布的DACS终端安全工作空间产品为基础安全底座,继续向上层建设面向数据的安全支撑,为数据协同、共享以及综合治理提供全面的平台级安全能力。
杨一飞表示,从基础设施角度出发,敏感数据已经天然存在于DACS终端安全工作空间内,中间件平台对数据的感知力可以触达每个安全工作空间所在的终端,可以全面了解敏感数据的位置和内容。另一方面,对数据的控制力也会通过安全工作空间和中间件平台能力得以实现,确保敏感数据始终处于可观测与可控制的范围内。
一旦数据被连接和汇聚起来,就可以借助如今AI技术的发展红利,利用自然语言处理、大模型以及图像、音视频内容识别、模式识别、知识抽取和知识图谱等成熟技术,依托数据中心的强大算力,基于中间件平台,对非结构化数据进行更为精细化的分类和分级,以及复合数据脱敏、数字水印等多种技术的综合治理,从而为整个数据治理体系打下坚实的基础。
形象地说,数篷科技为数据打造了一件隐形的“斗篷”,这件斗篷始终将数据包裹其中,确保全面覆盖、如影随形,并通过DACS Data+数据安全流转中间件将数据“虚拟化”,依据分类分级等技术对数据全生命周期进行综合治理,通过持续的数据感知、分析与管控,实现数据安全治理落地闭环。
实现数据流转无边界
依托DACS Data+数据安全流转中间件,数据实现虚拟化,类似云计算对资源的虚拟化。数据虚拟化技术将数据实体存储于中间件平台上,而与其对应的虚拟体则可以存在于任何流转通道之中。数据虚拟体可以通过符合日常习惯的任何通道进行发送,如:IM、邮件、蓝牙、短信、U盘等等,而数据被使用时则必须回到底层的安全基础设施DACS终端安全工作空间之内。
也就是说,数据实体仅会存在于中间件平台和安全工作空间这两者之内,而流转则可以通过任意方式进行,这样就形成了“数据有界,流转无界”的效果。
杨一飞介绍,数据虚拟化技术的另一项收益是“数据不落地”效果。数据实体被使用时才会以片段形式被置于安全工作空间之内加密使用,也就是说,数据从不会以完整形态出现在终端设备上。相对于数据绝对的不落地,这种片段加密落地的方式在数据的可用性、安全性以及经济性之间达到了更好的平衡。结合数据的分类分级信息进行数据分片的风险持续管控,是一种更加精细化的数据治理手段。
进一步而言,由于数据存在于安全工作空间和中间件中,不仅可以持续的进行精细化的权限管理和持续访问控制,还能够生成全面的数据使用和流转日志,再结合数字水印技术,中间件平台就可以清晰地溯源整个数据流转的链路。
非结构化数据安全平台
杨一飞强调,企业需要构建一个规范化、统一的综合性数据平台,来支撑整个非结构化数据安全治理的建设大局。
数据安全治理不能一蹴而就,它需要集成庞大的复合技术体系能力。而这些能力,需要一个平台基座来关联和整合,这就是数据安全平台。数据安全平台技术是当前Forrester和Gartner等机构预测未来数据安全领域的核心技术之一。
而数据安全流转中间件,本质上就是一个数据安全平台。它结合了许多前沿技术,包括基于AI的分类分级技术、基于ABE的访问控制技术、基于水印的数据流转追踪技术,基于基础设施的数据虚拟化技术等。平台本身具有适应性,就像一件柔软的“斗篷”,能够覆盖整个数据全生命周期的安全,最终达成良好的数据安全治理效果。
在杨一飞看来,应用数据安全平台能达成以下三项非常显著的收益:一是全面覆盖,依托底层安全工作空间,可以实现多种形态非结构化数据的全面可感知与可控制;二是广泛适应,能够连接市面上基本所有终端平台,包括Windows设备、macOS设备、Linux设备、信创设备、移动设备甚至虚拟桌面,同时兼容多种应用协议,广泛连接存在于应用系统内的非结构化数据,甚至任意数据流转通道,达到“数据流转无边界”的效果;三是精细治理,有了平台依托,运用强大的算力,结合数据的集约化综合分析,从而实现精细化的数据安全综合治理。
站在基础设施角度来解决数据安全流转的长期困境,是一次技术领域的跨界融合。杨一飞认为,安全技术正不断向内生化、原生化方向发展,而融合基础设施技术体系则将强化安全技术的内生性和原生性,平台化的数据安全之道无疑将给传统数据安全问题打开新的维度。
相关阅读