浪潮云发布《数据云技术发展及应用白皮书》
日期:2023年12月08日 阅:52
数据云技术发展及应用白皮书
目录
一、 引言
1. 技术背景
2. 目的意义
二、 国内外研究现状
1. 定义和特点
2. 国内外发展现状
三、 数据云建设需求与挑战
1. 需求分析
2. 技术挑战
四、 数据云框架与应用
1. 数据云典型框架
2. 数据云应用场景分析
五、 数据云安全合规需求分析
1. 数据云安全风险分析
2. 数据云安全合规挑战
六、 总结与展望
1. 数据云目前存在问题
2. 数据云未来发展与建议
参考文献
一、引言
1. 技术背景
大数据和云计算是两个在信息技术领域取得巨大成功的概念,它们在不同的发展背景下逐渐演进,并相互影响。大数据的概念开始于2000年代初,当时互联网的普及和数字信息的快速增长导致了大量的数据生成和积累。传统数据库管理系统无法有效处理这些大规模、多种类型和高速产生的数据,因此需要新的技术来应对挑战。
Hadoop的出现标志着大数据时代的开始。Hadoop是一个分布式存储和计算框架,可用于处理大规模数据集。它基于Google的GFS和MapReduce论文,提供了分布式数据存储(HDFS)和计算(MapReduce)能力。随着大数据的实时性需求增加,Apache Storm和Apache Kafka等流处理技术出现,使得组织能够实时处理和分析数据流。为了处理半结构化和非结构化数据,NoSQL数据库(如MongoDB、Cassandra和Redis)兴起。它们提供了灵活的数据模型和高度可扩展性。同时大数据的分析驱动了机器学习和人工智能的发展,这些技术可以从大数据中提取洞察和模式。
云计算起源于2000年代初,当时互联网基础设施的提供商开始提供虚拟化和资源共享服务,以便更有效地管理计算资源。云计算的出现是为了解决传统IT基础设施的高成本、低效率和复杂性问题。早期的云计算提供了虚拟服务器、存储和网络服务,使组织能够租用计算基础设施而无需自行购买和管理硬件。PaaS层面引入了开发平台,使开发人员能够更轻松地构建、测试和部署应用程序,而无需担心底层基础设施。SaaS提供了基于云的应用程序,用户可以通过互联网访问,而无需安装和维护本地软件。容器技术如Docker和容器编排工具如Kubernetes改变了应用程序的交付和部署方式,使其更适合云环境。边缘计算允许在物理接近数据源的位置处理数据,以减少延迟和提高响应性。
在今天,大数据和云计算已经密切结合,许多大数据解决方案和平台都构建在云计算基础设施上。云计算提供了大规模的计算和存储资源,为大数据处理和分析提供了理想的环境。这两者的演进继续推动着数字时代的创新和发展。
Data Cloud技术背景涵盖了多个领域和技术趋势,其中一些关键方面包括:
云计算基础设施:Data Cloud建立在云计算基础设施之上,这些基础设施提供了高度可扩展的计算和存储资源。云提供商如AWS、Azure和Google Cloud等提供了数据云解决方案,以便组织能够利用其数据,而无需自己构建和维护庞大的硬件基础设施。
大数据技术:数据云通常使用大数据技术来存储和处理大规模数据集。这包括分布式文件系统(如Hadoop HDFS)、分布式计算框架(如Apache Spark)、分布式数据库(如Apache Cassandra和Amazon DynamoDB)等。这些技术允许在大规模数据上执行高性能的分析和查询操作。
容器和容器编排:容器技术(如Docker)和容器编排工具(如Kubernetes)对于构建和部署Data Cloud解决方案至关重要。它们提供了环境隔离、可移植性和自动化部署的能力,使数据应用程序能够在不同的云环境中运行。
数据湖和数据仓库:数据云通常包括数据湖和数据仓库,用于存储和管理结构化和非结构化数据。数据湖允许将原始数据存储在其原始格式中,而数据仓库则用于处理和分析已经加工和结构化的数据。
数据集成和ETL(抽取、转换、加载):数据云解决方案通常提供了强大的数据集成工具,以便从不同来源的数据源中抽取、转换和加载数据。这些工具帮助将数据整合到单一的存储中,以支持分析和查询。
安全和隐私:由于数据云通常托管敏感数据,因此安全性和隐私保护是关键问题。技术背景包括数据加密、身份验证和授权、访问控制、审计日志记录等安全措施,以确保数据的机密性和完整性。
人工智能和机器学习:数据云通常集成了人工智能和机器学习工具,以支持数据分析、预测建模和自动化决策。这些技术能够从大规模数据中提取有价值的信息和见解。
总的来说,Data Cloud的技术背景是一个多领域的复杂生态系统,涵盖了云计算、大数据、容器技术、数据管理、安全性和人工智能等多个方面,旨在帮助组织更好地管理和利用其数据资产以支持业务需求。技术背景的不断演进和创新推动着数据云领域的发展和成熟。
2. 目的意义
本白皮书主要目旨在推动数据云技术的发展和创新,通过阐述当前数据云的技术趋势、最佳实践和新兴技术,帮助技术社区了解数据云领域的最新进展,鼓励研究人员和工程师继续改进和开发新的解决方案,同时有助于企业或组织了解如何在实际应用中有效地利用数据云,包括最佳实践、架构设计、性能优化和安全性方面的建议,以支持数据云技术在各个行业的应用。不同领域的组织可以根据白皮书提供的信息和建议,自定义数据云解决方案以满足其特定需求,从而促进行业数字化转型和创新。
总之,数据云技术发展及应用白皮书的目的是为了推动技术进步、提供指导、促进标准化、支持决策、促进知识共享和支持行业应用。这些白皮书在数据云领域的发展和应用中发挥着重要的作用,推动数字化转型和释放数据价值。
二、国内外研究现状
1. 定义和特点
Data Cloud(数据云)是一个广泛用于描述云计算中数据管理和存储解决方案的术语。它通常指的是云服务提供商提供的数据存储、处理和分析平台,这些平台可以让组织轻松地存储、管理和分析大规模的数据集,而无需自己建立和维护复杂的基础架构。
数据云的常见特征和用途:
不同的云服务提供商(如亚马逊AWS、谷歌云等)都提供了自己的数据云解决方案,以满足不同组织的需求。数据云的出现使组织能够更轻松地利用其数据资产,实现更好的业务洞察和决策。
亚马逊对于数据云的定义是集成的数据管理系统,该系统统一企业中所有的数据来源、数据存储和支持数据基础设施。大多数大型组织都拥有复杂的 IT 基础架构,其中可能涵盖多个云服务提供商、本地资源和旧版软件。这可能会导致数据出现冗余、编目不当且难以管理。数据云消除此类数据孤岛,可让组织中的每个人更轻松地访问数据并将其转化为可供使用的见解。
谷歌对数据云的定义是提供了一个基于云的开放式数据基础架构,可实现企业数据的可用性、集成、可移植性、可用性和安全性。它提供了一种全面且成熟的云方法,提供按需计算、存储、传送和高级分析功能,使组织能够利用其数据来推动转型并创造价值。数据云以消除数据碎片化并充分利用数据的全部潜力为目标,可以更轻松地统一、连接和提供数据,它提供弹性佳且可靠的数据库、分析和机器学习系统来推动创新、改善体验并更快实现价值。
浪潮云将数据云定义为以数据为核心、支撑数据空间的分布式数据基础设施服务,提供“数采-数算-数用”的全生命周期支撑能力,实现数据的可信流通、持续运营。其主要有三大特点,第一为新要素,数据优先,聚焦数据价值链与流通;第二为新产品,围绕数据价值链与流通,构建数据云新产品;第三为新模式,面向数据、建管运融合的DOS模式,最终实现数据采集汇聚、数据计算、数据应用和数据共享,同时打造“数据驱动”的智慧供应链、智能工厂、安全环保、数智服务等多领域解决方案及产品
2. 国内外发展现状
数据库是数据基础设施的萌芽阶段,属于数据的第一代基础设施,最早的商用数据库产品如Oracle、DB2,等生于1970年代。早期的数据库应用于以联机事务处理场景为主,直接承载业务系统、交易系统的数据存储与计算,此类数据库又被称之为“事务型数据库”或“交易型数据库”。1990年,随着E.F.Codd于1993年正式提出联机分析处理(OLAP)的概念,数据基础设施开始进入“数据仓库”时代,数据仓库属于第二代基础设施。2005年后,由于互联网、移动互联网的逐步普及,业务系统的终端用户量的爆发式增长,企业内沉淀的数据量同样呈现爆发式增长,数据基础设施开始进入“大数据平台”阶段,大数据平台属于第三代数据基础设施。2015年后,企业上云已经成为普遍共识,同时企业各业务部门对大数据分析的需求更加普遍化、敏捷化、个性化、场景化,数据的业务价值也由辅助决策转变为推动创新。在这一背景下,数据基础设施开始进入“数据云”阶段,即数据云第四代基础设施。
数据基础设施经历了漫长的演进历程,但从数据库、数据仓库到大数据平台阶段,数据基础设施在扩展能力、弹性能力、查询性能、易迁移性等方面,始终受到MPP、SQL-on-Hadoop等上一代数据仓库技术的制约。
因此,数据基础设施需要对技术进行彻底变革,变得更加统一与强大,而新一代数据基础设施——“数据云”的出现,预示着数据基础设施的未来变革方向。
随着企业上云从互联网逐步渗透到传统企业,创新业务、边缘业务逐步渗透到传统业务、核心业务。同时,全球范围内的数据的产生与存储过程,越来越多地从传统数据中心转移到公共云环境中。根据IDC报告显示,到2025年,公共云中的数据百分比将接近50%。
在国内,随着云计算技术的不断成熟和普及,数据云服务得到了广泛应用和推广。中国的云计算市场规模不断扩大,各大云服务提供商纷纷推出数据云服务产品,如阿里云的MaxCompute、腾讯云的COS、华为云的DWS等。这些服务提供了高可靠性、高可扩展性和强大的计算能力,帮助企业实现数据存储、处理和分析的需求。同时,政府也加大了对数据云的支持力度,鼓励企业加大对云计算和数据云的投入。
在国外,数据云的发展也非常活跃。美国是全球数据云服务的主要市场,亚马逊的AWS、微软的Azure和谷歌的GCP等巨头云服务提供商在数据云领域占据主导地位。这些服务提供商提供了全球化的数据中心网络,可以满足企业在全球范围内的数据存储和处理需求。此外,欧洲和亚洲等地区的数据云市场也在不断发展壮大,各地的云服务提供商纷纷涌现。
“数据云平台”是新一代的数据基础设施,它能够依托云原生特性、计算存储分离架构、强ACID特性、强SQL标准支持、Hadoop原生支持、高性能并行执行能力等一系列底层技术的变革,实现高弹性、强扩展性、强共享性、强兼容性、强复杂查询能力、自动化机器学习支持等上层技术能力的变革,最终帮助企业有效应对大规模、强敏态、高时效、智能化等愈发明显的数字化趋势。数据云在各个行业都得到了广泛的应用。例如,在金融行业,数据云可以帮助银行和金融机构进行风险管理、反欺诈和客户分析等工作;在制造业,数据云可以用于物联网设备的数据收集和分析,提高生产效率和质量;在医疗健康领域,数据云可以用于医疗记录的存储和共享,加快医疗诊断和研究的进程。此外,零售、物流、能源等行业也都在积极探索数据云的应用。
三、数据云建设需求与挑战
数字“新基建”牵引着基础设施向数字化、智能化、网络化方向发展,而数据库、数据仓库、大数据平台和数据云等基础软硬件数据平台,构成了企业和政府部门数字化转型的重要基础设施,即“数据基础设施”。数据基础设施的演进历程,已经经历了数据库、数据仓库、大数据平台三个完整阶段。目前,数据基础设施正在迈向前三个阶段之后的第四个阶段,即“数据云”阶段。“数据云”应利用云服务器、分布式存储等云原生技术,对数据基础设施的扩展性能进行深度优化,充分适应云上数字化应用对高度弹性、无限扩容能力的要求;同时采取计算、存储分离的技术架构,充分适应数字化应用对计算、存储分别独立扩展的要求,增强弹性扩展的灵活性,满足各类数字新基建建设需求。
1. 需求分析
当今社会已经进入一个企业数据高速膨胀的时代,全球每年的数据规模平均以40%的速度增长。“数据云平台”作为新一代的数据基础设施,依托云原生特性、计算存储分离架构、强ACID特性、强SQL标准支持、Hadoop原生支持、高性能并行执行能力等一系列底层技术的变革,实现高弹性、强扩展性、强共享性、强兼容性、强复杂查询能力、自动化机器学习支持等上层技术能力的变革,满足企业有效应对大规模、强敏态、高时效、智能化等愈发明显的数字化趋势需求。
孤立的业务系统需要企业花费大量精力和资源来维护和管理,使得企业数据的流转、使用变得困难。许多企业都难以以足够快的速度管理数据,以实现数据的智能化使用,企业也无法轻松地将其与现有系统集成,并且会在扩缩和管理IT 基础设施时遇到困难。从而大部分时间花在将格式正确的数据放到正确的位置,而很少关注真正有价值的数据分析工作,这也是数据云诞生的主要需求之一。数据云主要目标是消除数据碎片化并充分利用数据的全部潜力,实现更轻松地统一、连接和管理数据,提供基于云原生的弹性可靠的数据库,从而更快的释放数据潜能,使企业能够利用其数据来推动十字花转型并创造价值。
在建设数据云阶段,云围绕数据构建以数为核心构建整个云体系。数据云的需要应包括数据采集、数据计算、数据应用到数据流通的全生命周期的支撑能力,其中:
数据采集:围绕数据要素发展的底层逻辑,通过全域全量、多源异构实现数据采集。大模型的出现对数据提出了更高的要求,数据作为战略资产,全域全量拥有这些数据是未来发展的核心竞争力,因此在数采层面,要解决全域全量的数据采集,包括采集完之后,如何对不同类型、不同来源的数据进行治理。
数据统一:采集完的多元异构的全域全量海量数据,进入浪潮数据云数据治理工厂进行智能化处理,把数据资源标准化成数据资产。
数据可用:将数据通过治理变成可被调用的数据。
数据计算:依托数据云基础设施,进行海量数据的高效处理实现数据计算。数据计算模式既可以做简单的机器学习,又可以做复杂的大模型训练。深度设计的湖仓一体、流批一体等技术,确保云数完全融合之后,资源利用率、数据访问I/O效率都有较大提升。
数据使用:整合多维数据形成具体行业模型,驱动数据应用面向业务创新。
数据流通:通过数据不动模型动、数据可用不可见、安全可信可追溯的数据要素流通体系,保障基于数据空间的海量数据可信自由流动。数据要素要发挥更大的价值,就要流通起来,这带来的关键问题是安全。
在释放数据价值阶段,需要:
数据统一化:构建出灵活的技术平台来支撑足够大的数据量级、超大的数据维度、 多样化的数据类型, 开始进行相关的数据统一化工作, 包括构建统一的计算输出平台, 统一的元数据管理和数据标准, 并逐步将数据整合在该平台中。
数据资产化:实现数据统一化后, 需要以数据分析等方式实现数据整合和最终资产化, 同时通过有效的数据质量管理保证数据的质量和有效性。平台中积累的高质量数据越多,越会吸引更多的开发人员, 促进企业根据数据的特点完成数据资产化工作,其中包括数据与业务字典的对接、数据管理流程等, 从而将原始数据变为有价值的资产。
数据业务化:完成数据统一化和资产化后,企业便拥有强大的计算能力和丰富的数据资产,可以方便的构建数据业务。目前比较典型的能够产生巨大价值的数据业务主要分布在数据化运营、智能应用和在线数据服务等领域,它们通过大数据和人工智能技术的有效结合,从海量数据中快速发掘价值。
数据生态化:在该阶段, 由于企业创造了统一的数据、计算和业务平台, 因此更多的开发人员可以在该平台上做自助的业务开发,同时大量的业务又会产生新的数据和资产, 吸引新的开发人员构建业务,数据、业务和开发人员形成正向反馈, 构成完整的数据生态。
2. 技术挑战
数据云解决了数据分散、隔离问题,避免交换障碍,使各类数据资产共享集中存储,实现数据服务开放、数据相互交换,并搭载数据资产目录以提供综合数据治理。数据云在给企业或组织提供便捷的数据服务时,同时其面临相关技术挑战有:1.数据安全挑战;2.法规遵循挑战;3.缺乏熟练人才;4.部署实施挑战。
首先是数据安全挑战,数据云不仅对企业有价值,对于网络罪犯也是如此。数据云构建了统一化、资产化、业务化和生态化的数据集中环境,同时也将成为黑客攻击的重点目标,目前对于数据云安全防护还处于起步阶段,而黑客的攻击手段层出不穷,因此针对数据云的整体安全防护、数据加密和隔离、身份和访问授权控制、数据云的实时监控、云平台加固和安全功能隔离、使用针对数据云环境中安全存储数据优化的框架等存在技术挑战,针对数据云的整体安全防护框架有待进一步发展和提升。
其次是法律遵循合规挑战,数据云需要收集、存储和处理的海量数据,这导致数据管道和存储系统中充满了大量数据,使得满足合规性要求变得困难。在数法律政策遵循合规方面,数据云主要面临以下挑战:
1. 多样化的法规要求
不同国家、地区和行业均有不同的数据保护、隐私法规和行业标准要求,数据云的建设者、运营者和供应商等,需要了解和遵守适用于所在地及涉及业务的所有法规,确保企业在数据处理过程中符合合规要求。
2. 数据跨域传输
很多组织和企业的业务已经实现了全球化和网络分区分域,不同地区、不同网络环境下的数据安全等级不一致,在数据云的场景下,不同数据的跨地区、跨域传输调用成为常态。然而,不同国家和地区对不同安全等级的数据传输有着不同的规定和限制,需要制定合适的数据传输策略,确保在数据跨域传输过程中遵守相关规章制度和法律要求。
3. 第三方风险管理
数据云在业务运营中依赖于第三方提供的服务和解决方案。然而,与第三方共享数据也带来了一定的风险。需要对所有与之合作的第三方进行全面的风险评估和管理,确保符合数据安全和合规性要求。
数据云作为一个新兴方向和产业,随着市场需求的逐年增长,其同时面临熟练人才紧缺的挑战。数据分析需要一套独特的技能,包括数据科学、统计、编程和领域专业知识。然而,拥有这些专业技能的专业人员严重短缺。这使得组织或企业很难有效地分析并从数据中获得见解。这种稀缺性给企业利用数据云平台进行战略决策和创新的能力造成了瓶颈和挑战。
在部署实施方面,数据云需要打通数据PaaS、分析PaaS、应用PaaS等各类PaaS平台和底层共享IaaS平台等各类资源,同时覆盖了大数据存储计算技术、联邦学习、隐私保护技术和安全防护技术等多技术的融合,涉及含数据市场交易、联邦学习、隐私计算等各类新兴技术,这些技术在给数据云赋能的同时,给部署实施人员的作业也带来大量挑战,大量配置连接问题,一旦出现故障,将会给数据云的私密、隔离、安全的数据交付环境带来安全合规挑战。
四、数据云框架与应用
1. 数据云典型框架
国外方面,亚马逊和谷歌等给出了数据云的框架和实践,并提供相应的产品和服务。国内方面,浪潮云、星环科技、齐点云等国内率先提出数据云解决方面,并给出相应框架和产品等,并在政务、金融等领域进行了落地应用。这里我们重点对以上五家具备代表厂商的数据云产品和框架进行介绍。
1.1 谷歌数据云框架
Google 数据云使机构或组织实现统一、开放、智能的数据云平台,通过统一的数据和人工智能平台来管理每个数据生命周期阶段,管理的数据内容包括数据库、BI、数据仓库、数据湖、流媒体等,同时平台提供的人工智能和机器学习能力开放且基于标准的可移植性和灵活性,构建广泛的合作伙伴生态系统,具体框架如下:
谷歌的数据云支持各种类型数据用例(如应用程序、分析、预测、可视化),支持不同的产品来满足不同的角色的需求,如应用程序开发人员和系统建设者、数据工程师和数据分析师、数据科学家和机器学习工程师以及商业用户等。通过 谷歌数据云,组织或机构可以管理各个领域数据系统,这些数据来自运行的各类数据库或业务系统,打破数据孤岛,从而不必在不同的地方复制和移动数据系统,降低数据及业务系统移植和运维成本,提高数据人员的效率和生产力,以经济高效的方式维护数据云平台、更好的管理拥有不同数据资源的团队之间的协作。
谷歌的数据云配备单一数据管理平台,通过集中策略跨数据孤岛进行管理控制。这种管理和治理方法具有以下优势:
(1)通过集中管理分布式来降低风险具有内置智能的数据集,同时避免管理数据的多个副本
(2)数据质量更高,保障数据衍生决策的准确性,确保数据即产品范例,确保数据经过整理并随时可用,试整个组织内具备数据存储、处理和管理的一站式解决方案,使数据能够统一支撑使用结构化和非结构化数据的产品。
1.2 亚马逊数据云框架
亚马逊数据云架构提供了一种适用于任何规模,可跨多个系统高效进行数据管理的基础设施,可确保组织或企业的任何人在需要时都可以访问数据,而不会破坏数据的完整性或安全性。亚马逊数据云架构具备的主要优势有:
(1)数据的集中式管理
利用亚马逊数据云,在单个统一的平台上收集、处理、存储与分析数据,而不用受限于隔离的数据基础设施。这确保了访问存储数据的员工和云应用程序能更好地进行治理和权限控制。不同于从多个位置管理访问权限,组织或企业可以通过统一的控制点监管数据使用策略。
(2)数据的移动性更强
亚马逊数据云支持不断变化的业务趋势,数据共享不再局限于物理工作空间,其允许员工在世界的任何角落都能安全而高效地访问企业信息。组织或企业可以在云数据存储系统(如分布式数据湖或数据仓库等)之间移动信息,而不用受制于基础设施锁定。在与 Amazon Web Services(AWS)之类的数据云提供商合作时,您有全部必要的数据管理工具来完成这个流程。
(3)数据使用性能更高
基于常见的数据共享协议,亚马逊数据云使不同云存储解决方案之间的数据交流变得更高效。云应用程序可以访问并分析数据,您不必为复杂的系统兼容性的额外数据操作步骤而烦恼。数据云解决方案还支持各种类型的业务数据,包括事务型和分析型数据等,而不需要进行多余的修改。
(4)数据安全性更强
亚马逊数据云解决方案包含安全技术,可以在云环境中帮助您的组织保护敏感数据。很多组织必须满足监管合规要求,以保护客户的隐私并防止对已存储敏感信息的未授权访问。
最后,通过整合亚马逊数据云中存储数据的访问权限,组织或企业可以更高效地应用数据安全策略和保护措施。例如,AWS Cloud 安全资源会帮助企业自动执行安全任务,并减少人工配置错误,使得整个组织都能在相同信息的指引下团结且安全高校地开展工作。
亚马逊数据云平台帮助组织或企业将本地存储中的数据摄取到多云环境,它会在单个自主管理的门户中集成不同的数据架构,允许企业最大限度挖掘出结构化、半结构化和非结构化数据的价值。您的组织可以使用云数据平台来轻松管理、治理、分析和保护业务数据,而不用管理多种数据工具。 其主要的应用场景有:
(1)以云为中心的应用程序开发
开发人员会通过在云中执行整个开发生命周期,构建以云为中心的应用程序。例如,他们会在云托管平台上编写代码、管理数据库,以及测试并部署应用程序。数据云会简化开发,帮助开发人员更轻松地处理数据。它还能使应用程序更接近于数据,这对要流式传输大量实时数据的 Web 应用程序来说非常重要。
(2)数据共享场景
数据共享是改善员工效率和协作的重点。类似地,访问共享数据对应用程序用户和商业客户也很重要。数据云工具可帮助在依赖及时信息的各方之间顺畅地转移数据。数据云取代了旧版数据交换流程;后者需要多个互操作数据存储模块,以便将信息从一个孤立的存储移动到另一个。
(3)数据分析场景
您可以利用数据云来整合结构化和半结构化数据,然后将它们用于分析以及加载到云数据库。业务分析师会使用数据云从各种数据来源中发现可作为行动依据的见解,并改善业务成果。另一方面,数据工程师则可以克服在业务分析实践中创建多个非标准数据管道的挑战。
(4)备份和恢复场景
有效的备份和恢复机制确保业务和运营的连续性,对企业或组织具备重要意义,随着数据的指数式增长令在不同平台的存储之间移动数据这项任务变得极具挑战性。亚马逊数据云可快捷高效的帮助企业或组织完成云场景下的数据备份和恢复。
1.3 浪潮云数据云框架
浪潮数据云以数据要素为核心,融合云计算、大数据、人工智能、区块链、数据安全等技术,围绕“数采-数算-数用”价值链与数据可信自由流通,实现数据全生命周期的统一管理、可信治理、敏捷创新的数据基础设施。数据云作为一种新型数据基础设施,可以帮助用户搭建数据采集、计算、应用环境,助力数据资源变为数据资产,实现数据资产的可管、可控、可运营。浪潮数据云在政务和企业数字化转型中得到大量的应用。
浪潮数据云围绕数据价值链与流通,打造数据云新产品,支撑打通数字基础设施大动脉,构建可信数据要素流通基础设施,实现数据要素安全共享、流通,在医疗、制造、交通、政府和企业等领域构建基于数据云的数据可信空间。
在政府数字化转型场景,浪潮数据云作为数据基础设施构建全国一体化政务大数据体系,助力政务数据可信流通,打造跨层级、跨地域、跨业务、跨系统、跨部门的数据流通网络。以山东省一体化大数据平台为例,浪潮数据云IBP纵向打通省本级节点、市级节点、区县节点,横向联通各部门数据,实现政务数据高效共享。在企业数字化转型场景,浪潮数据云助力企业数字化经营,加速企业数据的商业价值转化。浪潮云借助一体化大数据平台,为能源、化工、农业、园区等企业场景提供数据采集、数据存储和数据实时分析等服务,帮助企业用户深度挖掘数据,实现基于数据驱动的数字化转型。此外,数据云的兴起还可以催生全新的商业场景,将数据运营体系化、专门化、专业化,加速数据要素市场化配置的推进。
浪潮数据云已广泛应用于智慧城市、智慧园区、数字政府、智慧交通、智慧水利等千行百业,帮助各行各业打通数据壁垒、充分挖掘数据价值,实现数字化转型。未来,浪潮云也将持续坚持以云网边端融合、云数智融合、建管运融合方针为指导,锤炼核心能力,助力用户将数据要素的力量融入政府治理、城市运行、企业经营和商业繁衍之中,为数字中国建设构建数据底座解决方案。
1.4 星环科技数据云框架
星环数据云平台采用云原生技术,打造的统一 PaaS 平台,为企业提供数据流通交易平台、企业湖仓一体数据湖、企业数据中台、联邦云、企业数字化转型、政务大数据、云原生数据科学云和高并发数据应用八大解决方案,能够满足企业各种数据处理场景的需求,帮助企业实现企业数据与应用的生态化建设。截至目前 TDC 已经为政府、银行、基金、能源等多个行业提供完整的数字化建设解决方案。
星环科技数据云平台集成了大数据基础平台 、云原生操作系统 、智能分析工具,为企业提供高效的基础技术平台,赋能部门业务,助力企业数字化转型。其打通了数据PaaS、分析PaaS、应用PaaS三类PaaS平台,底层共享IaaS平台资源,帮助企业解决协作数据分析、数据管理混乱、规范应用开发流程、存量应用治理、资源冲突与效率管理的困难与问题,主要架构如图所示:
星环科技数据云集成了数据流通交易平台和联邦云平台。通过大数据存储计算技术、联邦学习、隐私保护技术和安全防护技术等多技术的融合,在大数据流通合法、合规、安全的总体框架下,建设了数据流通交易平台,可满足政务、金融、工业等各行业数据流通、共享与交易的需求,实现数据安全可信地流通和计算,为数据消费方、数据提供方和数据中间方提供方便快捷、安全可靠的数据流通方案。数据流通交易平台包含数据市场、联邦学习、隐私计算三大模块,同时基于微隔离技术为服务提供安全区隔离保护,通过网络访问、权限控制、全流程操作审计等安全保障,实现数据可用不可见,为数据供需双方提供私密、隔离、安全的数据交付环境,满足政策合规、数据安全的要求。联邦云平台通过多个TDC的多云统一管理能力,实现多集群资源联合使用的资源联邦;多集群应用部署、调度和管理的应用联邦;多集群异构数据源的统一分析与数据联邦。
星环数据云在金融、政府、能源、交通、制造、公共安全、电信运营商、零售、媒体、教育、医疗等细分领域有一定的应用落地。如基于数据云的大数据共享交换平台,提供细粒度的租户管理,平台统一构建,自助实现大数据和应用开发,满足建设业务开放多租户系统的需求。基于数据云的应用聚合平台,为应用开发者提供开发和测试支持,同时把底层资源纳入统一管理,用户无需关心资源分配,可结合应用需求,基于大数据存储服务的数据、大数据挖掘分析平台的中间数据和结果数据、以及大数据分发开放平台的开放数据为应用提供个性化数据服务。该平台可灵活部署第三方应用服务,对外提供API供其他服务调用,对应用实现规模化汇集与管理,使数据价值的最大化。
1.5 齐点云数据云框架
奇点DataSimba 数据云平台具备“跨平台”、“云原生”特性,其中“跨平台”指奇点数据云平台可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个 Workspace(域)进行管理,实现分级多域、跨云跨平台部署,以提升企业的协作与管控效率。奇点数据云基于云原生,充分发挥云基础设施的优势,依托 CI/CD(持续集成持续交付)、容器化编排、微服务、存算分离、元数据管理等技术能力,其主打产品优势为:互联网级通量、零售级效率、金融级安全、电信级稳定。奇点数据云平台主要架构如图所示:
奇点数据云的主要应用场景主要包含七个,分别为:传统数仓升级、数据技术栈优化、数据中台建设、数据资产治理、集团数据云服务、自主可控替代和数据安全合规。奇点数据云以跨平台、云原生、自主可控、数据安全为技术内核,从集成、研发、运维、治理到服务,提供客户管控数据全生命周期的必备能力,以“产品 + 技术 + 方法论”,全面支撑客户构建其自有的数据生产力,主要特性如下所示:
1.6 京东云数据云框架
京东数据云基于弹性计算能力和开源生态系统提供的Hadoop/Spark托管服务,使用者可便捷地使用MapReduce,Hive,Spark,Presto等服务低成本开展大数据处理分析。其主要特点有:
京东数据云通过工作流集成大数据平台不同的能力组件,统一进行任务编排、调度执行、作业监控,提供满足大数据环境下不同使用场景的计算资源,提供机器学习、数据挖掘、深度学习等模型库及运行环境,轻松打造智能应用,具体框架如下所示:
2. 数据云应用场景分析
数据云提供了一个基于云的开放式数据基础架构,可实现企业数据的可用性、集成、可移植性、可用性和安全性。它的主要目标是让数字化转型变得更简单、更智能。数字化转型分成信息化、数据资产化、数据业务化、数据生态化四个阶段,数据云是能够解决这个四个阶段不同问题的新方法。数据云通过整个平台的计算、存储能力以及数据云产品架构的优化,为大数据服务提供高性能的存储和分析能力。同时,基于整个数据云平台底层资源的复用和服务的有效调度,为大数据的存储和计算提供更高性价比的实现,加速各行各业的数字化转型,数据云已经在多个行业多个场景进行了有效落地,其中比较典型的应用场景有数据空间分布式数据基础设施服务、数据开放共享和可信流通平台、大数据分析与数据自动化和以数据为中心的应用程序开发等。
场景1:数据空间的分布式数据基础设施服务
数据基础设施是指围绕数据为中心,提供数据全生命周期的支撑能力,让数据存得下、流得动、用得好,将数据资源转变为数据资产,最大化数据价值的一种基础设施。它涵盖接入、存储、计算、管理和数据使能五个领域,并构建全方位的数据安全体系和开放的数据生态环境。数据空间是在确保数据安全下实现数据开放共享和可信流通的解决方案,为数据提供者和使用者之间提供合约化、结构化、安全可信的数据使用环境。
数据空间分三层,公共支撑层提供可信的云基础设施,为上层提供算力、存储资源和调度支撑,运行层通过可信数据交换、集中式数据沙箱、跨域跨网分布式隐私计算为不同场景提供三类计算模式,管理层提供统一的运营运维管理,实现数据使用过程的身份鉴定、使用策略控制、审计清算、数据市场以及运营运维能力。基于数据云的数据基础设施在能源、交通、电信、教育、政企等行业得到大面积使用和落地推广。
场景2:数据开放共享和可信流通,数据流通运营平台,
在政务云行业,通过数据云可帮助省级、市级大数据中心建设统一的数据共享交换平台,打通各部门信息系统、打破‘数据孤岛’,建成对接国家平台,覆盖全市、统筹利用、统一接入的数据共享交换平台。数据流通共享运营平台主要功能包括数据地图、认证中心、审计清算、使用控制中心、数据连接器、数据传输、数据存储、数据分析应用和数据使用控制等。数据地图主要面向消费方,提供数据搜索、需求匹配、数据订阅等功能;认证中心对数据交换各方身份和资质认证,建立多方信任生态;控制中心对数据交换进行策略制定,对交换后的数据进行安全合规控制;数据传输提供加密的传输通道,数据提供数据空间中的交换数据的存储空间,数据分析应用用来对交换的数据进行分析处理,保障对数据主权安全保护,数据使用控制执行使用策略,实现交换过程的过程保护。
场景3:AI驱动下的大数据分析和自动化
数据作为 AI 的基础,将极大程度上推动人工智能的发展,数据云也会成为 AI时代的基础设施,数据云可简化数据处理使用流程、提高数据使用效率。联邦学习用于数据交易双方使用各种不同类型级别的数据进行交叉联合训练,当消费方获得授权后,才可使用提供方数据,提供方联合消费方数据进行机器学习。作为分布式的机器学框架,联邦学习能够让各参与方在不共享数据的前提下联合建模,在保护用户隐私、企业数据安全、符合法律法规的基础上,从技术角度打破数据孤岛的问题,实现AI协作。联邦学习中各方数据都在自己本地,相互之间不传输数据,只传输模型和参数,保证数据不动,模型动。数据交易方之间得不到对方的数据,但可借助对方数据进行联合建模,得到更准确的模型。
数据云为联邦学习提供了一键启用、向导式部署以及图形化配置能力,帮助用户快速完成启用、部署、配置和使用操作。提供内置安全策略,一旦启用后即刻下发,及时保障联邦学习安全性。同时支持图形化自定义安全策略,按需控制东西向流量和南北向流量的访问策略。另外还提供了统一的运维能力,覆盖联邦学习全生命周期。
场景4:以数据为中心的应用程序开发
开发人员会通过在云中执行整个开发生命周期,构建以数据云云为中心的应用程序。如在云托管平台上编写代码、管理数据库,以及测试并部署应用程序。数据云会简化开发,帮助开发人员更轻松地处理数据。还能使应用程序更接近于数据,对要流式传输大量实时数据的 Web 应用程序来说具备重要意义。
数据云开发平台针对应用开发、上架、管理的流程提供一站式应用发布服务,在同一平台完成开发到上线的全套流 程,缩短应用上线周期,同时提供应用完整生命周期的管理。支持自动部署DevOps开发工具链,包括代码管理、自动测
试、发布、部署,实现有效的敏捷开发、持续集成和持续交付,实现一体化开发运维。开发者只需要在发布平台做简单配置,就能将自建或开源应用发布到应用市场。数据云平台可提供科学的版本管理,应用可以构建多种版本,并获得相对独立的维护,升级后使用者能够实时在线感知版本变化。
通过数据云搭建的低代码开发平台帮助企业可视化、轻量级、无代码的搭建管理系统,在低代码平台中可进行项目管理、进销存、CRM、EPR 等系统的快捷搭建,缩短研发周期,节省研发资源的投入,为面向科技型的企业和大型企业提供数字简洁化管理。
场景5:数据备份、恢复及数据治理场景
数据云平台可在互联基础设施内部托管所有任务关键型工作负载和备份存储,从而提供了一种更出色的恢复选项。您可以依赖备份系统,在发生中断时快速恢复数据。企业或机构在切换大数据平台时,数据迁移和备份是一项重要且必不可少的工作项。在数据迁移和备份过程中,企业或机构需要承担较大的人力、时间、资源等成本,现有数据平台庞大的数据量也给迁移工作带来巨大的试错风险。基于数据云的数据迁移和备份,从时间、资源、策略、规范要求、预期目标等维度,进行规划设计,形成完备的数据迁移和备份方案,通过数据迁移客户端工具完成自动化的数据提取、传输、加载等工作,从而提高迁移备份效率。
数据云提供多样化数据相关工具,支撑全流程的可视化数据开发、监控、运维与告警,实现数据统一化、资产化,构建企业级数据湖、数据仓库、数据集市。核心功能有数据接入、数据整合、任务流编排、元数据目录。同时,数据云应用支撑数据治理专题工作,提升数据管理水平。实现管控、保护、提高数据资产价值。核心功能有数据标准管理、数据质量管理、元数据管理、数据血缘、数据安全与权限管理、智能化数据资产管理等,在金融、能源政企的数据治理、数据资产服务等方面得到广泛使用。
五、数据云安全合规需求分析
1. 数据云安全风险分析
安全问题是组织或机构是否选择数据云云计算的主要顾虑之一,也是用户选择云计算服务商时首要考虑的因素。集中式数据管理方式下存在网络安全问题,为数据安全问题带来新的挑战。除了传统信息系统的安全问题外,数据云由于其本身的特点,带来了新的安全威胁,同时数据云的网络安全合规审查比传统的IT架构更加严格,数据云的安全风险主要包括:
(2)数据集中的安全问题:用户的数据存储、处理、网络传输等都与数据云系统相关,一旦出现漏洞,可能导致整个数据云敏感数据的泄漏,如何对不同敏感度的数据进行分级分层保护和隔离,如何对网络攻击进行阻断和处置,对保障整个数据云体系安全至关重要。
(3)业务应用安全问题:用户的数据和业务应用处于云平台遭受攻击的问题系统中,其业务流程将依赖于云平台服务连续性、SLA和IT流程、安全策略、事件处理和分析等提出了挑战。当数据云业务应用发生网络攻击事件时,如何保证攻击的快速阻断和数据的快速恢复也将影响数据云业务。
(4)云平台本身安全问题:云计算平台由于其用户、信息资源的高度集中,容易成为黑客攻击的目标,拒绝服务、数据窃取等各类网络攻击造成的后果和破坏性也将会明显超过传统的企业网应用环境,对数据云造成重大安全挑战。
(5)法律合规风险:数据云应用地域弱、信息流动性大,信息服务或用户数据可能分布在不同地区甚至是不同国家,在政府信息安全监管等方面存在法律差异与纠纷,数据云法律合规存在相关挑战。
当前数据云计算服务中存在的数据安全风险隐患很多,如数据传输和共享过程中,数据未采取加密机制或加密机制存在缺陷,第三方调用采用明文方式进行传输,数据在通信流转时数据安全防护机制考虑不周,这些都可能被攻击者利用从而导致数据信息泄露;数据云计算基础设施中依然存在大量重要、敏感数据未使用加密技术进行保护,给黑客等不法分子带来可乘之机,导致信息泄露或篡改等行为发生;数据云服务在迁移过程中,遗留数据得不到彻底清除,传输数据得不到有效保护,备份数据得不到合理处置,往往引发数据泄露风险;对开发、测试、生产环境开放接口管理不严格,而导致数据迁移项目中的数据泄露案例时也频频出现,需要数据云平台厂商在数据云基础安全架构上加大投入,保障数据云基础设施安全。
2. 数据云安全合规挑战
数据云作为关键基础设施,集成了海量业务数据、搭载了包括人工智能在内的大量业务应用,其安全合规面临诸多挑战。数据云技术在快速发展和应用的同时,也带来大量的法律和合规风险,这些风险主要集中在数据安全和云安全等领域,其主要安全合规挑战有:
数据云的建设、发展与运营,需满足我国网络安全保护法、数据安全保护法和关键基础设施保护条例等相关法律政策要求,数据云平台一旦遭受网络攻击,其作为关键基础设施,可能导致严重的信息泄漏风险,面临法律及监管机构的重罚,同时对数据云平台用户业务造成破坏性影响。网络攻击对数据云平台构成重大威胁,需建设统一、完善的数据云网络安全分层防护体系,对数据云上不同安全级的数据和应用进行分层防护,对网络攻击进行监测和封堵。
数据云环境同传统企业网络一样面临着同样的众多安全威胁,但由于数据云上存储着更大量的数据,数据云云服务提供商越来成为了更重要目标。其数据泄露个人财务等敏感信息、健康等公共信息、商业机密和知识产权领域等敏感信息,一旦发生泄漏,数据云平台厂商可能面临罚款、法律诉讼等直接影响,一级包括未来数年内的品牌信誉损失和丢失商业机会等间接影响。不同的数据云服务环境采用部署不同的安全控制策略来保护,需要使用多种认证手段和加密措施以防止数据泄露事件发生。
数据云上存在各类人工智能及大模型应用,这些人工智能应用需要对个人信息进行采集、存储和利用,这类信息处理不当可能导致数据云厂商违反个人信息保护法相关规定。同时人工智能在对数据进行收集、存储、利用时,也易导致数据泄露的风险。另一方面,人工智能和大模型输出的结果中如果带有危害国家安全和社会公共利益、扰乱经济秩序和社会秩序、侵犯他人合法权益等法律、行政法规禁止的相关内容时,也存在法律监管风险。
数据云及服务平台所采用的云管平台软件、服务器、网络安全设备、网络交换设备和各类应用软件生态及供应链复杂,其使用的CPU、内存、硬盘、关键芯片方面主要供应商仍主要来自美国、韩国等境外企业,“芯片断供”、云服务终端等隐藏在二级、三级供应链中的安全风险依然是数据云及服务商需要持续关注的现实风险。此外,数字供应链发展是未来趋势,供应链安全成为网络安全体系面临的重要挑战。
六、总结与展望
报告对目前数据云的技术背景进行了总结分析,对国内外主流数据云厂商的数据云框架进行了阐述介绍,并且对目前数据云的安全合规需求进行了说明。数据云在推动组织或机构快速高校的实现数字化转型的同时,其同样面临相关问题和挑战,未来数据云的发展和建设也有待进一步更新于完善。
1. 数据云目前存在问题
随着数据成为组织机构甚至国家的战略资源,数据云则是打通数字基础设施大动脉,畅通数据资源大循环的关键基础设置,数据云在快速发展前进的同时,也面临诸多问题,如数据源的多方采集和处理、多源异构数据完整性验证、网络安及供应链安全风险、安全合规难以保障和缺乏技术专业知识人才等,这些问题在限制数据云发展的同时,也将进一步使数据云的体系架构变得更加成熟与完善。
首先是数据处理问题,数据云面临企业或机构多方数据的获取、流转、处理、备份等,可以通过直接连接、离线或两者组合的方式进行数据转移,数据的处理方式需要与用户数据的类型、数据的敏感级别以及用户需求相适配,这将给数据云的实施过程产生挑战,如何自动化的处理多方数据并验证数据的真实性和完整性,以满足客户需求,是数据云面临的首要挑战。
其次是安全合规问题,数据云涉及云计算安全、数据安全和应用安全等多领域多学科交叉,其面临的网络安全风险来源更广泛更复杂,导致其面临的安全合规和法律风险也更加复杂,如何构建标准统一的数据云安全防护框架和政策体系,需要监管单位牵头数据云厂商和相关生态的实际情况,编制相关政策及行业标准,完善数据云网络安全防护框架,建设数据云安全合规监管体系,从而规范化数据云安全合规建设,规避数据云的安全合规和法律风险。
最后是数据云行业生态发展及人才匮乏问题,数据云作为新兴产业,目前在需求和供给侧均存在一定不足,整个产业的投资建设属于初步阶段,配套的人才培养体系、技术体系等需要进一步发展,因此面临人才匮乏、生态发展不完善等问题,需要进一步扩大市场需求,带动整体社会的人才和技术投入。
2. 数据云未来发展与建议
随着大数据、人工智能和物联网等技术的迅猛发展,数据云在未来的发展中将发挥越来越重要的作用。数据云在面临相关挑战的同时,也是未来发展的关键路径,针对数据云面临的相关问题与挑战,报告对数据云的发展趋势和建议进行了总结:
随着数据泄露事件的增多,数据云需要不断加强安全性措施,包括加密、身份验证、审计和合规性监管,以确保用户数据的安全和隐私保护,并根据适用的法律法规、行业标准及业界优秀实践,建立了完善的政策体系,包含政策、规范、流程指南和操作手册,明确数据安全管理目的、范围及要求,并推动在业务领域的有效落地。华为云要求员工、合作伙伴及外部顾问都需严格遵循数据安全相关政策要求,接受安全培训,使安全政策的相关要求融入整个组织之中。
数据云与人工智能技术深度融合,提供智能分析、预测、推荐和智能感知等功能,帮助用户更好地理解数据并做出决策。同时数据云需要借助人工智能的能力对自身的能力和安全进行完善,从而最大化的发挥数据云平台的优势和价值。
大型组织或机构一般都使用三到五朵云服务,未来数据云服务将更加开放和灵活,需要支持多云服务提供商间的整合,以帮助用户更好地利用不同云平台的优势资源。
数据云领域的技术日新月异,建议从业者不断学习新知识,紧跟行业发展趋势,不断创新服务和产品。数据云服务商可与其他企业建立合作关系,形成生态系统或产业联盟,共同推动数据云技术和应用的发展,创造更多的商业价值。
参考文献