英国数学家Clive Humby在2006年创造了“数据是新石油”这一金句。从那时起,分析师一直致力于查找和提炼为大数据分析引擎提供所需的数据,这些引擎有望提供情报并实现更明智的业务决策。然而,不断增长的数据规模使得分析师更难使用传统数据库设计来找到正确的数据、对其进行转换并以有用的形式进行归档。
图1显示了许多组织使用的传统数据仓库和使用流程。数据源由信息专家识别并提取、转换并加载到新的数据存储库中。然后构建数据应用程序,以允许其他组织用户下载报告、进行业务分析或查看开发的仪表板。由于识别、转换、存储和开发新的数据存储库和分析应用程序需要时间,这种传统方法是劳动密集型的。
因此,各行各业的企业都在实施数据编织战略 ,预计到 2026 年,美国数据编织市场将达到 37 亿美元。这比 2021 年的 4.249 亿美元增长了近十倍。
Rieyan等人将数据编织的使用定义为“一种自动化和人工智能驱动的融合方法,可实现数据管理统一,无需将数据移动到集中位置来解决复杂的数据问题。”了解数据编织的第一步是分析传统的数据仓库技术。许多组织架构由独立的单位组成,以实现敏捷性。每个单位通常都有自己的数据架构,因为就共享数据架构达成一致可能很困难且耗时。这导致了组织数据孤岛,这构成了与数据相关的最大挑战之一,即“……对数据进行组织和建模,以促进链接、转换、处理和分析所收集数据的过程,从而使及时做出最佳决策。”
超过 280,714 个组织已实施企业资源规划 (ERP) 工具来克服这一问题。由于 ERP 是数据驱动的架构,可以在所有组织单位中提供最新的详细信息,因此 ERP 可以通过数据集成有效地产生竞争优势。然而,将所有数据维护在一个位置会造成引入新数据带来的负担可能会非常巨大。
数据编织引入差异
数据结构可以利用人工智能 (AI) 克服这些挑战。图 2 显示了数据编织与传统数据仓库相比有何不同,以及展示了使用AI的方法。
数据源
数据摄取
使用人工智能和机器学习 (ML) 分析数据并将其提取到数据存储库中。使用自动语义丰富技术可以提高数据质量和价值。仅此过程就可以显着减少提取、转换和加载数据所需的人力。这种自动化允许组织将数据点保留在原来的环境中,因为自动化允许数据结构识别和连接来自不同应用程序的数据。它还提高了识别新数据源的速度以及将数据合并到数据编织中的准确性。
数据存储库
载入数据首先通过云和软件连接器将数据源连接到数据存储库。连接器是允许数据库、应用程序和服务将数据导出到存储库的程序。这些连接器可以预制或定制开发。因此,数据编织的用户可以利用“丰富的可立即运行的组件库来准备和混合传入数据。”
当数据添加到数据存储库时,人工智能和机器学习用于根据组织业务规则搜索与其他数据源的关系。其他数据被识别并连接到存储库。人工智能和机器学习再次用于确定如何最好地提供数据,同时最大限度地降低存储成本。最后,利用持续分析而不是现有数据生成元数据资产,这些资产用于生成数据目录、知识图和推荐引擎,帮助指导用户最好地利用数据存储库。
数据用户
数据编织可以让用户曝露在更多的数据中。这是通过数据目录、API、自助分析和数据虚拟化来完成的。数据编织提供了更广泛的数据访问,这再次增加了人工智能从数据中获取洞察的潜在用途。
数据编织的实际使用
数据编织的一个例子是印度国家银行 (SBI) 创建的 You Only Need One (YONO) 应用程序,该应用程序旨在为客户提供数字银行和金融超市服务。SBI 的 4.91 亿客户由遍布全球 36 个国家的 22,500 个分支机构提供支持。这些客户的数据位于 17 个当地总部和 208 个国外办事处。使用传统数据仓库技术创建单一数据存储库被认为是难以克服的。SBI 求助于 IBM 来实施一个数据结构,该结构将在短短三个月内连接来自 76 个业务部门的信息。该数据结构是 YONO 应用程序的支柱,该应用程序的移动应用程序下载量超过 6400 万次,旨在支持客户银行和金融服务。数据结构允许使用人工智能和机器学习,使 SBI 员工能够提供更好、更有针对性的客户体验。YONO 目前估值为 40-500 亿美元。
个人信息安全担忧
数据编织有望提供一种集成数据的整体方法,并为组织带来无限量的数据,从而提供许多优势。然而,数据编织揭示了对个人信息安全的担忧,特别是因为有关数据编织的大多数可用信息都是由部署数据编织解决方案的组织提供的。必须解决的数据隐私问题的三个主要领域是:谁有权访问数据、谁拥有数据以及如何使用数据?
数据访问
根据欧盟《通用数据保护条例》(GDPR),“‘个人数据’是指与已识别或可识别的自然人相关的任何信息”,例如姓名、身份证号码、位置数据或在线标识符,或与某个人相关的任何信息。或更多特定于该自然人的身体、生理、遗传、心理、经济、文化或社会身份的因素。信息安全被定义为“对信息及其关键要素的保护,包括使用以下内容的系统和硬件:存储并传输该信息。”
更详细地了解数据编织的工作原理可以揭示与个人信息安全相关的潜在问题。数据编织通常集成来自人类和人工智能识别源的数据,这些源可以是数据库、数据湖、数据仓库、数据流和许多其他形式。从各种来源收集的数据和元数据被集成到数据编织中。元数据(“描述特定数据集的内容、上下文、质量、结构和可访问性的更高级别信息或指令”)在人工智能的帮助下自动增强。然后,来自不同数据集的元数据被收集到数据目录中,为整个组织的数据集提供公共元数据位置。借助数据目录中的元数据,生成知识图,该知识图捕获数据集的语义及其与其他数据集的关系。然后,生成的知识图可用于进一步分析,并更好地理解数据集的含义及其之间的关系。24 然后,数据编织以不同的方式将数据传递给数据用户。数据编织的数据和流程由一组共享规则自动编排。
个人信息可能包含在数据存储库中。某些数据可能是机密或敏感的,而其他数据则可能不是。为了能够适当地处理数据并确定安全控制和访问限制,必须对个人信息进行分类。SBI 的 YONO 应用程序拥有 100 多个电子商务合作伙伴,这些合作伙伴必须有权访问客户的部分(但不是全部)个人信息。因此,对信息进行分类并设置共享信息的业务规则至关重要。然而,这可能是最容易的部分。个人信息安全中更具挑战性的部分可能来自不断移动并存储在多个位置的信息。建议的方法是加密所有数据或确保私人数据无法通过互联网获得。为了遵守相关法律、法规和政策要求,行业最佳实践建议应匿名化或假名化个人数据。
基于最少披露原则的一项建议是仅共享必要的字段或聚合的个人信息,而不是整个数据集。无论采取何种方法,数据编织都需要持续分析,以确保组织遵守个人信息安全法律、法规和政策。这可能更为重要,因为数据结构(如 SBI YONO 应用程序)可以跨多个国家、部门和电子商务合作伙伴共享信息。因此,数据结构的实施必须考虑跨国网络安全法规。可以在该领域提供帮助的数据结构属性是一组监视和审核机制,可以跟踪和记录用户访问以识别可能的安全漏洞或可疑活动。
数据所有权
数据编织使用人工智能对数据进行分类,并可以使用预测分析中的信息来生成数据目录和知识图。知识图分析生成数据集见解,可用于获取有关个人及其行为的见解。“大数据集中的预测分析生成的信息是新信息”,并且“在当前的信息隐私框架内,尚不清楚谁拥有这些信息或有权使用这些信息。”数据是新石油的概念也意味着数据在经过提炼之前没有价值。数据编织为组织提供了快速优化数据的工具。“人类是理想的数据主体”,数据结构中的人工智能和机器学习可能会导致组织生成包含个人信息安全问题的数据。这些数据对于组织和其他实体来说当然很有价值,因此确定谁拥有这些数据至关重要。
数据使用
数据编织严重依赖人工智能。人工智能生成模型的可解释性和使用让人对黑匣子内发生的事情产生疑问。这种担忧源于重新解释和统计分析个人信息的数据化过程。基本人权因使用个人信息而受到质疑。人们购买的物品、寻求的服务或访问的网站可能包含有价值的个性化营销活动。因此,使用数据编织可能获得的个人数据规模庞大,可能会导致数据的滥用。一个例子是消费者购买私人物品。数据编织AI可以利用这些信息来开发销售活动,这些活动显然超出了在销售信息未知的情况下通常预期的效果。因此,实施数据结构的组织必须考虑人工智能在使用个人数据提出建议时所能达到的限制。
总结
由于具有识别和提炼大量数据的能力,数据编织可能代表许多组织数据仓库和使用的未来。然而,与数据结构的使用相关的个人信息安全和隐私问题是相当大的。选择实施数据结构的组织应该考虑谁有权访问数据、谁拥有数据以及如何使用数据来做出决策。希望这些领域的研究能够继续发展,让组织能够更深入地了解如何保护个人信息,同时继续挑战大数据使用的极限。