美团住宿数据治理团队通过多年数仓建设及数据治理的经验沉淀,并结合业务发展阶段对于数据治理的诉求,将治理的思路逐步从专项、表象、问题驱动的治理,转变为自动化、体系化的治理,并从标准化、数字化、系统化三个方向进行了落地与实践。
美团住宿业务从2014年上线之后发展多年,历经探索期、进攻期,发展期,并逐步由发展期向变革期过渡。业务从之前的快速扩张阶段进入相对稳定的发展阶段,运营手段转变为精细化运营,同时对数据的成本、效率、安全、价值等方向的要求也越来越高,这些都对数据治理提出了新的要求。
另一方面,住宿数据组所属的数据中心内部有住宿、门票度假等多条业务线,各业务线业务模式不同,所处业务生命周期阶段不同,在数据治理上的认知及经验积累也不同。如何能将数据治理经验及能力高效复用,使数据中心各业务线在数据治理的效率和效果上都能稳步提升,避免踩坑,这就需要数据治理更加标准化、体系化、自动化。
此前,我们在数据治理上已经有了一些积累和沉淀,前一阶段主要从单点、被动的治理转变为主动、专项的治理,治理动作有意识、有规划,也有一定的针对性,且取得了一定的成果(前一阶段的治理经验可参考美团酒旅数据治理实践一文),但总的来说仍以问题驱动治理、凭经验治理为主。面对新的数据治理责任及要求,过往的方式存在着一些问题,主要包括以下几个方面。
治理认知差异大
治理方法不标准
治理效率低、效果差
数据管治缺乏体系化
从上述背景中不难看出,我们面临着不同业务生命周期阶段对数据建设和治理不同的要求及挑战,同时过往更多的以被动治理、问题驱动的专项治理方式方法也比较落后,这直接导致技术团队很难满足业务方对于财务、业务支持等方面的要求。
通过不断的汲取教训和总结经验,我们开始意识到数据管治是一个非常复杂的综合性问题,只有构建出一套标准的业务数据管治体系,才能确保数据治理在现状评估、目标制定、流程规范建设、治理监控管理、能力建设、执行效率、效果评价等各环节有效落地。下面介绍一下我们在治理体系化层面的理解和思考。
针对数据管理和治理,我们期望搭建一套集管理体系、方法体系、评价体系、标准体系、工具体系等核心能力的组合,持续服务于数据管治实施。可以类比一般的电商公司,如果需要运转并服务好顾客,它首先必须搭建起来一套销售体系、产品体系、供给体系、物流体系、人力体系等等,只有这样才可以相互配合,实现服务好用户这一大目标。
我们的建设思路是:以团队数据治理目标为核心导向,设计实现目标需要的相关能力组合,并根据组织要求,实施过程的问题反馈,持续不断地迭代完善,最终实现数据治理的愿景。
体系框架主要包含以下内容:
体系框架建设成果:业务数据治理体系框架是针对数据治理工作整体做的顶层方案设计,框架定义好了业务线数据治理是什么、怎么做、做什么、用什么工具以及达成什么目标。拉齐各方对业务数据治理的认知,标准化治理路径方法和组成部分,指导数据治理有序、有效地进行。
参照业务线数据标准化管治体系框架各组成部分特点,我们具体通过标准化、数据化、系统化3大部分能力建设及运营,来实现数据管治体系框架的落地,并应用在数据治理问题的解决中,最终拿到可量化的结果。
数据治理标准化是企业进行数据资产管理的关键突破口和重要手段,一系列政策、法规、规划需要转化为标准和制度才能有效落地。数据治理标准化既有利于建立健全各种数据管理工作机制、完善业务流程,又有利于提升数据质量,保障数据安全合规使用,释放数据价值。但在数据治理标准化建设过程中,我们经常会面临以下三个问题:
针对上述三个问题,我们从解决问题的视角出发,划分数据开发流程,通过事前约束、事中监控、事后分析评估的思路,整理补齐缺失的流程规范,从而实现标准流程规范在数据管治各环节全覆盖,并建设系统化工具来保障标准规范的落地实施。下文将分别从规范建设及工具保障两方面来介绍我们在数据治理标准化过程中是如何解决上述问题的。
规范是数据治理建章立制的基础,针对标准规范建设不合理及流程规范缺失的问题,我们用体系化的建设思路从整体架构上对数据开发流程及数据治理流程进行划分,并针对全流程数据管治各个环节建设相应规范:
在标准规范的共享方面,以往技术团队在实际规范落地过程中可能存在以下问题:
针对上述问题,我们重新收集整理已有规范文档并进行分类,补充缺失文档,优化文档内容,并新增知识中心模块,将知识体系框架产品化,在产品层面维护统一的入口及权限管理,同时严格控制发布流程,解决了标准规范在实际落地时“找不着”、“质量差”、“没权限”等问题。
在数据测试规范落地方面,以往数据测试规范都是通过Wiki维护,无法约束大家实际执行过程,导致数据质量较差,容易出现数据故障。为减少数据开发过程中由于测试不规范而导致数据故障的情况,提升数据质量及业务满意度,我们利用数据中心与数据平台工具组合作共建的ETL测试工具(美团内部工具-八卦炉)来保障测试规范SOP落地执行,要求大家在不影响测试验数效率情况下充分测试,实现数据治理问题在事前约束,减少事后问题量,保障数据质量,工具建设如下图所示:
在日常数据开发工作中,数据工程师会承担一部分数据治理工作,以往都是通过执行数据治理SOP中每个步骤对问题进行治理,但经常会面临以下几个问题:
基于上述问题,我们开发了治理提效工具-SOP自动化工具,汇总多个平台治理工具,将数据治理标准化SOP的各个执行步骤通过工具落地,实现在一个工具内一站式治理能力,约束工程师的治理动作,确保整个治理过程是标准的,效果是可监控的,从而提升了治理效率及治理质量。
比如无效任务的治理,首先需要调研问题治理经验并沉淀至SOP文档,然后将SOP文档中各个执行步骤依次通过自动化的工具进行配置。数据工程师在治理时只需要在一个界面内即可实现全部的治理动作,下图是无效任务治理SOP及美团的自动化工具:
通过数据治理标准化建设,我们解决了团队在数据治理规范方面若干问题,取得了明显效果:
同时,我们在实际建设的过程中,也总结了一些标准化的建设经验:
以往大家在开展数据治理工作时主要依赖经验判断,缺乏科学可量化的抓手,对治理问题的严重程度无法准确感知,同时对治理收益的回收也不能准确评估。因此我们开展了数字化的工作,将大家数据开发工作用数据描述,构建整个数据开发工作的准确视图。
建设思路:通过对数据生命周期各环节进行类比业务数仓建设中抽象和描述业务对象方式,进行元数据对象的抽象和描述,并建设成元数据数仓和治理指标体系,应用在数据管治场景
框架主要包含元数据仓库、指标体系、数据资产等级以及基于元数仓基础上建立的各个数据应用,利用元数据驱动数据治理及日常团队管理,避免过多依赖经验解决问题,更好地服务业务。下边几个章节将分别介绍数字化框架最核心的数据内容:元数据仓库、指标体系、数据资产等级。
元数据是描述数据的数据,包含数据资产种类、数据存储大小、数据流血缘关系、数据生产过程等信息,存在信息种类多,分布零散,信息不完整的特点。丰富的元数据有助于我们快速了解团队数据资产,让数据资产更加精准,透明。为数据使用和价值释放提供支撑。
我们的建设思路,采取数据业务化、业务数字化、数字应用化的思路来搭建元数据仓库。
通过数据业务化思路,我们抽象业务域、管理域、技术域等3大主题域来描述元数仓对象,并对每个主题域进行细分,划分多个主题:
在元数仓分层上,我们采用最常见的四层架构分层方式,分别是贴源层、明细层、汇总层、应用层和维度信息。区别于业务数仓分层设计方式,从明细层就按维度建模思路组织数据,避免过度设计,只需要做好主题划分和解耦。在汇总层从分析习惯出发耦合数据,提升易用性。应用层按需创建所需接口支撑应用。
目前,我们已完成元数据仓库技术域、管理域、业务域部分内容的建设,并已支撑指标体系及上层多个数据应用,未来仍将根据大家在实际工作中核心关注的内容对元数仓进一步补充和完善。
一个问题的衡量需要从多方面进行考虑,只用一个指标无法充分说明问题,这就需要一组有逻辑且相互关联的数据指标来描述问题。在数据开发过程中,需要制定多个指标来监控衡量数据开发团队在质量、安全、效率、成本等方面存在的问题。
此前,住宿数据团队没有一套成熟稳定的指标体系,无法长期准确衡量团队的业务支持能力、技术能力。2020年,我们在元数据仓库基础上搭建了数据治理指标体系,全面衡量了业务数仓建设过程中各类问题,通过指标体系监测工作中的优点与不足,提升了团队的工作能力,进而提高了对业务的支持能力。
建设方案
指标体系的建设目标是监控团队工作状态和变化趋势,需要能够覆盖到工作中的各个方面。因此,在指标体系的建设上,我们通过不同视角对指标体系进行分类,做到不重不漏全覆盖,让指标适用于不同使用场景:
建设成果
目前,我们已建设技术、需求及故障三大类指标共计112个,全面覆盖数据开发中的各个环节:
元数据及指标体系应用:
建设思考
在指标建设过程中,我们沉淀了以下几点经验:
随着业务快速发展,团队负责的数据资产规模也日益扩大。截止当前,团队共负责离线Hive表3000+,ETL生产任务2000+,人均负责ETL生产任务100+。在面对规模日益扩大的数据资产,团队管理者及数据工程师通常会遇到以下问题:
为丰富元数据之间的关系和内容,挖掘识别更有价值的数据信息,以元数据能力驱动数据研发及运维日常工作,在元数据仓库的基础上我们做了衍生能力即资产等级的建设。资产等级可以对数据的重要性进行科学有效地评估,也可帮助完善数据质量分级监控方案,从而实现对重点任务的重点保障。
下图是数据资产等级通用计算流程,我们首先根据资产类型确认各个影响因子及影响权重值,划分影响因子重要性等级,其次根据各个影响因子数值范围划分得分区间,最后汇总计算得到最终资产等级得分及资产等级结果,并抽样验证结果的准确性。
下图是针对数据表资产等级建设的方法和流程图:
影响因子的确定是资产等级计算中最为关键一环,合理评估影响因子对最终资产等级结果的准确性至关重要。根据实际数据开发中经验可知,影响数据表重要程度主要有以下几个关键因素:
确定好影响因子之后,我们需要判断每个影响因子所占的权重值。我们采用层次分析法来计算权重值(层次分析法主要应用在不确定情况下及具有多数个评估准则的决策问题上,具体计算步骤,大家可查阅相关的资料),其优点是把研究对象作为一个系统,按照分解、比较判断、综合的思维方式进行决策,而且计算过程简洁实用。
根据实际情况对每个影响因子划分得分区间,并结合每个影响因子权重值,可以计算得到资产等级最终得分。总得分为各影响因子得分与对应权重乘积加和。
我们将资产等级最终得分划分区间至L1 ~ L5,L5为最高资产等级,L1为最低资产等级。
目前,资产等级已运用到日常管治实施,为数据分级管治提供了有力的抓手:
除了标准化和数字化之外,我们数据治理体系落地仍面临诸多问题:
针对上述问题,我们搭建了数据百品-管治中心治理平台(美团内部产品),实现了集资产管理、问题分析监控、自动化治理、过程追踪、结果评价的一站式、全覆盖数据治理平台,能有效提升治理质量和效率,为数据质量提升做好强有力的支撑。通过“管+治”相结合的理念,分别从管理者及研发人员的视角对数据、人效等问题实现全面监控,并实现了资产全景、管理中心、治理中心三大模块:
资产全景从管理者+数据RD视角出发,介绍了当前数据现状即有什么的问题,帮助业务线管理者及数据RD实现数据资产可视化,为管理者提供技术管理的抓手,为数据RD提升数据探查和数据使用效率。包含资产大盘、资产目录、个人资产三个子模块:
数据团队管理者在日常团队管理中时经常会面临两个问题:
管理中心主要从管理者视角出发,解决了怎么管的问题,通过管理者关注的核心指标,为管理者提供监测团队状态、判断团队问题、辅助管理决策的能力,让管理者从“依赖经验管理”转变为“数据驱动管理”。包含管理者大盘、运维管理、需求管理、团队管理四大模块:
日常数据治理过程中,问题责任人解决问题主要有以下痛点:
治理中心从问题责任人视角出发,解决了怎么治的问题,为一线治理工程师提供从问题评估分析,到治理,到进度监控的一站式治理能力。将治理工作精细化、常态化运营,提升了数仓治理质量和效率。包含治理概览、分析评估、问题治理、进度监控四大模块。
在日常数据治理过程中,每个团队都会沉淀若干SOP规范文档来指导大家进行问题治理,减少问题发生。但是在SOP的落地上,依然存在很多问题:
基于上述问题,我们开发了SOP自动化配置工具。SOP自动化工具是一款SOP配置工具,适用于问题治理类SOP,将治理动作通过工具进行配置以提高治理效率,进而保证过程质量和结果质量。目标是解决SOP规范文档在落地过程中遇到的执行效率低、过程无法跟踪监控的问题,实现一站式解决问题的能力。
SOP自动化工具主要包含基础组建层、配置层及应用层,以下是产品架构图及产品界面:
SOP实际操作步骤如下:
用户在创建SOP后可选择性配置需要展示的数据信息,然后按照SOP执行步骤依次拖动各个基础组件,并填写执行操作完成SOP的配置工作,在效果预览完成后即可发布上线并生成外嵌URL。自动化工具主要通过外嵌的形式对外提供服务。
通过SOP自动化工具,数据治理已实现了问题解决过程线上化、步骤标准化,很好地保障了治理效果,提升了治理效率。下图是无效存储指标在使用SOP自动化工具前后的流程对比,通过对比,我们可以看到之前工程师需要人工确认若干信息,并跳转多个平台操作,现在只需要在一个界面完成所有动作,极大地减轻了研发人员的工作量。
目前,我们团队已完成7大治理域内30多个指标的治理SOP建设,并均已通过自动化工具落地。后续,我们仍将探索其他专项治理内容,并利用SOP自动化工具辅助开展数据治理的工作。
通过数据治理系统化的建设,我们总结了以下几点:
数据治理实施流程,是我们依据业务数据治理标准化框架在实施解决具体数据问题时,总结抽象出来的一套适用于大多数治理场景解决问题的通用标准流程。标准流程的好处在于更加规范化数据治理工程师的操作流程,来保证实施的质量。流程一共包含5个步骤:
经过在数据治理体系化建设上的持续思考与实践,我们的体系化框架基本建立,在数据治理的标准化、数字化和系统化三个方向上取得了较大的进展,并且在业务应用上取得了一定的成绩。更重要的是,我们在数据成本、安全、效率等多个领域都帮助业务解决了实际的问题,尤其是在成本方面,预计每年可以帮助业务可节省数百万的成本,获得了业务方的肯定。
但对比“理想终态”,我们的工作仍任重道远。数据治理体系化框架这个庞大“身躯”中的各个血脉、骨骼、脏腑还需要持续充盈,在流程规范、元数据数仓、指标体系、资产分级等的建设过程中,还有很多需要靠专家经验、人为判断、人工操作串联的场景存在。下一步,我们将在智能化(如智能化元数据服务、智能化数据标准建设等)、自动化(基于治理框架的治理应用场景的线上化建设等)等方面发力。
王磊、有为、尉斌等,均来自美团数据科学与平台部。