转载而来,仅供本人使用,请勿拷贝!!!
大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。
但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,难以保障的数据安全等等,源源不断的基础性数据问题会进一步产生,进而导致数据建设难以真正发挥其商业价值。
因此,消除数据的不一致性,建立规范的数据标准,提高数据治理能力,实现数据安全共享,并能够将数据作为企业的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值变得尤为迫切和重要,数据治理呼之欲出。本文将介绍美团配送技术团队在数据治理方面的一些探索和实践,希望能够对大家有所启发和帮助。
1. 如何理解数据治理数据治理,从严格的定义来讲是对组织的大数据管理并利用其进行评估、指导和监督的体系框架。企业通过制定战略方针、建立组织架构、明确职责分工等,实现数据的风险可控、安全合规、绩效提升和价值创造,并提供创新的大数据服务。从个人实践的层面来讲,数据治理是对存量数据治理和增量数据管控的一个过程,对存量数据实现由乱到治、建章立制,对增量数据实现严格把控、行不逾矩的约束。
2. 要达成的目标数据治理本身并不是目的,它只是实现组织战略目标的一个手段而已。从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,而基于目前美团配送数据团队所处的组织职能和发展阶段来说,我们希望通过数据治理解决数据生产、管理和使用过程中遇到的问题,完善已有的生产管理流程规范,保障数据安全和数据一致性,从而促进数据在组织内无障碍地进行共享。
3. 何时进行数据治理找准数据治理的切入点,是关乎数据治理成败的关键。很多同学会问,如果将数仓建设分为数仓雏形阶段、数仓迭代阶段和能力沉淀阶段,数据治理应该在哪个阶段切入为宜呢?其实,我们不该把数据治理看作是一个阶段性的项目,它应该是一个贯彻数据建设各阶段的长期工程,只是在不同阶段根据业务特点和技术特点其覆盖的范围和关注的目标有所不同而已。
在数仓雏形阶段,也就是美团配送业务刚成立时,在该阶段中业务有两个特点:第一,重规模、快扩张;第二,业务变化快,数据需求多。为了快速响应业务的需求,并能够保障数据交付结果的准确性,我们主要进行技术规范和指标口径的治理,在规范治理方面,通过制定一系列研发规范来保障研发质量,并在实际建模过程中不断迭代和完善我们的研发质量。在指标治理方面,我们对存量指标口径进行梳理,从而确保指标口径对外输出一致。
在数仓迭代阶段,我们希望通过架构治理改变前期开发的“烟囱式”模型,消除冗余,提升数据一致性。并且随着数仓中管理的数据越多,数据安全和成本问题也变得越发重要。所以在该阶段,我们在产研层面逐步开展架构治理、资源治理和安全治理。在架构治理方面,我们明确了数仓中各层和各主题的职责和边界,构建一致的基础数据核心模型,并制定一系列的指标定义规范来确保指标的清晰定义,并基于业务迭代来不断完善和迭代相应的模型和规范。在资源治理方面,我们通过对不同层级的数据采用不同生命周期管理策略,确保用最少的存储成本来满足最大的业务需求。在安全治理方面,我们通过制定一系列的数据安全规范来确保数据的使用安全。
在能力沉淀阶段,我们基于前两个阶段所做的业务和技术沉淀,将前期一系列规范形成标准,从业务到产研,自上而下地推动数据治理,并通过建立相应的组织、流程和制度来保障标准在该阶段的全面落地实施,并通过建设数据治理平台来辅助更高质量地执行标准。
4.如何开展数据治理从大的阶段来看,数据治理主要分为存量数据“由乱到治”的阶段,以及增量数据严格按照规章制度实施确保“行不逾矩”的运营阶段。在“由乱到治”的过程中,我们需要沉淀出规章制度、标准规范,以及辅以规章制度标准规范实施的工具和组织。在增量数据的运营阶段,我们主要靠对应的组织确保规章制度的落实,通过审计定期考察实施效果,并在长期的运营中不断完善规章制度。在实现存量数据“由乱到治”的阶段,我们主要采取了“两步走”策略,具体执行策略如下所示。
4.1 定标准,提质量