数据中台(元数据篇) (2)

数仓模型数据:对于数仓模型中的事实表、维度表,标注它们所属的业务域(例如属于销售还是生产)和数仓模型层级(例如属于贴源层还是汇聚层)。标记这些元数据可以让用户更方便地浏览数据资产。

聚合语义数据:一般是一些描述性数据,用来描述不同的数据表汇聚时必须满足的条件,例如,用户表和销售表合并的时候应该过滤掉内部测试用户和机器人账号。这种语义元数据难以人工维护,可以采用与源代码结合的方式来展示聚合的方式。

元数据的基础功能和应用

我们可以通过元数据的管理,记录和管理与数据相关的业务数据,便于人们理解数据,保证数据使用的一致性。从不同数据源采集并集成元数据,保证人们理解不同数据的相似性和差异保证元数据的质量、一致性和安全给元数据使用者提供标准的元数据访问方法。

(1)数据地图:数据地图是基于所有元数据搭建起来的数据资产列表,可以将数据地图看作将所有元数据进行可视化呈现的系统。它不仅能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。通过可视化查询、浏览、搜索,能够根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系以及数据实体加工处理上下游的逻辑关系,也可以根据数据源库、类型等搜索元数据信息。

(2)数据血缘和影响性分析

数据血缘和影响性分析主要解决“数据之间有什么关系”的问题。因其重要价值,有的厂商会从元数据管理中将其单独提取出来,作为一个独立的重要功能。但是考虑到数据血缘和影响性分析其实是来自于元数据信息,所以还是放在元数据管理中来描述。数据血缘分析是元数据管理的重要应用之一,血缘分析指的是获取到数据的血缘关系,以历史事实的方式记录数据的来源、处理过程、梳理系统、表、视图、存储过程、ETL、程序代码、字段等之间的关系,并采用图数据库进行可视化展现。总之就是通过可视化展示数据是怎么来的,经过了哪些过程、阶段及计算逻辑。

影响分析:在一个数据源或数据应用出现问题后,定位该问题的影响范围,并根据管理元数据通知相关部门或人员。

指标溯源分析:通过血缘关系,对于一些关键指标,可以查看该指标的计算流程,并回溯到相关的数据源。这个方法在数据治理和数据质量管理中经常用到。

(3)元数据质量:主要做元数据治理用的,包含库、表元数据治理功能,分多个维度统计元数据完成情况,并可以做相应通知等。在做好元数据质量的前提下,可以基于元数据做数据质量管理,在定义好数据质量元数据之后,由系统自动按照数据质量规则检查数据,形成数据质量报告,并在数据质量出现问题时报警。

(4)元数据管理:元数据的管理包含元数据的增删改查、变更管理、对比分析、统计分析等。

元数据的增删改查。通过对不同的角色赋予相应的权限,实现元数据在组织范围内的信息共享。值得注意的是,对元数据的修改、删除、新增等操作,必须经过元数据管理员的审核流程。

元数据变更管理。对元数据的变更历史进行查询,对变更前后的版本进行比对等。

元数据对比分析。对相似的元数据进行比对。比如,对近似的两张表进行对比,发现它们之间的细微差异。

元数据统计分析。用于统计各类元数据的数量,如各类数据的种类、数量、数据量等,方便用户掌握元数据的汇总信息。

(5)元数据中心:这是元数据核心功能之一,整个元数据的输出就是数据地图,用户可以通过元数据中心查看表的元数据信息(技术元数据、业务元数据)、任务信息、血缘关系(表级、字段级)血缘分析、使用信息等等(再多就看自己公司诉求了)

(6)元数据服务:统一元数据服务,主要提供查询表、指标、维度基本信息的基础元数据服务以及查询表级血缘、字段级血缘的血缘服务。

(7)安全管理:通过元数据设置表及字段的安全等级,加密,脱敏,授权等,然后结合相应的规则对数据表及字段访问进行控制,确保数据安全。

(8)数据冷热度分析:冷热度分析主要是对数据表的被使用情况进行统计,如表与ETL程序、表与分析应用、表与其他表的关系情况等,从访问频次和业务需求角度出发,进行数据冷热度分析,用图表展现表的重要性指数。

元数据管理架构

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzwjwz.html