首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。
数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。
DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。
提到LinkedIn,不得不想到大名鼎鼎的Kafka,Kafka就是LinkedIn开源的。LinkedIn开源的Kafka直接影响了整个实时计算领域的发展,而LinkedIn的数据团队也一直在探索数据治理的问题,不断努力扩展其基础架构,以满足不断增长的大数据生态系统的需求。随着数据的数量和丰富性的增长,数据科学家和工程师要发现可用的数据资产,了解其出处并根据见解采取适当的行动变得越来越具有挑战性。为了帮助增长的同时继续扩大生产力和数据创新,创建了通用的元数据搜索和发现工具DataHub。
市面上常见的元数据管理系统有如下几个:
a) linkedin datahub:
https://github.com/linkedin/datahub
b) apache atlas:
https://github.com/apache/atlas
c) lyft amundsen
https://github.com/lyft/amundsen
atlas之前我们也介绍过,对hive有非常好的支持,但是部署起来非常的吃力。amundsen还是一个新兴的框架,还没有release版本,未来可能会发展起来还需要慢慢观察。
综上,datahub是目前我们实时数据治理的最佳选择,只是目前datahub的资料还较少,未来我们将持续关注与更新datahub的更多资讯。
DataHub诞生Github https://github.com/linkedin/datahub
License Apache-2.0
支持数据源 LDAP, Hive, Kafka, MySQL, DB2, Firebird, SQL Server, Oracle, Postgres, SQLite, ODBC
实现功能 元数据 数据血缘 权限 描述 生命周期
datahub的前身是LinkedIn为了提高数据团队的工作效率,开发并开源的WhereHows。
这是一个中央元数据存储库和数据集门户。存储的元数据类型包括技术元数据(例如位置,架构,分区,所有权)和过程元数据(例如沿袭,作业执行,生命周期信息)。WhereHows还提供了搜索引擎来帮助找到感兴趣的数据集。
自2016年首次发布WhereHows以来,业界对通过使用元数据提高数据科学家的生产力的兴趣日益浓厚。例如,在此领域开发的工具包括AirBnb的Dataportal,Uber的Databook,Netflix的Metacat,Lyft的Amundsen以及最近的Google的Data Catalog。
但是,LinkedIn很快意识到WhereHows具有根本的局限性,使其无法满足不断发展的元数据需求。主要问题是:
推送比拉动要好:虽然直接从源中拉动元数据似乎是收集元数据的最直接方法,但开发和维护集中的特定域爬网程序却很快成为噩梦。让各个元数据提供者通过API或消息将信息推送到中央存储库具有更大的可伸缩性。这种基于推送的方法还可以确保更及时地反映新的和更新的元数据。
一般胜于特定:关于数据集或工作的元数据有着固定的API,数据模型和存储格式。对元数据模型进行小的更改将导致在堆栈上下进行一系列更改。如果我们设计了一个通用的体系结构,而该体系结构与其存储和服务的元数据模型无关,那么它将具有更大的可扩展性。反过来,这将使我们能够专注于入门和不断发展的,有见地的元数据模型,而不必担心堆栈的底层。
联机与脱机同样重要:收集了元数据后,自然要分析该元数据以获取价值。一种简单的解决方案是将所有元数据转储到脱机系统(如Hadoop),在该系统中可以执行任意分析。但是,我们很快发现仅支持离线分析还不够。有许多用例,例如访问控制和数据隐私处理,必须在线查询最新的元数据。
关系确实很重要:元数据通常传达重要的关系(例如,血统,所有权和依赖性),这些关系可以提供强大的功能,例如影响分析,数据汇总,更好的搜索相关性等。将所有这些关系建模为头等公民和支持对其进行有效的分析查询。
多中心宇宙:我们意识到仅对单个实体(数据集)周围的元数据进行建模是不够的。有一个完整的数据,代码和人员实体生态系统(数据集,数据科学家,团队,代码,微服务API,指标,AI功能,AI模型,仪表板,笔记本等),需要通过以下方式进行集成和连接:单个元数据图。
认识datahub