DataHub——实时数据治理平台

日期：2022-01-11 栏目：程序人生浏览：次

file

DataHub

首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。

数据治理是大佬们最近谈的一个火热的话题。不管国家层面，还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量，数据管理，数据资产，数据安全等等。而数据治理的关键就在于元数据管理，我们要知道数据的来龙去脉，才能对数据进行全方位的管理，监控，洞察。

DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。

提到LinkedIn，不得不想到大名鼎鼎的Kafka，Kafka就是LinkedIn开源的。LinkedIn开源的Kafka直接影响了整个实时计算领域的发展，而LinkedIn的数据团队也一直在探索数据治理的问题，不断努力扩展其基础架构，以满足不断增长的大数据生态系统的需求。随着数据的数量和丰富性的增长，数据科学家和工程师要发现可用的数据资产，了解其出处并根据见解采取适当的行动变得越来越具有挑战性。为了帮助增长的同时继续扩大生产力和数据创新，创建了通用的元数据搜索和发现工具DataHub。

市面上常见的元数据管理系统有如下几个：
a) linkedin datahub:
https://github.com/linkedin/datahub
b) apache atlas:
https://github.com/apache/atlas
c) lyft amundsen
https://github.com/lyft/amundsen

atlas之前我们也介绍过，对hive有非常好的支持，但是部署起来非常的吃力。amundsen还是一个新兴的框架，还没有release版本，未来可能会发展起来还需要慢慢观察。

综上，datahub是目前我们实时数据治理的最佳选择，只是目前datahub的资料还较少，未来我们将持续关注与更新datahub的更多资讯。

DataHub诞生

Github https://github.com/linkedin/datahub

License Apache-2.0

支持数据源 LDAP, Hive, Kafka, MySQL, DB2, Firebird, SQL Server, Oracle, Postgres, SQLite, ODBC

实现功能 元数据数据血缘权限描述生命周期

datahub的前身是LinkedIn为了提高数据团队的工作效率，开发并开源的WhereHows。

这是一个中央元数据存储库和数据集门户。存储的元数据类型包括技术元数据（例如位置，架构，分区，所有权）和过程元数据（例如沿袭，作业执行，生命周期信息）。WhereHows还提供了搜索引擎来帮助找到感兴趣的数据集。

自2016年首次发布WhereHows以来，业界对通过使用元数据提高数据科学家的生产力的兴趣日益浓厚。例如，在此领域开发的工具包括AirBnb的Dataportal，Uber的Databook，Netflix的Metacat，Lyft的Amundsen以及最近的Google的Data Catalog。

但是，LinkedIn很快意识到WhereHows具有根本的局限性，使其无法满足不断发展的元数据需求。主要问题是：

推送比拉动要好：虽然直接从源中拉动元数据似乎是收集元数据的最直接方法，但开发和维护集中的特定域爬网程序却很快成为噩梦。让各个元数据提供者通过API或消息将信息推送到中央存储库具有更大的可伸缩性。这种基于推送的方法还可以确保更及时地反映新的和更新的元数据。

一般胜于特定：关于数据集或工作的元数据有着固定的API，数据模型和存储格式。对元数据模型进行小的更改将导致在堆栈上下进行一系列更改。如果我们设计了一个通用的体系结构，而该体系结构与其存储和服务的元数据模型无关，那么它将具有更大的可扩展性。反过来，这将使我们能够专注于入门和不断发展的，有见地的元数据模型，而不必担心堆栈的底层。

联机与脱机同样重要：收集了元数据后，自然要分析该元数据以获取价值。一种简单的解决方案是将所有元数据转储到脱机系统（如Hadoop），在该系统中可以执行任意分析。但是，我们很快发现仅支持离线分析还不够。有许多用例，例如访问控制和数据隐私处理，必须在线查询最新的元数据。

关系确实很重要：元数据通常传达重要的关系（例如，血统，所有权和依赖性），这些关系可以提供强大的功能，例如影响分析，数据汇总，更好的搜索相关性等。将所有这些关系建模为头等公民和支持对其进行有效的分析查询。

多中心宇宙：我们意识到仅对单个实体（数据集）周围的元数据进行建模是不够的。有一个完整的数据，代码和人员实体生态系统（数据集，数据科学家，团队，代码，微服务API，指标，AI功能，AI模型，仪表板，笔记本等），需要通过以下方式进行集成和连接：单个元数据图。

认识datahub

转载注明出处：https://www.heiqu.com/zwfxsz.html

DataHub——实时数据治理平台

相关推荐