如何设计实时数据平台（设计篇） (3)

日期：2021-05-14 栏目：程序人生浏览：次

消息和物理媒介解耦（这里物理媒介指如Kafka的Topic, Spark Streaming的Stream等），因此可以通过物理媒介支持多消息流并行，和消息流的自由漂移。

平台也支持多租户体系，和配置化简单处理清洗能力。

2)统一流式处理平台

统一流式处理平台，会消费来自数据总线上的消息，可以支持UMS协议消息，也可以支持普通JSON格式消息。同时，平台还支持以下能力：

支持可视化／配置化／SQL化方式降低流式逻辑开发／部署／管理门槛

支持配置化方式幂等落入多个异构目标库以确保数据的最终一致性

支持多租户体系，做到项目级的计算资源／表资源／用户资源等隔离

3)统一计算服务平台

统一计算服务平台，是一种数据虚拟化／数据联邦的实现。平台对内支持多异构数据源的下推计算和拉取混算，也支持对外的统一服务接口（JDBC／REST）和统一查询语言（SQL）。由于平台可以统一收口服务，因此可以基于平台打造统一元数据管理／数据质量管理／数据安全审计／数据安全策略等模块。平台也支持多租户体系。

4)统一数据可视化平台

统一数据可视化平台，加上多租户和完善的用户体系／权限体系，可以支持跨部门数据从业人员的分工协作能力，让用户在可视化环境下，通过紧密合作的方式，更能发挥各自所长来完成数据平台最后十公里的应用。

以上是基于整体模块架构之上，进行了统一抽象设计，并开放存储选项以提高灵活性和需求适配性。这样的RTDP平台设计，体现了现代数仓的实时化／虚拟化／平民化／协作化等能力，并且覆盖了端到端的OLPP数据流转链路。

2.3 具体问题和考量思路

下面我们会基于RTDP的整体架构设计，分别从不同维度讨论这个设计需要面对的问题考量和解决思路。

1)功能考量

功能考量主要讨论这样一个问题：实时Pipeline能否处理所有ETL复杂逻辑？

我们知道，对于Storm／Flink这样的流式计算引擎，是按每条处理的；对于Spark Streaming流式计算引擎，按每个mini-batch处理；而对于离线跑批任务来说，是按每天数据进行处理的。因此处理范围是数据的一个维度（范围维度）。

另外，流式处理面向的是增量数据，如果数据源来自关系型数据库，那么增量数据往往指的是增量变更数据（增删改，revision）；相对的批量处理面向的则是快照数据（snapshot）。因此展现形式是数据的另一个维度（变更维度）。

单条数据的变更维度，是可以投射收敛成单条快照的，因此变更维度可以收敛成范围维度。所以流式处理和批量处理的本质区别在于，面对的数据范围维度的不同，流式处理单位为“有限范围”，批量处理单位为“全表范围”。“全表范围”数据是可以支持各种SQL算子的，而“有限范围”数据只能支持部分SQL算子，具体支持情况如下：

join：

✔ left join：支持。“限制范围”可以left join外部lookup表（通过下推，类似hashjoin效果）

✔ right join：不支持。每次从lookup拿回所有lookup表数据，这个计算是不可行的也是不合理的

✔ inter join：支持。可以转化为left join ＋filter，可以支持

✔ outer join：不支持。存在right join，因此不合理

union：支持。可以应用在拉回局部范围数据做窗口聚合操作。

agg：不支持。可以借助union做局部窗口聚合，但无法支持全表聚合操作。

filter：支持。没有shuffle，非常适合。

map：支持。没有shuffle，非常适合。

project：支持。没有shuffle，非常适合。

Join往往需要shuffle操作，是最费计算资源和时间的操作，而流上join（left join）将join操作转化成hashjoin的队列操作，将批量处理join的集中数据计算资源和时间平摊在数据流转过程中，因此在流上做left join是最划算的计算方式。

复杂的ETL并不是单一算子，经常会是由多个算子组合而成，由上可以看出单纯的流式处理并不能很好的支持所有ETL复杂逻辑。那么如何在实时Pipeline中支持更多复杂的ETL算子，并且保持时效性？这就需要“有限范围”和“全表范围”处理的相互转换能力。

设想一下：流式处理平台可以支持流上适合的处理，然后实时落不同的异构库，计算服务平台可以定时批量混算多源异构库（时间设定可以是每隔几分钟或更短），并将每批计算结果发送到数据总线上继续流转，这样流式处理平台和计算服务平台就形成了计算闭环，各自做擅长的算子处理，数据在不同频率触发流转过程中进行各种算子转换，这样的架构模式理论上即可支持所有ETL复杂逻辑。

如何设计实时数据平台（设计篇）

图8 数据处理架构演化

转载注明出处：https://www.heiqu.com/wpysfp.html

如何设计实时数据平台（设计篇） (3)

相关推荐