Spark 中 RDD的运行机制(2)

日期：2020-05-29 栏目：程序人生浏览：次

对于窄依赖的 RDD，可以以流水线的方式计算所有父分区，不会造成网络之间的数据混合。对于宽依赖的 RDD，则通常伴随着 Shuffle 操作，即首先需要计算好所有父分区数据，然后在节点之间进行 Shuffle。因此，在进行数据恢复时，窄依赖只需要根据父 RDD 分区重新计算丢失的分区即可，而且可以并行地在不同节点进行重新计算。而对于宽依赖而言，单个节点失效通常意味着重新计算过程会涉及多个父 RDD 分区，开销较大。此外，Spark 还提供了数据检查点和记录日志，用于持久化中间 RDD，从而使得在进行失败恢复时不需要追溯到最开始的阶段。在进行故障恢复时，Spark 会对数据检查点开销和重新计算 RDD 分区的开销进行比较，从而自动选择最优的恢复策略。

1.4. 阶段的划分

Spark 通过分析各个 RDD 的依赖关系生成了 DAG ，再通过分析各个 RDD 中的分区之间的依赖关系来决定如何划分阶段，具体划分方法是：在 DAG 中进行反向解析，遇到宽依赖就断开，遇到窄依赖就把当前的 RDD 加入到当前的阶段中；将窄依赖尽量划分在同一个阶段中，可以实现流水线计算。例如在下图中，首先根据数据的读取、转化和行为等操作生成 DAG。然后在执行行为操作时，反向解析 DAG，由于从 A 到 B 的转换和从 B、F 到 G 的转换都属于宽依赖，则需要从在宽依赖处进行断开，从而划分为三个阶段。把一个 DAG 图划分成多个 “阶段” 以后，每个阶段都代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集合。每个任务集合会被提交给任务调度器（TaskScheduler）进行处理，由任务调度器将任务分发给 Executor 运行。

1.5. RDD 运行过程

通过上述对 RDD 概念、依赖关系和阶段划分的介绍，结合之前介绍的 Spark 运行基本流程，这里再总结一下 RDD 在 Spark 架构中的运行过程（如下图所示）：

创建 RDD 对象；

SparkContext 负责计算 RDD 之间的依赖关系，构建 DAG；

DAGSchedule 负责把 DAG 图反向解析成多个阶段，每个阶段中包含多个任务，每个任务会被任务调度器分发给工作节点上的 Executor 上执行。

Linux公社的RSS地址：https://www.linuxidc.com/rssFeed.aspx

转载注明出处：https://www.heiqu.com/11968.html

Spark 中 RDD的运行机制(2)

相关推荐