Spark 中 RDD的运行机制

日期：2020-05-29 栏目：程序人生浏览：次

1. RDD 的设计与运行原理

Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。

在实际应用中，存在许多迭代式算法和交互式数据挖掘工具，这些应用场景的共同之处在于不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。而 Hadoop 中的 MapReduce 框架都是把中间结果写入到 HDFS 中，带来了大量的数据复制、磁盘 IO 和序列化开销，并且通常只支持一些特定的计算模式。而 RDD 提供了一个抽象的数据架构，从而让开发者不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同 RDD 之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘 IO 和序列化开销。

1.1. RDD 概念

一个 RDD 就是一个分布式对象集合，提供了一种高度受限的共享内存模型，其本质上是一个只读的分区记录集合，不能直接修改。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段，并且一个 RDD 的不同分区可以保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。

RDD 提供了一组丰富的操作以支持常见的数据运算，分为“行动”（Action）和“转换”（Transformation）两种类型，前者用于执行计算并指定输出的形式，后者指定 RDD 之间的相互依赖关系。RDD 提供的转换接口都非常简单，都是类似 map 、filter 、groupBy 、join 等粗粒度的数据转换操作，而不是针对某个数据项的细粒度修改。因此，RDD 比较适合对于数据集中元素执行相同操作的批处理式应用，而不适合用于需要异步、细粒度状态的应用，比如 Web 应用系统、增量式的网页爬虫等。

RDD 的典型的执行过程如下：

读入外部的数据源（或者内存中的集合）进行 RDD 创建；

RDD 经过一系列的 “转换” 操作，每一次都会产生不同的 RDD，供给下一个转换使用；

最后一个 RDD 经过 “行动” 操作进行处理，并输出指定的数据类型和值。

RDD 采用了惰性调用，即在 RDD 的执行过程中，所有的转换操作都不会执行真正的操作，只会记录依赖关系，而只有遇到了行动操作，才会触发真正的计算，并根据之前的依赖关系得到最终的结果。

下面以一个实例来描述 RDD 的实际执行过程，如下图所示，开始从输入中创建了两个 RDD，分别是 A 和 C，然后经过一系列的转换操作，最终生成了一个 F，这也是一个 RDD。注意，这些转换操作的执行过程中并没有执行真正的计算，基于创建的过程也没有执行真正的计算，而只是记录的数据流向轨迹。当 F 执行了行为操作并生成输出数据时，Spark 才会根据 RDD 的依赖关系生成有向无环图（DAG），并从起点开始执行真正的计算。正是 RDD 的这种惰性调用机制，使得转换操作得到的中间结果不需要保存，而是直接管道式的流入到下一个操作进行处理。

1.2. RDD 特性

总体而言，Spark 采用 RDD 以后能够实现高效计算的主要原因如下：

高效的容错性。在 RDD 的设计中，只能通过从父 RDD 转换到子 RDD 的方式来修改数据，这也就是说我们可以直接利用 RDD 之间的依赖关系来重新计算得到丢失的分区，而不需要通过数据冗余的方式。而且也不需要记录具体的数据和各种细粒度操作的日志，这大大降低了数据密集型应用中的容错开销。

中间结果持久化到内存。数据在内存中的多个 RDD 操作之间进行传递，不需要在磁盘上进行存储和读取，避免了不必要的读写磁盘开销；

存放的数据可以是 Java 对象，避免了不必要的对象序列化和反序列化开销。

1.3. RDD 之间的依赖关系

RDD 中的不同的操作会使得不同 RDD 中的分区会产生不同的依赖关系，主要分为窄依赖（Narrow Dependency）与宽依赖（Wide Dependency）。其中，窄依赖表示的是父 RDD 和子 RDD 之间的一对一关系或者多对一关系，主要包括的操作有 map、filter、union 等；而宽依赖则表示父 RDD 与子 RDD 之间的一对多关系，即一个父 RDD 转换成多个子 RDD，主要包括的操作有 groupByKey、sortByKey 等。

转载注明出处：https://www.heiqu.com/11968.html

Spark 中 RDD的运行机制

相关推荐