Spark基本工作流程及YARN cluster模式原理

日期：2020-06-17 栏目：程序人生浏览：次

Worker：集群中任何可以运行Application代码的节点，类似于YARN中的NodeManager节点。在Spark on Yarn模式中指的就是NodeManager节点；

Executor：Application运行在Worker 节点上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，每个Application都有各自独立的一批Executor。

SparkContext：由用户程序启动，通过资源调度模块与Executor通信。

Driver：运行Application的main()函数，并创建SparkContext。其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信，进行资源的申请、任务的分配和监控等；当Executor部分运行完毕后，Driver负责将SparkContext关闭。通常用SparkContext代表Drive；

基本运行流程

Spark应用程序有多种运行模式。SparkContext和Executor这两部分的核心代码实现在各种运行模式中都是公用的，在这两部分之上，根据运行部署模式（例如：Local[N]、Yarn cluster等）的不同，有不同的调度模块以及对应的适配代码。

图3-1 基本框架图

具体来说，以SparkContext为程序运行的总入口，在SparkContext的初始化过程中，Spark会分别创建DAGScheduler作业和TaskScheduler任务调度两级调度模块。

其中作业调度模块是基于任务阶段的高层调度模块，它为每个Spark作业计算具有依赖关系的多个调度阶段（通常根据shuffle来划分），然后为每个阶段构建出一组具体的任务（通常会考虑数据的本地性等），然后以TaskSets（任务组）的形式提交给任务调度模块来具体执行。而任务调度模块则负责具体启动任务、监控和汇报任务运行情况。

详细的运行流程为：

构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或YARN）注册并申请运行Executor资源；

资源管理器分配Executor资源并启动StandaloneExecutorBackend，Executor运行情况将随着心跳发送到资源管理器上；

SparkContext构建成DAG图，将DAG图分解成Stage，并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序代码发放给Executor。

Task在Executor上运行，运行完毕释放所有资源。

sparkProcessDetail

作业调度模块和具体的部署运行模式无关，在各种运行模式下逻辑相同。不同运行模式的区别主要体现在任务调度模块。不同的部署和运行模式，根据底层资源调度方式的不同，各自实现了自己特定的任务调度模块，用来将任务实际调度给对应的计算资源。接下来重点介绍下YARN cluster模式的实现原理和实现细节。

YARN cluster运行模式的内部实现原理

Spark有多种运行模式，在这里主要介绍下YARN cluster模式的内部实现原理。如下图是YARN cluster模式的原理框图，相对于其他模式，该模式比较特殊的是它需要由外部程序辅助启动APP。用户的应用程序通过辅助的YARN Client类启动。YARN cluster模式和YARN client模式的区别在于：YARN client模式的AM是运行在提交任务的节点，而YARN cluster模式的AM是由YARN在集群中选取一个节点运行，不一定是在提交任务的节点运行。例如spark-shell如果需要使用YARN模式运行，只能为yarn-client模式，启动命令可以使用spark-shell --master yarn-client。

图3-9 YARN cluster模式逻辑架构框图

Client类通过YARN Client API提交请求，在Hadoop集群上启动一个Spark ApplicationMaster，Spark ApplicationMaster首先注册自己为一个YARN ApplicationMaster，之后启动用户程序，SparkContext在用户程序中初始化时，使用CoarseGrainedSchedulerBackend配合YARNClusterScheduler，YARNClusterScheduler只是对TaskSchedulerImpl的一个简单包装，增加了对Executor的等待逻辑等。

根据Client类传递的参数，Spark ApplicationMaster通过YARN ResourceManager/NodeManager的接口在集群中启动若干个Container，用于运行CoarseGrainedExecutorBackend.CoarseGrainedExecutorBackend在启动过程中会向CoarseGrainedSchedulerBackend注册。

CoarseGrainedSchedulerBackend是一个基于Akka Actor实现的粗粒度的资源调度类，在整个Spark作业运行期间，CoarseGrainedSchedulerBackend主要负责如下功能：

监听并持有注册给它的Executor资源

根据现有的Executor资源，进行Executor的注册、状态更新、相应Scheduler的请求等任务的调度

模式的实现细节

转载注明出处：https://www.heiqu.com/c3913656826822fd870c49810fb2ca19.html

Spark基本工作流程及YARN cluster模式原理

相关推荐