Spark集群的运行流程(2)

日期：2020-06-10 栏目：程序人生浏览：次

如何提高数据本地化的级别?
　　task执行的等待时间延长，从原来的3s提高到6s
提高数据本地化的级别要注意，不要本末倒置
spark.locality.wait 默认3s
spark.locality.process 等待进程本地化的时间，默认与spark.locality.wait相等
spark.locality.node
spark.locality.rack

Spark shuffle阶段的数据传输

MapOutputTrackerWorker（从）：在spark集群的每个worker中，负责将本地的map output block信息发送给master中的MapOutputTrackerMaster

MapOutputTrackerMaster（主）：在spark集群的master中，负责记录各个worker节点的map output block信息

BlockManager：每个Executor中的BlockManager实例化的时候都会向Dirver中的BlockManagerMaster注册信息，而BlockManagerMaster会创建BlockManagerInfo来管理元数据信息

BlockManagerMaster：在DAGScheduler对象中，管理元数据信息

BlockManagerSlaveEndpoint：在Executor端，负责接收BlockManagerMaster发送过来的信息

BlockTransferService：传输各个节点的block

MemoryStore、DiskStore

更多Spark相关教程见以下内容：

CentOS 7.0下安装并配置Spark

Ubuntu系统搭建单机Spark注意事项

Spark1.0.0部署指南

Spark2.0安装配置文档

Spark 1.5、Hadoop 2.7 集群环境搭建

Spark官方文档 - 中文翻译

在Ubuntu 17.10上安装Apache Spark

CentOS 6.2(64位)下安装Spark0.8.0详细记录

Spark-2.2.0安装和部署详解

Spark2.0.2 Hadoop2.6.4全分布式配置详解

Ubuntu 14.04 LTS 安装 Spark 1.6.0 （伪分布式）

Spark 的详细介绍：请点这里
Spark 的下载地址：请点这里

转载注明出处：https://www.heiqu.com/47d94b3756525a27a027b848e61604d3.html

Spark集群的运行流程(2)

相关推荐