Spark源码编译并在YARN上运行WordCount实例(2)

编译完成后,我们能看到会多出一个target目录,里面就包括了编译后的.class文件和打好的jar包:

[hadoop@master spark-wordcount]$ sbt/sbt clean compile package [hadoop@master spark-wordcount]$ ls target/scala-2.10/ classes wordcount_2.10-1.0.0.jar 在YARN上运行WordCount

在hdfs上首先上传一些待处理的文本:

[hadoop@master spark-wordcount]$ $HADOOP_HOME/bin/hdfs dfs -put ~/test.txt input

编写如下启动脚本,将Spark WordCount提交到YARN上运行:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
  #!/usr/bin/env bash

PROJECT_HOME=/home/hadoop/project/spark-wordcount
#以防万一,确保删除输出目录
$HADOOP_HOME/bin/hdfs dfs -rmr /user/hadoop/output

$SPARK_HOME/bin/spark-submit \
--class WordCount \
--master yarn-cluster \
--num-executors 2 \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
$PROJECT_HOME/target/scala-2.10/wordcount_2.10-1.0.0.jar \
hdfs://master:9000/user/hadoop/input \
hdfs://master:9000/user/hadoop/output
 

这里采用的是yarn-cluster部署模式,num-executors指定启动的executor数量,driver-memory指定drive端所需内存大小,executor-memory指定executor所需内存大小,executor-cores指定每个executor使用的内核数。运行如上脚本后,打开Hadoop的web页面可以看到运行正常,如下图所示:

spark-on-yarn

更多Spark相关教程见以下内容

CentOS 7.0下安装并配置Spark 

Spark1.0.0部署指南

CentOS 6.2(64位)下安装Spark0.8.0详细记录

Spark简介及其在Ubuntu下的安装使用

安装Spark集群(在CentOS上)

Hadoop vs Spark性能对比

Spark安装与学习

Spark 并行计算模型

Ubuntu 14.04 LTS 安装 Spark 1.6.0 (伪分布式)

Spark 的详细介绍请点这里
Spark 的下载地址请点这里

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/c52b8392d3a07668e6fba8f72e70b78e.html