3) 至于SPARK_MASTER_HOST和SPARK_MASTER_PORT,感觉没有必要显式地配置,因为人家使用默认值也是没有问题的,但是我还是配上了,不配置的话会不会有问题我就不知道了。
3.2.3将配置好的spark文件拷贝到hadoop2和hadoop3节点上
命令:
scp -r /usr/local/spark-2.2.0-bin-hadoop2.6 root@hadoop2:/usr/local/
scp -r /usr/local/spark-2.2.0-bin-hadoop2.6 root@hadoop3:/usr/local/
3.2.4在hadoop1节点上配置环境变量
命令:
vim /etc/profile
在文件中加入以下内容:
export SPARK_HOME=/usr/local/spark-2.2.0-bin-hadoop2.6
export PATH=$PATH: ${SPARK_HOME}/bin
如下:
注:这里之所以没有在PATH中加入${SPARK_HOME}/sbin,是因为该目录和$HADOOP_HOME/sbin目录下都存在start-all.sh和stop-all.sh脚本,如果在PATH中加入${SPARK_HOME}/sbin,当然也是没有问题的,但是有可能会产生误操作(有时候你想关闭spark集群,于是在任意位置执行stop-all.sh命令,极有可能就把hadoop集群给关咯),所以为了避免这种情况,干脆不配置了,当要执行start-all.sh和stop-all.sh时再手动切换到${SPARK_HOME}/sbin目录下去执行即可。
使修改的环境变量生效:
source /etc/profile
3.2.5启动spark集群
命令:
cd /usr/local/spark-2.2.0-bin-hadoop2.6/sbin
./start-all.sh
如下:
3.2.6 通过网页192.168.137.21:8080查看是否成功
注意,同样也是要在页面上看到所有的Woker子节点的信息才算是成功了。
3.3运行spark程序测试
安装完Spark之后,应该测试一下安装的spark在local模式、standalone模式和spark-on-yarn模式下是否等能成功运行程序。
对于安装的Spark集群,测试一下standalone模式是否可以成功运行是有必要的。
若是需要以spark-on-yarn模式运行程序,则spark-on-yarn模式的测试也非常有必要,因为有的时候虽然yarn集群启动成功了,但是由于yarn默认参数配置不一定适合你当时的集群硬件配置,极有可能是有问题的,只有跑一个程序测试一下才能试出问题来。
至此,配置完成。