Spark 1.5、Hadoop 2.7 集群环境搭建(2)

日期：2020-06-17 栏目：程序人生浏览：次

yarn-site.xml文件示例如下：
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>linux-1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

以上配置均为示例，还可以有更多选项，具体参考官方文档。之后把这5个文件拷贝到每台机器上，覆盖原文件。
首次启动需要先在 Master 节点执行 NameNode 的格式化：hdfs namenode -format
之后在master上启动{hadoop_dir}/sbin/start-dfs.sh 、{hadoop_dir}/sbin/start-yarn.sh、{hadoop_dir}/sbin/mr-jobhistory-daemon.sh start historyserver，如果一切正常，使用jps命令，可以看到下面一些进程。
linux-1上：
Jps
NameNode
ResourceManager
JobHistoryServer
linux-2上：
Jps
NodeManager
SecondaryNameNode
DataNode
linux-3上：
NodeManager
DataNode
Jps

现在hadoop就已经可用了。在使用hdfs之前先要创建用户：hdfs dfs -mkdir -p /user/clusterwork （这个用户最好和当前操作用户同名，这样在操作时可免输绝对路径），以下是常用命令，和普通linux差不多，而且在集群中任意的机器上皆可：
hdfs dfs -mkdir data ——建目录，其实是建在了/user/clusterwork/data 下
hdfs dfs -put *.xml data ——传文件
hdfs dfs -ls data ——显示文件
hdfs dfs -rm data/* ——删除文件
hdfs dfs -rmdir data ——删除目录
不一一列举

最后补充spark的集群启动。其实也是利用的ssh无密码登录了。但这个对于spark不是必须的，对于hadoop则是必须的。所以既然前面hadoop安装第2步已经做了，这里就省事了。配置各个机器的/conf/slaves ，把worker写进去。启动 {spark_dir}/sbin/start-all.sh 即可。
之后通过web访问检查一下各集群情况：:8080、 :50070、 :8088

更多Spark相关教程见以下内容：

CentOS 7.0下安装并配置Spark

Spark1.0.0部署指南

Spark官方文档 - 中文翻译

CentOS 6.2(64位)下安装Spark0.8.0详细记录

转载注明出处：https://www.heiqu.com/8ba5d6a6150cd654b5efa92782796a36.html

Spark 1.5、Hadoop 2.7 集群环境搭建(2)

相关推荐