yarn-site.xml文件示例如下:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>linux-1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
以上配置均为示例,还可以有更多选项,具体参考官方文档。之后把这5个文件拷贝到每台机器上,覆盖原文件。
首次启动需要先在 Master 节点执行 NameNode 的格式化:hdfs namenode -format
之后在master上启动{hadoop_dir}/sbin/start-dfs.sh 、{hadoop_dir}/sbin/start-yarn.sh、{hadoop_dir}/sbin/mr-jobhistory-daemon.sh start historyserver,如果一切正常,使用jps命令,可以看到下面一些进程。
linux-1上:
Jps
NameNode
ResourceManager
JobHistoryServer
linux-2上:
Jps
NodeManager
SecondaryNameNode
DataNode
linux-3上:
NodeManager
DataNode
Jps
现在hadoop就已经可用了。在使用hdfs之前先要创建用户:hdfs dfs -mkdir -p /user/clusterwork (这个用户最好和当前操作用户同名,这样在操作时可免输绝对路径),以下是常用命令,和普通linux差不多,而且在集群中任意的机器上皆可:
hdfs dfs -mkdir data ——建目录,其实是建在了/user/clusterwork/data 下
hdfs dfs -put *.xml data ——传文件
hdfs dfs -ls data ——显示文件
hdfs dfs -rm data/* ——删除文件
hdfs dfs -rmdir data ——删除目录
不一一列举
最后补充spark的集群启动。其实也是利用的ssh无密码登录了。但这个对于spark不是必须的,对于hadoop则是必须的。所以既然前面hadoop安装第2步已经做了,这里就省事了。配置各个机器的/conf/slaves ,把worker写进去。启动 {spark_dir}/sbin/start-all.sh 即可。
之后通过web访问检查一下各集群情况::8080、 :50070、 :8088
更多Spark相关教程见以下内容:
CentOS 7.0下安装并配置Spark