Spark 1.5、Hadoop 2.7 集群环境搭建(2)

yarn-site.xml文件示例如下:
    <configuration>
            <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>linux-1</value>
            </property>
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
            </property>
    </configuration>

以上配置均为示例,还可以有更多选项,具体参考官方文档。之后把这5个文件拷贝到每台机器上,覆盖原文件。
首次启动需要先在 Master 节点执行 NameNode 的格式化:hdfs namenode -format
之后在master上启动{hadoop_dir}/sbin/start-dfs.sh 、{hadoop_dir}/sbin/start-yarn.sh、{hadoop_dir}/sbin/mr-jobhistory-daemon.sh start historyserver,如果一切正常,使用jps命令,可以看到下面一些进程。
linux-1上:
  Jps
  NameNode
  ResourceManager
  JobHistoryServer
linux-2上:
  Jps
  NodeManager
  SecondaryNameNode
  DataNode
linux-3上:
  NodeManager
  DataNode
  Jps

现在hadoop就已经可用了。在使用hdfs之前先要创建用户:hdfs dfs -mkdir -p /user/clusterwork  (这个用户最好和当前操作用户同名,这样在操作时可免输绝对路径),以下是常用命令,和普通linux差不多,而且在集群中任意的机器上皆可:
hdfs dfs -mkdir data  ——建目录,其实是建在了/user/clusterwork/data 下
hdfs dfs -put *.xml data  ——传文件
hdfs dfs -ls data    ——显示文件
hdfs dfs -rm data/* ——删除文件
hdfs dfs -rmdir data ——删除目录
不一一列举

最后补充spark的集群启动。其实也是利用的ssh无密码登录了。但这个对于spark不是必须的,对于hadoop则是必须的。所以既然前面hadoop安装第2步已经做了,这里就省事了。配置各个机器的/conf/slaves ,把worker写进去。启动 {spark_dir}/sbin/start-all.sh 即可。
之后通过web访问检查一下各集群情况::8080、 :50070、 :8088

更多Spark相关教程见以下内容

CentOS 7.0下安装并配置Spark 

Spark1.0.0部署指南

Spark官方文档 - 中文翻译 

CentOS 6.2(64位)下安装Spark0.8.0详细记录

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/8ba5d6a6150cd654b5efa92782796a36.html