Spark On YARN 集群安装部署(2)

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9001</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/spark/workspace/hadoop-2.6.0/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/spark/workspace/hadoop-2.6.0/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

修改mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8035</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
</configuration>

将配置好的hadoop-2.6.0文件夹分发给所有slaves吧

scp -r ~/workspace/hadoop-2.6.0 spark@slave1:~/workspace/

启动 Hadoop
在 master 上执行以下操作,就可以启动 hadoop 了。

cd ~/workspace/hadoop-2.6.0    #进入hadoop目录
bin/hadoop namenode -format    #格式化namenode
sbin/start-dfs.sh              #启动dfs
sbin/start-yarn.sh              #启动yarn

验证 Hadoop 是否安装成功
可以通过jps命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程:

$ jps  #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps

在每个slave上应该有以下几个进程:

$ jps  #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode

或者在浏览器中输入 :8088 ,应该有 hadoop 的管理界面出来了,并能看到 slave1 和 slave2 节点。

Spark安装
下载解压
进入官方下载地址下载最新版 Spark。我下载的是 spark-1.3.0-bin-hadoop2.4.tgz

在~/workspace目录下解压

tar -zxvf spark-1.3.0-bin-hadoop2.4.tgz
mv spark-1.3.0-bin-hadoop2.4 spark-1.3.0    #原来的文件名太长了,修改下

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/6bfb78236db12b3aa7da975bf8f469fa.html