1.1.0 rpm + CentOS 6.3 64 + JDK7 搭建全分布式集群的方(5)

每个节点都要进行以下的配置

4. 创建必要的目录.首先创建 namenode 保存namenode 元信息的目录. 设置为 /usr/hadoop/tmp  目录下

mkdir -p /usr/hadoop/tmp

5. 配置hadoop 运行环境.进入 /etc/hadoop 目录下面,修改hadoop的默认配置.

首先修改 master 文件. master 文件很容易理解错误,master 文件是指 hadoop 机器里面的secondarynamenode.不是指本机(测试用所以配置上,实际上namenode和secondarynamenode放在同一个机子上不能增加可靠性,没什么意义!)

vim /etc/hadoop/master

(改为如下)

192.168.10.137

接着修改slaves 文件,salve 文件表示此集群的 datanode 节点.所以在本集群中,datanode 如下

vim /etc/hadoop/slave

(改为如下)

192.168.10.138

192.168.10.139

这里的IP实际上可以用主机名来代替,但当网格的DNS出问题的,就不能访问了,直接用IP就不用依赖DNS,提高集群可靠性!

6. 设置 core-site.xml 文件内容如下

<configuration>
       
        <!-- global properties -->
<property>
    <name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
</property>
 
<!-- file system properties -->
  <property>
<name>fs.default.name</name>
<value>hdfs://namenode1:9000</value>
</property>


</configuration>

3)配置hdfs-site.xml文件

修改Hadoop中HDFS的配置,配置的备份方式默认为3,这里只有2个datanode,所以数据最大复制2份!

<configuration>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

</configuration>

7. 设置 mapred-site.xml 件内容如下

修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>namenode1:9001</value>

</property>

</configuration>

8. 修改 java 的运行环境变量,修改 hadoop-env.sh 如下行的内容如下

vim  /etc/hadoop/hadoop-env.sh
修改如下行内容为

export JAVA_HOME=/usr/java/jdk1.7.0_09

11. 设置每个节点上面的 服务为自动启动

chkconfig --add hadoop-namenode
chkconfig --add hadoop-jobtracker
chkconfig hadoop-namenode on
chkconfig hadoop-jobtracker on

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/350177531b1950163e0a0e4289f4705c.html