每个节点都要进行以下的配置
4. 创建必要的目录.首先创建 namenode 保存namenode 元信息的目录. 设置为 /usr/hadoop/tmp 目录下
mkdir -p /usr/hadoop/tmp
5. 配置hadoop 运行环境.进入 /etc/hadoop 目录下面,修改hadoop的默认配置.
首先修改 master 文件. master 文件很容易理解错误,master 文件是指 hadoop 机器里面的secondarynamenode.不是指本机(测试用所以配置上,实际上namenode和secondarynamenode放在同一个机子上不能增加可靠性,没什么意义!)
vim /etc/hadoop/master
(改为如下)
192.168.10.137
接着修改slaves 文件,salve 文件表示此集群的 datanode 节点.所以在本集群中,datanode 如下
vim /etc/hadoop/slave
(改为如下)
192.168.10.138
192.168.10.139
这里的IP实际上可以用主机名来代替,但当网格的DNS出问题的,就不能访问了,直接用IP就不用依赖DNS,提高集群可靠性!
6. 设置 core-site.xml 文件内容如下
<configuration>
<!-- global properties -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
</property>
<!-- file system properties -->
<property>
<name>fs.default.name</name>
<value>hdfs://namenode1:9000</value>
</property>
</configuration>
3)配置hdfs-site.xml文件
修改Hadoop中HDFS的配置,配置的备份方式默认为3,这里只有2个datanode,所以数据最大复制2份!
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
7. 设置 mapred-site.xml 件内容如下
修改Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode1:9001</value>
</property>
</configuration>
8. 修改 java 的运行环境变量,修改 hadoop-env.sh 如下行的内容如下
vim /etc/hadoop/hadoop-env.sh
修改如下行内容为
export JAVA_HOME=/usr/java/jdk1.7.0_09
11. 设置每个节点上面的 服务为自动启动
chkconfig --add hadoop-namenode
chkconfig --add hadoop-jobtracker
chkconfig hadoop-namenode on
chkconfig hadoop-jobtracker on