5、设置Hadoop环境变量
将本地配置好的hadoop-0.21.0目录复制到zhangzk01、zhangzk02、zhangzk03上的目录/home/zhangzk下,保证hadoop的配置文件目录conf的物理路径为/home/zhangzk/hadoop-0.21.0/conf。
分别在上述3个节点机器上配置hadoop的环境变量。
export HADOOP_HOME=/home/zhangzk/hadoop-0.21.0
export PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME=/home/zhangzk/hadoop-0.21.0
export PATH=$HADOOP_HOME/bin:$PATH
6、启动HDFS和Mapreduce,并且查看集群状态
1)格式化文件系统
[zhangzk@zhangzk01 bin]$ hdfs namenode -format
注意:格式化时要防止NameNode的namespace ID与DataNode的namespace ID的不一致,因为每格式化一次会产生Name、Data、tmp等临时文件记录信息,多次格式化会产生很多,会导致ID的不同,造成hadoop不能运行
2)启动hadoop
[zhangzk@zhangzk01 bin]$ start-dfs.sh
[zhangzk@zhangzk01 bin]$ start-mapred.sh
3)用jps命令查看进程,NameNode上的结果如下:
5334 JobTracker
5215 SecondaryNameNode
5449 Jps
5001 NameNode
4)查看集群状态
[zhangzk@zhangzk01 bin]$ hdfs dfsadmin -report
确保运行的DataNode个数是正确的,我的是2个,这样可以查看哪个DataNode没有运行
7、遇到的问题与解决办法
遇到过两个问题:
(1)zhangzk01上的防火墙没有关闭
No route to host
(2)/etc/hosts中的文件被自动修改
org.apache.hadoop.ipc.RPC: Server at zhangzk01/192.168.43.201:9000 not available yet, Zzzzz.