解释下:dfs.name.dir是namenode存储永久性的元数据的目录列表。这个目录会创建在master机上。dfs.data.dir是datanode存放数据块的目录列表,这个目录在node1和node2机都会创建。 dfs.replication 设置文件副本数,这里两个datanode,所以设置副本数为2。
接下来mapred-site.xml的修改:
解释下:这里设置的是运行jobtracker的服务器主机名和端口,也就是作业将在master主机的9001端口执行。
接下来修改slaves文件
这里将两台从主机的主机名node1和node2加进去就可以了。
最后修改profile文件 ,如下进入profile:
将这几个路径添加到末尾:
��改完让它生效:
检查下是否可以看到hadoop版本信息
显示出了版本信息,如果没有显示出来,回过去检查 profile路径是否填写错误。
六、格式化namenode并启动集群
接下来需要格式化namenode,注意只需要在 master主机上进行格式化。格式化命令如下:
看到successful表示格式化成功。
接下来启动集群:
启动完毕,检查下启动情况: master主机看到四个开启的进程,node1和node2看到三个开启的进程表示启动成功。
如果有疑问或疏漏的地方,欢迎大家指出和讨论!
Hadoop项目之基于CentOS7的Cloudera 5.10.1(CDH)的安装部署
Ubuntu 16.04上构建分布式Hadoop-2.7.3集群