由于我们已经把hadoop的bin或sbin相关目录路径写入环境变量,因此下面的命令可在任意路径下执行。
master节点上,格式化文件系统:
格式化无误的话,即可看到下图的输出信息提示。
以下操作在master节点上进行:
一次性启动NameNode和所有DataNode的脚本为hadoop自带的start-dfs.sh(在sbin目录下)
报告文件系统状态的命令为:
启动yarn,一次性启动ResourceManager和NodeManager的hadoop脚本为start-yarn.sh(在sbin目录下)
报告yarn节点信息的命令为:
当然,既然hadoop启动都是java进程,jps命令当然也可以用来观察master机器上的hadoop进程。
为了启动方便,我把上述启动命令都写在一个脚本里面,命名为start.sh,并把它放在~/hadoop/script目录下。
来看看start.sh脚本的内容:
#!/bin/bash start-dfs.sh hdfs dfsadmin -report start-yarn.sh yarn node -list jps在~/hadoop/script目录下,执行start.sh脚本。输出结果如下,表明hadoop启动成功。
在slave1 节点上执行jps命令,观察到有NodeManager 和DataNode进程。
以hadoop自带的example jar为例测试。此测试程序目的是找出hadoop etc目录下文件中
包含 “dfs”的各个文件中的行数及每行内容。
为了便于重复测试,同样,我把测试命令写成了脚本,命名为testhadoop.sh,并把它放在~/hadoop/script目录中,其内容如下。
执行testhadoop.sh脚本,输出结果如下。
map 和reduce过程
包含 “dfs”的各个文件中的行数及每行内容。
测试完成,停止hadoop集群。先关闭yarn,后停止hdfs。
hadoop自带脚本为stop-yarn.sh及stop-dfs.sh。
Thanks!
Hadoop项目之基于CentOS7的Cloudera 5.10.1(CDH)的安装部署
Ubuntu 16.04上构建分布式Hadoop-2.7.3集群
CentOS 7.3下Hadoop2.8分布式集群安装与测试