我们知道,hadoop集群启动成功之后,子节点会定时向主节点发送心跳信息,主节点以此判断子节点的状态。所以,有时即使我们通过主节点启动hadoop集群成功了,使用jps命令也能查询到相应的SecondaryNameNode、NameNode和DataNode进程——但如果由于某些原因,比如某个子节点的某个配置配错了,如我搭建时的情况是子节点的core-site.xml文件中fs.defaultFS项配置错了,或者是由于防火墙的原因,又或者是由于前面格式化次数太多了出问题导致子节点的cluster_id跟主节点的cluster_id不一致——导致子节点无法向主节点发送心跳信息,那么对主节点来说,该子节点就是dead的了。
于是,作为进一步验证的方法,是在主节点上使用hdfs dfsadmin -report来观察集群配置情况。如下:
方法二:
通过本地浏览器查看192.168.137.21:50070,验证否部署成功
注:一定要在页面看到所有子节点信息才算hdfs集群没有问题。
2.8启动yarn,在hadoop1上执行以下命令
cd /usr/local/hadoop-2.6.5/sbin
./start-yarn.sh
如下:
2.9验证yarn是否启动成功
方法一:
用jps命令可以看到主节点上有ResourceManager进程
在子节点上有NodeManager进程
但是,同样还不能认为yarn集群就没有问题了,原因如2.2.4中所说的那样(即:可能由于某些原因,导致子节点在启动之后却无法向主节点注册)。
因此,保险起见,应在主节点上再通过yarn node -list -all命令查看一下。如下:
如上图说明yarn启动成功。
如果像下图一那样,说明yarn集群是有问题的——这种时候如果提交了以yarn作为资源调度器的任务,则任务会永远卡在ACCEPTED状态(如下图二),这是因为此时yarn集群只剩下ResourceManager这个光杆司令了,没有资源可以给它调度,所以它会一直卡在分配资源的状态下,要命的是它会一直很顽强地不断地努力尝试分配资源,还不报错......
图一:
图二:
方法二:
通过本地浏览器访问192.168.137.21:8088,查看yarn是否正常工作
如上图,在页面上能看到子节点的信息,说明yarn集群没有问题。如果像下图这样,说明你的yarn集群是有问题的。
3.安装Spark