到此为止,一个简单的分布式Hadoop并行运算集群已经已然完成,哈哈,是不是很简单,但是需要说明的是,各位其实也看到了,并且想必各位也充满了各种疑惑:这些命名神马的怎么这么奇怪?hdfs是怎么工作的?数据怎么分开存储的?数据怎么在被切开存储后还能计算?各个节点的高可用怎么实现?如果需要更为复杂的运算怎么处理等等?相关内容,笔者也在慢慢的整理和学习,敬请关注哈。
补充一点相关知识:
当hadoop正常启动后,不同的节点,会开放不同的几个端口,可以直接通过web页面查看其相关信息的端口,实际上,开放的端口远不止这些,(详情可以通过 netstat -tnlp|grep java)查看, 但是只有这些可以通过web直接打开查看。具体如下:
端口 工作节点 本此实验的web查方式
0.0.0.0:50030 任务管理节点(JobTracker) 192.168.88.253:5030
0.0.0.0:50070 HDFS的数据名称节点(NameNode) 192.168.88.253:5070
0.0.0.0:50090 第二数据名称节点(SecondaryNameNode) 192.168.88.129:50090
0.0.0.0:50060 任务执行节点(TaskTracker) 192.168.88.130:5060
0.0.0.0:50075 数据节点(DataNode) 192.168.88.130:5075
下图是之前执行计算时笔者的截图: