用 Hadoop 进行分布式数据处理,第 2 部分: 进阶(6)

Web 管理界面

尽管 Hadoop-0.20 实用程序的功能极其丰富,但有时使用一个 GUI 会更方便。在执行文件系统检测时,您可以通过 :50070 链接到名称节点,通过 :50030 连接到 jobtracker 。您可以通过名称节点检测 HDFS,如图 5 所示,在这里您检测输入目录(包含输入数据 — 见上面 清单 13)。


图 5. 通过名称节点检测 HDFS

通过名称节点检测 HDFS


通过 jobtracker,您可以检测运行中或已完成的作业。在图 6 中,您可以看到对最后一个作业的检测(来自 清单 14)。该图展示了作为 Java 存档(JAR)请求的输出发出的各种数据,以及任务的状态和数量。注意,这里执行了两个映射任务(每个输入文件一个映射)和一个缩减任务(用于缩减两个映射输入)。


图 6. 检查一个已完成作业的状态

检查一个已完成作业的状态


最后,您可以通过名称节点检查数据节点的状态。名称节点主页确定活动节点和死节点(作为链接)的数量,且允许您进一步检测它们。图 7 所示的页面显示了活动数据节点以及每个节点的统计数据。


图 7. 检查活动数据节点的状态

检查活动数据节点的状态


通过名称节点和 jobtracker Web 界面,可以查看许多其他视图,但出于简洁,只显示该样例集。在名称节点和 jobtracker Web 页面内,您会找到大量链接,从而引导您获取有关 Hadoop 配置和操作的其他信息(包括运行时日志)。

更进一步

在本期中,您了解了如何将一个伪分布式配置从 Cloudera 转化为一个完全分布式配置。寥寥无几的步骤以及 MapReduce 应用程序的一个相同接口,就使 Hadoop 成为一个能实现分布式处理的有用工具。另一个有趣的部分就是 Hadoop 的可伸缩性探讨。通过添加新数据节点(并更新其 XML 文件和 master 中的 slave 文件),您可以轻松伸缩 Hadoop 来进行更高级别的平行处理。第 3 部分,也就是本 Hadoop 系列的最后一期,将探讨如何为 Hadoop 开发一个 MapReduce 应用程序。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/2d55d267c803c66ff885b2f3e1e3bb4f.html