用 Hadoop 进行分布式数据处理，第 1 部分: 入门(5)

日期：2020-10-11 栏目：程序人生浏览：次

您已经知道如何检查 HDFS 了，但是如果要寻找 Hadoop 的操作的相关信息，会发现 Web 界面很有用。位于 Hadoop 集群最上层的是 namenode，它管理 HDFS。可以通过 :50070 查看文件系统的高层信息（比如可用空间、已用空间和可用的 datanode）以及正在运行的作业。可以通过 :50030 深入检查 jobtracker（作业状态）。注意，在这两种情况下都引用 localhost，因为所有守护进程都在同一个主机上运行。

更进一步

本文讨论了一个简单的（伪分布式）Hadoop 集群的安装和初始配置。在这里，我选用 Cloudera 的 Hadoop 发行版是因为它简化了 Hadoop 的安装和初始配置。可以在 apache.org 找到许多 Hadoop 发行版（包括源代码）。更多信息见参考资料。

但是，如果缺少硬件资源，无法扩展 Hadoop 集群以满足自己的需要，那么应该怎么办？由于 Hadoop 非常流行，可以很方便地在云计算基础设施中使用预构建的 Hadoop VM 和租用的服务器运行它。Amazon 在 Amazon Elastic Compute Cloud (Amazon EC2) 中提供 Amazon Machine Image (AMI) 和计算资源。另外，Microsoft 最近宣布将在它的 Windows? Azure Services Platform 中支持 Hadoop。

通过本文很容易看出 Hadoop 显著简化了处理大型数据集的分布式计算。本系列中的下一篇文章通过更多示例讨论如何在多节点集群中配置 Hadoop。

参考资料

学习

Yahoo! 的 Doug Cutting（现在在 Cloudera）为支持 Nutch 搜索引擎的分发开发了 Hadoop。

用于 Hadoop 开发的主站点是一个 Apache 项目。

Cloudera 提供预打包的 Hadoop 和 VM，简化了 Hadoop 的安装。

查看 Google 最近授予 Hadoop 的许可证，这个许可证让用户可以放心地使用 Hadoop，不需要担心法律问题。Google 拥有 Hadoop 的思想的专利（专利 7,650,331 中定义的高效大规模数据处理）。

转载注明出处：http://www.heiqu.com/d1fdbebbf1a2bf99dc1f24ec3cf0a0bb.html

用 Hadoop 进行分布式数据处理，第 1 部分: 入门(5)

相关推荐