用 Hadoop 进行分布式并行编程, 第 3 部分部署到分(5)

六 云计算与 Hadoop

我们知道,在分布式集群环境中才能发挥 Hadoop 的并行优势,拥有的机器数量越多,越能快速有效的处理海量数据。现实问题是,虽然很多公司都有处理海量数据的需求,却又不可能专门投资去搭建大规模的集群环境,Hadoop 于他们,不免沦为”屠龙之技”,无处发挥其优势,如之奈何?在过去,这个问题还真是难以解决,今天的情况就不一样了。读者如果关注 IT 业界动态,当知现在 IT 业界正在极力鼓吹”云计算”, 并有一些公司开始投资搭建所谓的”云计算平台”,这里的”云”, 就是一堆机器组成的分布式环境外加一些基础构架软件和管理软件,其中便会有类似于 Hadoop 这样的分布式计算软件,HDFS 这样的分布式文件系统,有需求的公司和个人可以到这样的”云计算平台”上去租用存储空间,租用计算结点(计算能力)做分布式运算。

比如 Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service ),提供可靠,快速,可扩展的网络存储服务,以及一个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud )。用户可以将其数据存储在 Amazon S3 分布式存储平台上, 然后到 Amazon EC2 上去租用计算能力,完成对数据的计算。Amazon EC2 提供所谓的按需租用服务,目前的收费标准是每台虚拟计算机 (Amazon EC2 称之为一个 instance) 每小时0.10美元。与传统的主机租用服务完全不同,用户可以根据自己某次运算处理的规模,租用相应数量的虚拟计算机,运算完毕后就可以释放你租用的虚拟计算机,Amazon 则会根据你租用的虚拟计算机的数量以及本次计算的实际运行时间向你收费,等于说你花钱租用计算能力,但不会浪费一个子儿。IBM 公司的云计算平台"蓝云"也面向企业用户提供了类似的功能。

如果我们打算基于 Hadoop 编写分布式并行程序来处理大量的数据,完全可以到 IBM, Amazon 等提供的云计算平台上去进行计算,对于 IBM 蓝云,Amazon S3, Amazon EC2 的详细介绍超出了本文范围,有兴趣的读者可以去其官方网站了解更多的信息。

七 结束语

这是系列文章的最后一篇。第一篇文章介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 如何安装和部署单机 Hadoop 环境, 在第二篇文章中,我们实际编写了一个 Hadoop 并行计算程序,并了解了一些重要的编程细节,了解了如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译,运行和调试 Hadoop 并行计算程序。本篇文章则详细介绍了如何部署分布式 Hadoop 环境,如何利用 IBM MapReduce Tools 将程序部署到分布式环境中运行,并简略介绍了现在流行的”云计算平台” 以及计算能力按需租用服务。

希望这三篇文章能起到一个抛砖引玉的作用,让你感受到 MapReduce 分布式并行编程的乐趣并从此入门且乐在其中,为即将到来的所谓”云计算”时代提前热热身。

相关阅读:

linux

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/ppyfj.html