使用Hadoop构建MapReduce应用

日期：2020-08-15 栏目：程序人生浏览：次

随着捕获的数据的数量每年增加，我们的存储也需要增加。很多公司正在认识到“数据为王”这一道理，但是我们如何分析这些数据呢？答案就是“通过Hadoop”。在本系列的第二篇文章中，java编程专家Steven Haines将会解释什么是MapReduce应用，以及如何构建一个简单的MapReduce应用。

本系列中的第一篇文章描述了Hadoop被设计用来解决的业务问题领域，以及给予它解决这些问题能力的内部架构。运行在Hadoop内的应用被称作为MapReduce应用，因此这部文章将演示如何构建一个简单的MapReduce应用。

采用MapReduce与Hadoop进行大数据分析

搭建开发环境

在你能够使用Hadoop之前,你需要安装Java 6(或者更新版本)，你可以从 Oracle的网站上下载对应你的平台的版本。另外，如果你是运行在Windows上，由于Hadoop运行的正式开发和部署平台是Linux，所以你需要使用Cygwin来运行Hadoop。Mac OXS用户可以无问题地原生态运行Hadoop。

Hadoop可以从它的Releases页面下载，但是它的版本号结构解释起来具有一点儿挑战性。简而言之，1.x的代码分支包含当前的稳定发行版，2.x.x分支包含用于版本2的Hadoop的alpha代码，0.22.x的代码分支与2.x.x的相同，除了没有security，0.23的代码分支去除了高可用性(high availability)。0.20.x的代码分支是历史遗留问题，你可以忽略。对于本文中的例子，我将使用0.23.x代码分支，写这篇文章是该分支的最新版本是0.23.5，但是对于生产环境，你可能会想下载1.x版本或2.x.x版本。

下载并解压文件到你的本地机器上。如果你计划要做较长时间的Hadoop开发，你最好将解压的bin文件夹添加到你的PATH环境变量中。你可以通过执行bin目录中的hadoop命令来测试你的安装:

bin/hadoop

执行该命令而没有任何参数的话会显示以下输出:

Usage: hadoop [--config confdir] COMMAND

where COMMAND is one of:

fs run a generic filesystem user client

version print the version

jar <jar> run a jar file

distcp <srcurl> <desturl> copy file or directories recursively

archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive

classpath prints the class path needed to get the

Hadoop jar and the required libraries

daemonlog get/set the log level for each daemon

CLASSNAME run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

虽然有很多命令可以传递给Hadoop，但是由于本文中我们将关注在开发环境中执行Hadoop应用程序，因此我们唯一感兴趣的是下面的命令：

hadoop jar <jar-file-name>

Hello,MapReduce 在任何编程语言中，你编写的第一段程序通常都是一个“Hello,World”程序。对Hadoop和MapReduce而言，每个人编写的标准程序是Word Count应用程序。Word Count应用程序统计在大量的文本中每个单词出现的次数。它是一个学习MapReduce的完美例子，因为它的mapping和reducing步骤很琐细，但却引导你采用MapReduce的方式思考。下面是对Word Count应用程序中各个组件及其功能的总结:

转载注明出处：http://www.heiqu.com/b67be966757511c033c672f6985cd40d.html

使用Hadoop构建MapReduce应用

相关推荐