Hadoop学习：Map/Reduce初探与小Demo实现

日期：2020-07-12 栏目：程序人生浏览：次

一、概念知识介绍

Hadoop MapReduce是一个用于处理海量数据的分布式计算框架。这个框架解决了诸如数据分布式存储、作业调度、容错、机器间通信等复杂问题，可以使没有并行处理或者分布式计算经验的工程师，也能很轻松地写出结构简单的、应用于成百上千台机器处理大规模数据的并行分布式程序。

Hadoop MapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，可以简单理解为“分散运算—归并结果”的过程。一个 MapReduce程序首先会把输入数据分割成不相关的若干键/值对（key1/value1）集合，这些键/值对会由多个map任务来并行地处理。 MapReduce会对map的输出（一些中间键/值对key2/value2集合）按照key2进行排序，排序是用memcmp的方式对key在内存中字节数组比较后进行升序排序，并将属于同一个key2的所有value2组合在一起作为reduce任务的输入，由reduce任务计算出最终结果并输出 key3/value3。作为一个优化，同一个计算节点上的key2/value2会通过combine在本地归并。基本流程如下：

Hadoop和单机程序计算流程对比：

Hadoop学习：Map/Reduce初探与小Demo实现

常计算任务的输入和输出都是存放在文件里的，并且这些文件被存放在Hadoop分布式文件系统HDFS（Hadoop Distributed File System）中，系统会尽量调度计算任务到数据所在的节点上运行，而不是尽量将数据移动到计算节点上，减少大量数据在网络中传输，尽量节省带宽消耗。

应用程序开发人员一般情况下需要关心的是图中灰色的部分，单机程序需要处理数据读取和写入、数据处理；Hadoop程序需要实现map和 reduce，而数据读取和写入、map和reduce之间的数据传输、容错处理等由Hadoop MapReduce和HDFS自动完成。

二、开发环境搭建

Map/Reduce程序依赖Hadoop集群，另外Eclipse需要安装依赖的hadoop包。

Hadoop集群搭建：参考Hadoop 2.2.0集群搭建

--------------------------------------分割线 --------------------------------------

Ubuntu 13.04上搭建Hadoop环境

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置

Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）

Ubuntu下Hadoop环境的配置

单机版搭建Hadoop环境图文教程详解

Hadoop LZO 安装教程

Hadoop集群上使用Lzo压缩

1. 安装、配置Eclipse

在官网下载合适的Eclipse，将hadoop开发所依赖的插件jar包拷贝到eclipse的安装文件夹plugins下。Hadoop2.2.0开发依赖的jar包下载地址参考：

------------------------------------------分割线------------------------------------------

FTP地址：ftp://ftp1.linuxidc.com

用户名：ftp1.linuxidc.com

密码：

在 2014年LinuxIDC.com\6月\Hadoop学习：Map&Reduce初探与小Demo实现

下载方法见

------------------------------------------分割线------------------------------------------

当然也可以自己编译。

启动eclipse，选择Window—>Prefrances，若出现如下Hadoop Map/Reduce说明插件安装成功

Hadoop学习：Map/Reduce初探与小Demo实现

2. 配置DFS，主要是数据文件的输入输出管理。

Window—>Open Perspective—>other—>Map/Reduce，显示Map/Reduce视图。点击Map/Reduce Locations 的小象图标，新建Hadoop Location，输入如下：

Hadoop学习：Map/Reduce初探与小Demo实现

项目视图会出现DFS Location，用来管理输入、输出数据文件。

Hadoop学习：Map/Reduce初探与小Demo实现

需要配置hadoop安装文件夹：新建Map/Reduce工程单击Configure Hadoop install direction，输入hadoop的安装路径。

Hadoop学习：Map/Reduce初探与小Demo实现

转载注明出处：https://www.heiqu.com/8cb58d19044a5efb517b55b3b992d6ee.html

Hadoop学习：Map/Reduce初探与小Demo实现

相关推荐