2.4.1学习之Mapper和Reducer(2)

日期：2020-06-28 栏目：程序人生浏览：次

Reducer的处理过程主要包括三个阶段：shuffle（洗牌）、sort（分类）和reduce。在shuffle阶段，MapReduce框架通过HTTP获取所有Mapper输出的相关分区。在Sort阶段，框架根据键分组Reducer的输入（不同的mapper可能输出相同的键）。Shuffle和sort是同时进行的，获取Mapper的输出后然后合并它们。在reduce阶段，调用reduce(WritableComparable, Iterable<Writable>处理<key, (list of values)>对。Reducer的输出通常通过Context.write(WritableComparable,Writable)写入文件系统，比如HDFS，当然也可以通过使用DBOutputFormat将输出写入数据库。Reducer的输出是未经排序的。

如果不需要Reducer，可以使用Job.setNumReduceTasks(int)将Reducer的数量设置为0（如果不使用该方法设置Reducer的数量，由于mapreduce.job.reduces默认为1，会启动一个Reducer），在这种情况下，Mapper的输出将直接写入FileOutputFormat.setOutputPath(Job,Path)指定的路径中，并且MapReduce框架不会对Mapper的输出进行排序。

如果在进行reduce之前想使用与分组中间键时不同的比较规则，可以通过Job.setSortComparatorClass(Class)指定不同的Comparator。也就是Job.setGroupingComparatorClass(Class)控制了如何对中间输出分组，而Job.setSortComparatorClass(Class)控制了在将数据传入reduce之前进行的第二次分组。

不同于Mapper的数量由输入文件的大小确定，Reducer的数量可以由程序员明确设置，那么设置多少Reducer可以达到较好地效果呢？Reducer的数量范围为：(0.95 ~1.75 ) * 节点数量 * 每个节点上最大的容器数。参数yarn.scheduler.minimum-allocation-mb设置了每个容器可请求的最小内存，那么最大容器数可根据总的内存除以该参数计算得出。当使用0.75时，所有的Reducer会被立即加载，并当Mapper完成时开始传输Mapper的输出。使用1.75时，较快的节点将完成它们第一轮的任务，然后加载第二波任务，这样对负载平衡具有更好的效果。增加Reducer的数量虽然增加了框架开销，但增加了负载平衡和降低了失败的成本。上面的比例因子比总的Reducer数量稍微少些，以为预测执行的任务和失败的任务保留少量的Reducer槽，也就是实际的Reducer数量为上面公式得出的数量加上保留的Reducer数量。

CentOS安装和配置Hadoop2.2.0

Ubuntu 13.04上搭建Hadoop环境

Ubuntu 12.10 +Hadoop 1.2.1版本集群配置

Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）

Ubuntu下Hadoop环境的配置

单机版搭建Hadoop环境图文教程详解

搭建Hadoop环境（在Winodws环境下用虚拟机虚拟两个Ubuntu系统进行搭建）

转载注明出处：https://www.heiqu.com/faf84aad17e2888b68d2b51b2c292d68.html

2.4.1学习之Mapper和Reducer(2)

相关推荐