Hadoop MapTask/ReduceTask各阶段耗费时间的测试

基于Eclipse的Hadoop环境搭建指南

Hadoop中Map任务的执行框架

Hadoop对Map执行框架的实现(TaskTracker端)

下面是通过日志统计出的各个细分阶段所用的时间:

每个TaskTracker都使用一个队列保存JobTracker分发过来的Task,我们将一个Task出队列的时间作为时间原点。

1.  Hadoop首先将有关Task的文件(job.split,job.xml以及job.jar)从HDFS拷贝到TaskTracker的本地文件系统中,使用了不到1s的时间。这是因为job.split本来就在本地磁盘上。

2.  当所有需要的资源都已经被拷贝到本地后,Hadoop为这个Task启动一个TaskRunner线程,TaskRunner完成一些初始化工作,比如创建临时文件夹等等,最后TaskRunner启动一个子进程Child。此阶段耗时2s。

3.  子进程Child与TaskTracker进程通信,获得运行Task需要的JvmTask对象。此阶段耗时2s。

4.  Child进程一开始有一些初始化工作,耗时2s。然后开始真正的运行maptask。

5,  第一次map输出缓冲区被写满,耗时52s,然后对缓存排序耗时2s,然后将排好序的数据写入一个spill文件,耗时18s。

6,  第二次map输出缓冲区被写满,耗时39s,然后对缓存排序耗时1s,然后将排好序的数据写入一个spill文件,耗时14s。

7, 第三次是一个flush操作,将缓冲区内剩余数据写入一个spill文件,总共耗时1s。

8,  最后将3个spill文件merge,耗时不到1s。

Hadoop统计的这个Task总共耗时134s,与本次测试的时间统计加和相当,说明测试正确。

ReduceTask可以分为三个步骤:

copy:在第一批map结束的时候,copy就开始了,但是要等到所有map结束copy才有可能结束,所以这个阶段的时间统计较长,为200s

sort:由于使用了combiner,reduce阶段要处理的数据很少,这里的一个ReduceTask处理242条记录,大小约50k,用时1s

reduce:用时不到1s

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/aa98cf336649e652269eb09621bc94e6.html