修改Hadoop作业调度算法过程解析

最近几个星期一直在修改Hadoop的计算能力调度算法,遇到了这样那样的问题。
 
我修改的版本是hadoop-0.20.2
 
第一步:
 
将hadoop的源码加载到eclipse中配置使用ant编译
 
第二步:
 
根据需要修改源码
 
第三步:
 
使用ant编译修改内容,这里要提醒的就是要保证编译平台的JDK和运行平台的JDK相同
 
ant编译的方法是:首先到$HadoopHome/src/contrib/capacity-scheduler目录下
 
直接输入ant就可以编译,编译成功后会提示生产的JAR文件在$HadoopHome/build/contrib/capacity-scheduler 中。
 
重要的是如果修改了capacity-scheduler外的其他内容(主要在MapReduce中)也需要将修改后的整个Hadoop编译
 
而且要在编译capacity-scheduler之前进行编译。编译整个hadoop会在build文件夹下看到hadoop-0.20.2-dev-capacity-scheduler.jar
 
第四步:
 
将hadoop-0.20.2-dev-capacity-scheduler.jar重命名为hadoop-0.20.2-capacity-scheduler.jar
 
以及将hadoop-${version}-capacity-scheduler.jar重新名为hadoop-0.20.2-capacity-scheduler.jar
 
覆盖集群中响应的JAR重新启动集群就可以了

以上是成功的步骤,但是在整个过程中总会出现错误,下面具体分析一下我遇到的错误:
 
我是在windows 下编译的在Ubuntu中搭建的集群,开始的时候两个平台的JDK不一致,
 
导致了:java.lang.UnsupportedClassVersionError 的错误 所以要保证JDK一致
 
有时候会遇到org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible build versions: namenode BV = ; datanode BV = 911707
 
这个错误的原因是因为datanode的版本和NameNode的版本不一致。我将生成的hadoop-0.20.2-dev-capacity-scheduler.jar重命名后覆盖到DataNode的$HadoopHome 中

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/bad702f11214935a151a38e358aca171.html