通过大规模往hdfs写多批文件,测试集群升级到hadoop2.7.1后,客户端没有报timeout和“All datanode bad...”异常,服务端也没有报timeOut异常。另外,通过和上文hadoop2.6.1中图表展示对比,发现这个bug在2.7.1得到了解决。
三、故障处理
这个故障对我们现有业务的影响大概有:
a、影响某个时间点通过storm写入hdfs的数据
b、作业提交时间点刚刚好遇到这个hdfs异常触发点时,会导致作业附属文件无法上传至hdfs最终导致作业提交失败.
c、如果hdfs这个异常点中时间拉长,可能会导致MR作业的的容错触发次数超过3次,最终导致作业失败。
具体处理方案:在不停机的情况下采用平滑升级至hadoop2.7.1版本
具体的升级步骤按照来就ok。