namenode format操作是使用Hadoop分布式文件系统前的步骤。如果不执行这个步骤,无法正确启动分布式文件系统。所以个人认为有必要对这个过程进行分析。
(1)启动format
hadoop namenode -format
在之前关于start-dfs.sh的脚本分析过程,已经介绍到hadoop的脚本,namenode对应的执行类是org.apache.hadoop.hdfs.server.namenode.NameNode类,传入的-format参数传入到执行类,作为执行类的参数。
(2)NameNode的入口main函数
try {
StringUtils.startupShutdownMessage(NameNode.class, argv, LOG);
NameNode namenode = createNameNode(argv, null); //通过createNameNode方法创建NameNode对象,并传入参数,这里传入的是-format
if (namenode != null)
namenode.join();
} catch (Throwable e) {
LOG.error(StringUtils.stringifyException(e));
System.exit(-1);
}
(3)NameNode.createNameNode创建NameNode实例
if (conf == null)
conf = new Configuration(); //创建Configuration实例,获取配置参数。
StartupOption startOpt = parseArguments(argv); //解析参数
if (startOpt == null) {
printUsage();
return null;
}
setStartupOption(conf, startOpt);
switch (startOpt) {
case FORMAT: //对应-format参数
boolean aborted = format(conf, true); //执行format()
System.exit(aborted ? 1 : 0); //执行后,直接退出,并不启动namenode服务
case FINALIZE:
aborted = finalize(conf, true);
System.exit(aborted ? 1 : 0);
default:
}
DefaultMetricsSystem.initialize("NameNode"); //如果不是-format和-finalize参数,则创建NameNode实例,启动namenode服务
NameNode namenode = new NameNode(conf);
return namenode;
(3)执行NameNode.format格式化hdfs操作
这个过程是整个format的流程的主要部分,里面设计到FSNamesystem和FSImage两个和hdfs文件系统关系密切的类。在这里并不展开说明,仅对其和format相关的操作进行分析
Collection<File> dirsToFormat = FSNamesystem.getNamespaceDirs(conf); //通过配置文件配置参数获取fsimage文件所存放的目录,本文后面的部分会单独介绍fsimage文件
Collection<File> editDirsToFormat =
FSNamesystem.getNamespaceEditsDirs(conf); //通过配置文件配置参数获取edits文件所存放的目录,本文后面的部分会单独介绍edits文件
//下面的for循环,用于验证fsimage存放的目录,如果已存在,需要用户确认是否要格式化,如果不允许格式化,则退出。
for(Iterator<File> it = dirsToFormat.iterator(); it.hasNext();) {
File curDir = it.next();
if (!curDir.exists())
continue;
if (isConfirmationNeeded) {
System.err.print("Re-format filesystem in " + curDir +" ? (Y or N) ");
if (!(System.in.read() == 'Y')) {
System.err.println("Format aborted in "+ curDir);
return true;
}
while(System.in.read() != '\n'); // discard the enter-key
}
}
//这里分两个步骤,一个是new FSImage,一个是new FSNamesystem.
//new FSImage调用了FSImage的setStorageDirectories方法,将fsimage和edits目录都存放在StorageDirectory列表storageDirs中
//并且每个StorageDirectory以NameNodeDirType为IMAGE_AND_EDITS、IMAGE、EDITS来区分。
//new FSNamesystem创建了HDFS文件系统的根目录FSDirectory对象dir和DelegationTokenSecretManager对象dtSecretManager(这个还不明白是做什么用的)。
FSNamesystem nsys = new FSNamesystem(new FSImage(dirsToFormat,
editDirsToFormat), conf);
//最后,就是调用FSImage对象来完成format操作了,这也是整个文件系统格式化的核心过程。
nsys.dir.fsImage.format();
(4)FSImage.format
//初始化系统的基本信息,包括版本信息,文件系统的编号等