1)腾讯的XFS与百度的HDFS2优点类似,均实现了3层结构:命名空间;文件块管理;数据块管理,Federation和MAPR与这2个架构类似;
2)像HDFS2,ceph动态树是否会影响ls的性能;MAPR等如何满足ls还不清楚;
2)TBFS与XFS和HDFS2均不一致,通过数据库集群保存元数据,同一时刻运行的仅一个Namenode节点;
3)AvatarNode,CDH4等通过NFS等共享存储方式实现高可用性
4 JDFS开发步骤1)先通过AvatarNode等方式,实现高可用性,如果存储1亿的文件,需要内存空间约38GB,单机可以满足该需求,到一定规模再增加集群;
2)通过HDFS2,XFS,Federation等方式实现namenode的功能分离,将元数据层分为2层:命名空间层和元数据层,并且实现该部分分布式。当然可以考虑基于Federation改造,借鉴Ceph等,考虑是否实现树状命名空间还是平台命名空间或者同时满足;
3)在2)的基础之上借鉴Ceph等再实现冗余,及其自我检查与修复模式;
5 附件 6参考资料1、 百度分布式文件系统介绍-马如悦
2、 HDFS改造对比
https://github.com/taobao/ADFS/wiki/3.-%E6%96%B9%E6%A1%88%E6%AF%94%E8%BE%83
3、 HDFS元数据的独立服务和独立持久化存储-罗李
4、 HDFS2,一种分布式NN实现-孙桂林
5、 Hadoop的最新进展-马如悦
6、 百度搜索研发部-分布式数据访问调研
7、 CEPH动态元数据管理方法分析与改进
8、 DynamicMetadataManagementforPetabyte-scaleFileSystems
9、 Ceph: A Scalable,High-Performance Distributed File System
10、CRUSH: Controlled, Scalable, Decentralized Placement of ReplicatedData
11、RADOS: A Scalable, Reliable Storage Service for Petabyte-sc