HDFS小文件处理解决方案总结+FaceBook(HayStack) + 淘宝(5)

日期：2021-04-05 栏目：程序人生浏览：次

七、TFS解决方案概述

TFS（Taobao !FileSystem）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构，可将文件名映射到文件的物理地址，简化了文件的访问流程，一定程度上为TFS提供了良好的读写性能。

DFS小文件处理解决方案总结+FaceBook(HayStack) + 淘宝（TFS）

TFS的块大小可以通过配置项来决定，通常使用的块大小为64M。TFS的设计目标是海量小文件的存储，所以每个块中会存储许多不同的小文件。!DataServer进程会给Block中的每个文件分配一个ID(File ID，该ID在每个Block中唯一)，并将每个文件在Block中的信息存放在和Block对应的Index文件中。这个Index文件一般都会全部load在内存，除非出现!DataServer服务器内存和集群中所存放文件平均大小不匹配的情况。

TFS中之所以可以使用namenode存放元数据信息的一个原因在于不像HDFS的元数据需要存放，filename与block id的映射以及block id与datanode的映射。在TFS中没有file的概念，只有block 的映射信息。所有的小文件被拼接成block。所以namenode中只需要存放的映射以及的映射。这样一来元数据信息就会减少很多，从而解决HDFS的namenode的瓶颈问题。

在TFS中，将大量的小文件(实际用户文件)合并成为一个大文件，这个大文件称为块(Block)。TFS以Block的方式组织文件的存储。每一个Block在整个集群内拥有唯一的编号，这个编号是由NameServer进行分配的，而DataServer上实际存储了该Block。在!NameServer节点中存储了所有的Block的信息，一个Block存储于多个!DataServer中以保证数据的冗余。对于数据读写请求，均先由!NameServer选择合适的!DataServer节点返回给客户端，再在对应的!DataServer节点上进行数据操作。!NameServer需要维护Block信息列表，以及Block与!DataServer之间的映射关系，其存储的元数据结构如下：

DFS小文件处理解决方案总结+FaceBook(HayStack) + 淘宝（TFS）

八、一种提高云存储小文件效率的解决方案

（美国西北太平洋国家实验室2007年的一份研究报告表明，他们系统中有1 200万个文件，其中94％的文件小于64 MB，58％的小于64 kB。在一些具体的科研计算环境中，也存在大量的小文件，例如，在某些生物学计算中可能会产生3 000万个文件，而其平均大小只有190 kB。）

DFS小文件处理解决方案总结+FaceBook(HayStack) + 淘宝（TFS）

系统为每个用户建立了3种队列：

序列文件队列（SequenceFile queue，SFQ），

序列文件操作队列（SequenceFile operation queue，SFOQ），

备用队列（Backup queue，BQ）。

其中，SFQ用于小文件的合并，SFOQ用于对合并后小文件的操作，BQ用于操作的小文件数超过SFQ或SFOQ长度的情况。

DFS小文件处理解决方案总结+FaceBook(HayStack) + 淘宝（TFS）

转载注明出处：http://www.heiqu.com/567d8282da57fd50248938993581382f.html

HDFS小文件处理解决方案总结+FaceBook(HayStack) + 淘宝(5)

相关推荐