FastDFS 分布式系统需求分析(2)

日期：2020-06-17 栏目：程序人生浏览：次

上面，这个fdfs_storage.pid中，取出最前面的4个字符，即52和ed。这样的话，假如52是一级目录的名称，ed是二级目录的名称。因为每一个字符有16个取值，所以第一级目录就有16 * 16 = 256个。总共就有256 * 256 = 65526个目录。如果每个目录下面存放1000个文件，每个文件30KB，都可以有1966G，即2TB左右。这样的话，足够我们用好。如果用三个字符，即52e作为一级目录，dc4作为二级目录，这样子的目录数有4096，太多了。所以，取二个字符比较好。

这样的话，上面的第2和第3个问题就解决了，根据文件名称来得到md5，然后取4个字符，前面的2个字符作为一级目录名称，后面的2个字符作为二级目录的名称。服务器上，使用一个专门的目录来作为我们的存储根目录，然后下面建立这么多子目录，自然就很简单了。

这些目录可以在初始化的时候创建出来，而不用在存储文件的时候才建立。

也许你会问，一个目录应该不够吧，实际上很多的廉价机器一般都配置2块硬盘，一块是操作系统盘，一块是数据盘。然后这个数据盘挂在一个目录下面，以这个目录作为我们的存储根目录就好了。这样也可以很大程度上减少运维的难度。

现在就剩下最后一个问题了，就是上传文件时候，如何分配一个唯一的文件名称，避免同以前的文件产生覆盖。

如果没有变量作为输入，很显然，只能够采用类似于计数器的方式，即一个counter，每次加一个文件就增量。但这样的方式会要求维护一个持久化的counter，这样比较麻烦。最好不要有历史状态的纪录。

string md5 ( string $str [, bool $raw_output = false ] )
Calculates the MD5 hash of str using the » RSA Data Security, Inc. MD5 Message-Digest Algorithm, and returns that hash.

raw_output
If the optional raw_output is set to TRUE, then the md5 digest is instead returned in raw binary format with a length of 16.
Return Values

Returns the hash as a 32-character hexadecimal number.

为了尽可能地生成唯一的文件名称，可以使用文件长度(假如是100MB的话，相应的整型可能会是4个字节，即不超过2^32, 即uint32_t，只要程序代码中检查一下即可）。但是长度并不能够保证唯一，为了填充尽可能有用的信息，CRC32也是很重要的，这样下载程序后，不用做额外的交互就可以知道文件的内容是否正确。一旦发现有问题，立马要报警，并且想办法修复。这样的话，上传的时候也要注意带上CRC32，以防止在网络传输和实际的硬盘存储过程中出现问题（文件的完整性至关重要）。再加上时间戳，即long型的64位，8个字节。最后再加上计数器，因为这个计数器由storage提供，这样的话，整个结构就是：len + crc32 + timestamp + uint32_t = 4 + 4 + 8 + 4 = 20个字节，这样生成的文件名就算做base64计算出来，也就不是什么大问题了。而且，加上计数器，每秒内只要单机不上传超过1万的文件，就都不是问题了。这个还是非常好解决的。

转载注明出处：https://www.heiqu.com/b9bd0553ce24ddec0f8c71e9e3518e99.html

FastDFS 分布式系统需求分析(2)

相关推荐