HDFS--Hadoop分布式文件系统 (3)

日期：2022-06-18 栏目：程序人生浏览：次

Hadoop存档文件（HAR文件），是一个高效的文件存档工具，它将文件存入HDFS块。降低namenode内存使用的同一时候，依旧同意对文件进行透明的訪问（即Hadoop文档能够作为MapReduce的输入）。

命令演演示样例如以下：

hadoop fs -ls -R /test/input

hadoop archive -archiveName files.har -p /test input /test/file

hadoop fs -ls /test/file

hadoop fs -ls /test/file/files.har

hadoop fs -ls -R har:///test/file/files.har

hadoop fs -rm -r /test/file

har文件的不足：

（1）创建一个存档文件会创建原始文件的一个复本。因此须要额外的和原始文件一样大小的磁盘空间。当然，创建了存档文件。能够删除原始文件。

har是不压缩的，很类似于tar文件

（2）一旦创建，存档文件不能改动。其实。一般不会改动存档文件，由于它们是定期成批存档的，比方每日或每周。

（3）Har文件作为mapreduce输入时，InputFormat类并不知道文件已经存档，虽然该类能够将多个文件打包成一个MapReduce分片。所以即使在har文件里处理很多小文件，依旧和原来一样低效。