HDFS--Hadoop分布式文件系统 (3)

Hadoop存档文件(HAR文件),是一个高效的文件存档工具,它将文件存入HDFS块。降低namenode内存使用的同一时候,依旧同意对文件进行透明的訪问(即Hadoop文档能够作为MapReduce的输入)。

命令演演示样例如以下:

hadoop fs -ls -R /test/input

hadoop archive -archiveName files.har -p /test input /test/file

hadoop fs -ls /test/file

hadoop fs -ls /test/file/files.har

hadoop fs -ls -R har:///test/file/files.har

hadoop fs -rm -r /test/file

har文件的不足:

(1)创建一个存档文件会创建原始文件的一个复本。因此须要额外的和原始文件一样大小的磁盘空间。当然,创建了存档文件。能够删除原始文件。

har是不压缩的,很类似于tar文件

(2)一旦创建,存档文件不能改动。其实。一般不会改动存档文件,由于它们是定期成批存档的,比方每日或每周。

(3)Har文件作为mapreduce输入时,InputFormat类并不知道文件已经存档,虽然该类能够将多个文件打包成一个MapReduce分片。所以即使在har文件里处理很多小文件,依旧和原来一样低效。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zzsyjs.html