Hadoop存档文件(HAR文件),是一个高效的文件存档工具,它将文件存入HDFS块。降低namenode内存使用的同一时候,依旧同意对文件进行透明的訪问(即Hadoop文档能够作为MapReduce的输入)。
命令演演示样例如以下:
hadoop fs -ls -R /test/input
hadoop archive -archiveName files.har -p /test input /test/file
hadoop fs -ls /test/file
hadoop fs -ls /test/file/files.har
hadoop fs -ls -R har:///test/file/files.har
hadoop fs -rm -r /test/file
har文件的不足:
(1)创建一个存档文件会创建原始文件的一个复本。因此须要额外的和原始文件一样大小的磁盘空间。当然,创建了存档文件。能够删除原始文件。
har是不压缩的,很类似于tar文件
(2)一旦创建,存档文件不能改动。其实。一般不会改动存档文件,由于它们是定期成批存档的,比方每日或每周。
(3)Har文件作为mapreduce输入时,InputFormat类并不知道文件已经存档,虽然该类能够将多个文件打包成一个MapReduce分片。所以即使在har文件里处理很多小文件,依旧和原来一样低效。