Hadoop的压缩算法实例及压缩算法选取(2)

打成jar包:codec.jar
运行

[root@master liguodong]# yarn jar codec.jar 15/06/05 19:48:04 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native [root@master liguodong]# ls codec.jar data data.bz2 data.gz dir gzipcodec.jar jni 比较 [root@master liguodong]# ll 总用量 524824 -rw-r--r-- 1 root root 536870912 65 19:11 data -rw-r--r-- 1 root root 402 65 19:48 data.bz2 -rw-r--r-- 1 root root 521844 65 20:17 data.gz 怎么选择压缩算法?

1、用一些包含了压缩并且支持splittable的文件格式,比如SequenceFile,RCFile或者Avro文件。
2、使用提供splittable的压缩格式,比如,bzip2和索引后可以支持splittable的lzo。
3、提前把文件分成几个块,每个块单独压缩,这样就无需考虑splittable的问题了。
4、不要压缩文件,以不支持splittable的压缩格式存储一个很大的数据文件是不合适的,非本地处理效率会非常之低。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/1778d716a6364cbe4f10f9a52ba8b7e9.html