Hadoop 顺序文件格式

日期：2021-04-04 栏目：程序人生浏览：次

顺序文件提供了二进制key/value对的永久存储DS，也可以作为小文件的容器，也就是把小文件包装起来，获得更高效的存储和处理，比如将整个文件作为一条记录处理

顺序文件：文件头+一条或多条记录

记录的结构与是否启用压缩有关

没有 record length（4 byte）+ key length（4 bytes）+key + value

启用格式与上面相同不过除了key值都要按照header定义的codec进行压缩

块（block）压缩：一次对多条记录压缩，压缩效率更高，可利用记录间的相似性 io.seqfile.blocksize 1MB

每个新块的开始都需要插入同步标识格式如下：

num of records Compressed key len Compressed keys Compressed value len Compressed values

写文件：指定key 和 value 的类型 Sequence.createWriter

读文件：new SequenceFile.Reader ReflectionUtils.newInstance 分别获得key 和 value 的类型

搜索给定位置：

（1）seek（a） a 是边界位置否则IOEcxption

（2）通同步点找到边界记录 SequenceFile.Reader sync(a) 方法可以将读取位置定位到a之后的下一个同步点

SeauenceFile.sync() 插入同步点

以文本形式显示顺序文件内容： Hadoop fs -text number.seq | head

排序和合并顺序文件： hadoop jar ***.jar sort -r 1 \

-inputFormat **

-outputFormat **

-outKey

-outValue

file sorted