Hbase存储详解 (2)

日期：2022-10-28 栏目：程序人生浏览：次

　　4 HRegion是Hbase中分布式存储和负载均衡的最小单元。最小单元就表示不同的Hregion可以分布在不同的HRegion server上。但一个Hregion是不会拆分到多个server上的。

5 HRegion虽然是分布式存储的最小单元，但并不是存储的最小单元。

本页无标题

　　5 HRegion虽然是分布式存储的最小单元，但并不是存储的最小单元。

　　事实上，HRegion由一个或者多个Store组成，每个store保存一个columns family。

　　每个Strore又由一个memStore和0至多个StoreFile组成。如图：

　　StoreFile以HFile格式保存在HDFS上。

本页无标题

HFile的格式为：

本页无标题

　　HFile分为六个部分：

　　Data Block 段–保存表中的数据，这部分可以被压缩

　　Meta Block 段 (可选的)–保存用户自定义的kv对，可以被压缩。

　　File Info 段–Hfile的元信息，不被压缩，用户也可以在这一部分添加自己的元信息。

　　Data Block Index 段–Data Block的索引。每条索引的key是被索引的block的第一条记录的key。

　　Meta Block Index段 (可选的)–Meta Block的索引。

　　Trailer–这一段是定长的。保存了每一段的偏移量，读取一个HFile时，会首先读取Trailer，Trailer保存了每个段的起始位置(段的Magic Number用来做安全check)，然后，DataBlock Index会被读取到内存中，这样，当检索某个key时，不需要扫描整个HFile，而只需从内存中找到key所在的block，通过一次磁盘io将整个 block读取到内存中，再找到需要的key。DataBlock Index采用LRU机制淘汰。

　　HFile的Data Block，Meta Block通常采用压缩方式存储，压缩之后可以大大减少网络IO和磁盘IO，随之而来的开销当然是需要花费cpu进行压缩和解压缩。

　　目标Hfile的压缩支持两种方式：Gzip，Lzo。

　　HLog(WAL log)

　　WAL 意为Write ahead log()，类似mysql中的binlog,用来做灾难恢复只用，Hlog记录数据的所有变更,一旦数据修改，就可以从log中进行恢复。

　　每个Region Server维护一个Hlog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起，这样做的目的是不断追加单个文件相对于同时写多个文件而言，可以减少磁盘寻址次数，因此可以提高对table的写性能。带来的麻烦是，如果一台region server下线，为了恢复其上的region，需要将region server上的log进行拆分，然后分发到其它region server上进行恢复。

　　HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是HLogKey对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number和timestamp，timestamp是”写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。HLog Sequece File的Value是Hbase的KeyValue对象，即对应HFile中的KeyValue，可参见上文描述。

　　四、系统架构

　　Client

　　1 包含访问Hbase的接口，client维护着一些cache来加快对Hbase的访问，比如regione的位置信息。

　　Zookeeper

　　1 保证任何时候，集群中只有一个master

　　2 存贮所有Region的寻址入口。

　　3 实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master

　　4 存储Hbase的schema,包括有哪些table，每个table有哪些column family

　　Master

　　1 为Region server分配region

　　2 负责region server的负载均衡

　　3 发现失效的region server并重新分配其上的region

　　4 GFS上的垃圾文件回收

　　5 处理schema更新请求

　　Region Server

　　1 Region server维护Master分配给它的region，处理对这些region的IO请求

　　2 Region server负责切分在运行过程中变得过大的region

　　可以看到，client访问Hbase上数据的过程并不需要master参与(寻址访问zookeeper和region server，数据读写访问regione server)，master仅仅维护者table和region的元数据信息，负载很低。

本页无标题

　　五、关键算法/流程

　　region定位

　　系统如何找到某个row key (或者某个 row key range)所在的region

　　bigtable 使用三层类似B+树的结构来保存region位置。

　　第一层是保存zookeeper里面的文件，它持有root region的位置。

　　第二层root region是.META.表的第一个region其中保存了.META.z表其它region的位置。通过root region，我们就可以访问.META.表的数据。

　　.META.是第三层，它是一个特殊的表，保存了Hbase中所有数据表的region 位置信息。

本页无标题

　　说明：

　　1 root region永远不会被split，保证了最需要三次跳转，就能定位到任意region 。

　　2.META.表每行保存一个region的位置信息，row key 采用表名+表的最后一样编码而成。

　　3 为了加快访问，.META.表的全部region都保存在内存中。

　　假设，.META.表的一行在内存中大约占用1KB。并且每个region限制为128MB。

　　那么上面的三层结构可以保存的region数目为：

　　(128MB/1KB) * (128MB/1KB) = = 2(34)个region

转载注明出处：https://www.heiqu.com/zgfzyp.html

Hbase存储详解 (2)

相关推荐