深入浅出Hadoop 高效处理大数据(3)

日期：2020-06-06 栏目：程序人生浏览：次

3.Hadoop组件之三：什么是面向列开源分布式数据库Hbase?

　　HBase是一个分布式的、面向列的开源数据库，由Apache基金会开发。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。它基于列的而不是基于行的模式。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列。用户可根据键访问行，以及对于一系列的行进行扫描和过滤。HBase一个可以横向扩张的表存储系统，能够为大规模数据提供速度极快的低等级更新。主要用于需要随机访问，实时读写大数据(Big Data)。这正是信息系统所需要的功能。

　　下面的例子演示的是将原来存放在MySQL中Blog中的数据迁移到HBase中的过程：

　　图4为MySQL中现有的表结构：表Blogtable表示博客本身，包括5个字段，BlogId为每位用户对应的博客ID号，类型为Int，作为主键字段;Author为该用户的博客名称，类型为Varchar;Title为该用户的博客签名，类型为Varchar;URL为博客网址链接，类型为Varchar;Text为博客的内容，类型为Varchar。Comment表示博客评论，包括5个字段。ID为发表评论的用户ID，类型为Int，作为主键字段;BlogId为博客的原文ID，类型为Varchar。其中，BlogId作为Comment表的外键，指向表Blogtable的主键。Title为评论标题，类型为Varchar;Author为发表该评论的用户名称，类型为Varchar;Text字段为评论内容，类型为Varchar。

IT168：深入浅出Hadoop

　　图4 MySQL表结构

　　图5 为迁移HBase中的表结构：HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family)。表Blogtable表示博客本身。ID为Row Key，即Table的主键，用来检索记录。Table在水平方向有一个或者多个Column Family组成。表BlogTable包含5个Column Family， Info的数据结构分为Info:Author，Info:Title，Info:URL。如果想添加其它属性X，则对应的结构为Info:X。需要说明的是，Column Family支持动态扩展，无需预先定义Column的数量以及类型，但是，所有Column均以二进制格式存储，用户需要自行进行类型转换。

IT168：深入浅出Hadoop

　　图5 HBase表结构

　　总之，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。简单的理解，Hbase介于nosql和RDBMS之间。Hbase仅能通过主键(row key)和主键的range来检索数据，不支持条件查询以及排序等，仅支持单行事务。Habase主要用来存储非结构化和半结构化的松散数据。针对Hbase的不足，Hadoop的一个数据仓库工具Hive对此做出了弥补。Hive可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，并将SQL语句转换为MapReduce任务运行。针对Hbase单行事务的限制，Hive也提供了扩展。据说，Facebook之所以选择了Hbase，是因为他们HBase适用于处理以下两种类型的数据模式：1.一小组经常变化的临时数据;2.一组不断增加但很少访问的数据。

转载注明出处：http://www.heiqu.com/pppjf.html

深入浅出Hadoop 高效处理大数据(3)

相关推荐