HBase的安装及使用

日期：2021-05-05 栏目：程序人生浏览：次

一、摘要
以前搜书吧的数据量比较小，使用数据库+静态文件存储的方式就可以搞定，主要有2个系统组成：网站前端+后台服务。事先把图书详情等一些固定内容生成html静态文件和前端的其他静态文件打包部署，动态变化的数据使用js通过REST接口获取。后台服务系统主要处理业务逻辑以及提供REST接口调用（为节省资源，很多其他个人项目的后台服务也运行在这个系统上）。现在图书数量增加到了200多万条，数据量比原来大很多，使用一台服务器不仅硬盘不足，Mysql存储内容太多，内存资源也不够用。于是想借鉴微服务的解决方案，使用Spring Boot+HBase搭建单独的服务，作为一个小型的数据中心，可为不同的项目存储数据。

二、软件
Ubuntu 16.04
IntelliJ IDEA 2018.01
JDK 1.8.0
Hadoop 2.8.5
HBase 2.1.0
spring-data-hadoop 2.5.0
hbase-client 1.4.4
三、HBase介绍
Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价PC Server上搭建起大规模集群。它是一个可以随机访问的存储和检索数据的平台，允许动态的灵活的数据模型。

HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion服务器(HRegion Server)和HMaster 服务器组成。HMaster负责管理所有的HRegion服务器，而HBase中的所有的服务器都是通过zookeeper来进行协调并处理HBase服务器运行期间可能遇到的错误。HBase Master并不存储HBase中的任何数据.HBase逻辑上的表可能会被划分成多个HRegion，然后存储到HRegion服务器中,HBase Master服务器中存储的是从数据到HRegion 服务器的映射。

四、SSH/HOST等安装配置
4.1 修改主机名

由于我使用的是阿里云的ECS，主机名有点长，先修改主机名称。输入一下命令，把名称修改自己想要的即可，比如我的修改为luoxudong02，修改完以后重启系统。

vim /etc/hostname
4.2 修改host

vim /etc/hosts
增加一条主机映射记录，其中前面为IP，后面为主机名称。IP地址需要是主机内网IP（可以使用ifconfig查看），阿里云ECS有一个公网IP，有一个私有IP，需要填写私有IP。

4.3 创建用户

为了方便管理，创建一个hadoop用户，如果是完全分布式的话要创建一个用户组，因为master和slaves要求用户和组要完全一样。

创建hadoop用户，并使用/bin/bash作为shell

sudo useradd -m hadoop -s /bin/bash
为hadoop用户设置密码

sudo passwd hadoop
为了后续操作方便，增加管理员权限

sudo adduser hadoop sudo
后续的操作都切换到hadoop用户下执行。

4.4 配置SSH免密登录

如果没有安装openssh-server则先安装

sudo apt-get install openssh-server
先创建秘钥

ssh-keygen -t rsa
一直按回车即可，完成以后把新创建的秘钥追加到autorized_keys中，该文件没有的话会自动创建。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
五、JDK安装配置
5.1 下载JDK

下载JDK1.8，从官网下载对应环境的安装包：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html。

下载完成以后解压到指定位置

tar -zxvf jdk-8u191-linux-x64.tar.gz -C ~/local
配置JDK环境变量，打开~/.bashrc文件，

vim ~/.bashrc
在文件最后添加以下代码。

export JAVA_HOME=~/local/jdk1.8.0_191
export CLASSPAT=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
使配置生效

source ~/.bashrc
六、Hadoop+HBase环境搭建
由于我只有一台空闲的服务器，所以目前我只是搭建了伪分布式环境，后续再根据需要扩展。

下载安装包时要选择对应的版本号，要不然会容易采坑。大家可以查看官方文档，里面有介绍详细的配置要求。

6.1 环境要求

下面的表格是JDK版本的要求，其中JDK8是支持所有版本

以下是各版本的Hadoop和HBase对应表，从表格可以看出，支持的最新版本是Hadoop-2.83+和HBase-2.1.x。我选择的是Hadoop2.8.5和HBase-2.1.0。

6.2 安装配置Hadoop

6.2.1 下载安装包

从官网下载Hadoop安装包，我安装的版本是2.8.5，下载地址：https://www-eu.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz。下载后解压到指定目录。

tar -zxvf hadoop-2.8.5.tar.gz -C ~/local
解压以后Hadoop目录名称带版本号，大家可以重命名，去掉版本号，方便维护。

6.2.2 配置环境变量

跟JDK配置类似，打开bashrc文件，在后面添加一下代码

export HADOOP_HOME=~/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
6.2.3 设置Hadoop配置文件

进入${HADOOP_HOME}/etc/hadoop目录，修改一下几个文件

hadoop-env.sh
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml（mapred-site.xml.template重命名）
slaves
1) hadoop-env.sh文件

如果文件中没有配置JAVA_HOME，如果存在以下代码则不需要修改。

# The java implementation to use.
export JAVA_HOME=${JAVA_HOME}
否则需要在文件最后配置JDK路径

export JAVA_HOME=~/local/jdk1.8.0_191（如果文件中已经存在export JAVA_HOME=${JAVA_HOME}就可以不需要）
2) core-site.xml文件

在configuration节点中加入以下代码：

转载注明出处：https://www.heiqu.com/wsswwx.html

HBase的安装及使用

相关推荐