本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。
Ambari搭建底层大数据环境Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。
Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是顶级的hadoop管理工具之一。
目前Ambari的版本已经更新到2.7,支持的组件也越来越丰富。
Hadoop的发行版本有很多,有华为发行版,Intel发行版,Cloudera发行版(CDH),MapR版本,以及HortonWorks版本等。所有发行版都是基于Apache Hadoop衍生出来的,产生这些版本的原因,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布和销售。
收费版本:
收费版本一般都会由新的特性。国内绝大多数公司发行的版本都是收费的,例如Intel发行版本,华为发行版本等。
免费版本:
不收费的版本主要有三个(都是国外厂商)。
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop)简称”CDH“。
Apache基金会hadoop
Hontonworks版本(Hortonworks Data Platform)简称“HDP”。
按照顺序代表了国内的使用率,CDH和HDP虽然是收费版本,但是他们是开源的,只是收取服务费用,严格上讲不属于收费版本。
Ambari基于HDP安装,但是他们不同版本之间有不同的对应关系。
Ambari2.7与HDP HDF的对应关系:
也就是支持最新的版本为HDP 3.1.5 而HDP包含了大数据的基本组件如下:
已经非常的丰富了,下面我们开始Ambari的安装。
前期准备前期准备分为四部分
主机,数据库,浏览器,JDK
主机请先准备好安装Ambari的主机,开发环境可以三台就ok,其他环境依据公司机器规模而确定。
假设开发环境的三台机器为:
192.168.12.101 master
192.168.12.102 slave1
192.168.12.103 slave2
主机的最低要求如下:
软件要求
在每个主机上:
yum和rpm(RHEL / CentOS / Oracle / Amazon Linux)
zypper和php_curl(SLES)
apt (Debian / Ubuntu)
scp, curl, unzip, tar,wget和 gcc*
OpenSSL(v1.01,内部版本16或更高版本)
Python(带python-devel *)
Ambari主机应至少具有1 GB RAM,并具有500 MB可用空间。
要检查任何主机上的可用内存,请运行:
free -m 本地仓库如果网速不够快,我们可以将包下载下来,建立本地仓库。网速够快可以忽略这步。
先下载安装包
安装httpd服务
yum install yum-utils createrepo [root@master ~]# yum -y install httpd [root@master ~]# service httpd restart Redirecting to /bin/systemctl restart httpd.service [root@master ~]# chkconfig httpd on随后建立一个本地yum源
mkdir -p /var/www/html/将刚刚下载的包解压到这个目录下。
随后通过浏览器 访问 成功
createrepo ./ 制作本地源 修改文件里边的源地址 vi ambari.repo vi hdp.repo #VERSION_NUMBER=2.7.5.0-72 [ambari-2.7.5.0] #json.url = name=ambari Version - ambari-2.7.5.0 baseurl=https://username:password@archive.cloudera.com/p/ambari/centos7/2.x/updates/2.7.5.0 gpgcheck=1 gpgkey=https://username:password@archive.cloudera.com/p/ambari/centos7/2.x/updates/2.7.5.0/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins enabled=1 priority=1 [root@master ambari]# yum clean all [root@master ambari]# yum makecache [root@master ambari]# yum repolist 软件准备