用户画像大数据环境搭建——从零开始搭建实时用户画像(四)


用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

本章我们开始正式搭建大数据环境,目标是构建一个稳定的可以运维监控的大数据环境。我们将采用Ambari搭建底层的Hadoop环境,使用原生的方式搭建Flink,Druid,Superset等实时计算环境。使用大数据构建工具与原生安装相结合的方式,共同完成大数据环境的安装。

Ambari搭建底层大数据环境

Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。

Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理。也是顶级的hadoop管理工具之一。

目前Ambari的版本已经更新到2.7,支持的组件也越来越丰富。

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

Hadoop的发行版本有很多,有华为发行版,Intel发行版,Cloudera发行版(CDH),MapR版本,以及HortonWorks版本等。所有发行版都是基于Apache Hadoop衍生出来的,产生这些版本的原因,是由于Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布和销售。

收费版本:
收费版本一般都会由新的特性。国内绝大多数公司发行的版本都是收费的,例如Intel发行版本,华为发行版本等。

免费版本:
不收费的版本主要有三个(都是国外厂商)。
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop)简称”CDH“。
Apache基金会hadoop
Hontonworks版本(Hortonworks Data Platform)简称“HDP”。
按照顺序代表了国内的使用率,CDH和HDP虽然是收费版本,但是他们是开源的,只是收取服务费用,严格上讲不属于收费版本。

Ambari基于HDP安装,但是他们不同版本之间有不同的对应关系。

Ambari2.7与HDP HDF的对应关系:

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

也就是支持最新的版本为HDP 3.1.5 而HDP包含了大数据的基本组件如下:

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

已经非常的丰富了,下面我们开始Ambari的安装。

前期准备

前期准备分为四部分

主机,数据库,浏览器,JDK

主机

请先准备好安装Ambari的主机,开发环境可以三台就ok,其他环境依据公司机器规模而确定。

假设开发环境的三台机器为:

192.168.12.101 master
192.168.12.102 slave1
192.168.12.103 slave2

主机的最低要求如下:

软件要求

在每个主机上:

yum和rpm(RHEL / CentOS / Oracle / Amazon Linux)

zypper和php_curl(SLES)

apt (Debian / Ubuntu)

scp, curl, unzip, tar,wget和 gcc*

OpenSSL(v1.01,内部版本16或更高版本)

Python(带python-devel *)

Ambari主机应至少具有1 GB RAM,并具有500 MB可用空间。

要检查任何主机上的可用内存,请运行:

free -m 本地仓库

如果网速不够快,我们可以将包下载下来,建立本地仓库。网速够快可以忽略这步。

先下载安装包

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

安装httpd服务

yum install yum-utils createrepo [root@master ~]# yum -y install httpd [root@master ~]# service httpd restart Redirecting to /bin/systemctl restart httpd.service [root@master ~]# chkconfig httpd on

随后建立一个本地yum源

mkdir -p /var/www/html/

将刚刚下载的包解压到这个目录下。

随后通过浏览器 访问 成功

用户画像大数据环境搭建——从零开始搭建实时用户画像(四)

createrepo ./ 制作本地源 修改文件里边的源地址 vi ambari.repo vi hdp.repo #VERSION_NUMBER=2.7.5.0-72 [ambari-2.7.5.0] #json.url = name=ambari Version - ambari-2.7.5.0 baseurl=https://username:password@archive.cloudera.com/p/ambari/centos7/2.x/updates/2.7.5.0 gpgcheck=1 gpgkey=https://username:password@archive.cloudera.com/p/ambari/centos7/2.x/updates/2.7.5.0/RPM-GPG-KEY/RPM-GPG-KEY-Jenkins enabled=1 priority=1 [root@master ambari]# yum clean all [root@master ambari]# yum makecache [root@master ambari]# yum repolist 软件准备

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/wpgfxw.html