在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后,将消费后的数据结构化到Hive数据仓库中。
2.内容Hive能够识别很多类型的文件,其中包含Parquet文件格式。因此,我们只需要将Flink消费Kafka后的数据以Parquet文件格式生成到HDFS上,后续Hive就可以将这些Parquet文件加载到数据仓库中。具体流程图如下所示:
2.1 Flink On YARN
实现整个案例,我们需要Hadoop环境、Kafka环境、Flink环境、Hive环境。这里,笔者只介绍Flink环境的部署,其他环境可自行搜索部署方案。关于Flink On YARN的安装步骤如下:
2.1.1 准备安装包【官方下载地址】
2.2.2 解压解压命令如下所示:
# 解压Flink安装包并重名名为flink tar -zxvf flink-1.7.1-bin-hadoop27-scala_2.12.tgz && mv flink-1.7.1 flink # 配置环境变量 vi ~/.bash_profile # 添加如下内容 export FLINK_HOME=http://www.likecs.com/data/soft/new/flink export PATH=$PATH:$FLINK_HOME/bin # 保存并退出