Flink生成Parquet格式文件实战

日期：2021-05-14 栏目：程序人生浏览：次

在流数据应用场景中，往往会通过Flink消费Kafka中的数据，然后将这些数据进行结构化到HDFS上，再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后，将消费后的数据结构化到Hive数据仓库中。

2.内容

Hive能够识别很多类型的文件，其中包含Parquet文件格式。因此，我们只需要将Flink消费Kafka后的数据以Parquet文件格式生成到HDFS上，后续Hive就可以将这些Parquet文件加载到数据仓库中。具体流程图如下所示：

Flink生成Parquet格式文件实战

2.1 Flink On YARN

实现整个案例，我们需要Hadoop环境、Kafka环境、Flink环境、Hive环境。这里，笔者只介绍Flink环境的部署，其他环境可自行搜索部署方案。关于Flink On YARN的安装步骤如下：

2.1.1 准备安装包

【官方下载地址】

2.2.2 解压

解压命令如下所示：

# 解压Flink安装包并重名名为flink tar -zxvf flink-1.7.1-bin-hadoop27-scala_2.12.tgz && mv flink-1.7.1 flink # 配置环境变量 vi ~/.bash_profile # 添加如下内容 export FLINK_HOME=http://www.likecs.com/data/soft/new/flink export PATH=$PATH:$FLINK_HOME/bin # 保存并退出

转载注明出处：https://www.heiqu.com/wpwyfx.html

Flink生成Parquet格式文件实战

相关推荐