使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）

日期：2021-06-06 栏目：程序人生浏览：次

　　最近公司开始做大数据项目，让我使用sqoop（1.6.4版本）导数据进行数据分析计算，然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟，而其中导数据（增量）就占了4分钟左右，老板给我提供了使用 spark 导数据的思路，学习整理了一个多星期，终于实现了sqoop的主要功能。

　　这里我使用的是pyspark完成的所有操作。

　　条件：hdfs平台，pyspark，ubuntu系统

　　运行：我这里是在 /usr/bin 目录下（或者指定在此目录下）运行的python文件，也可以使用系统自带的pyspark

1 ./spark-submit --jars "/home/engyne/spark/ojdbc7.jar" --master local /home/engyne/spark/SparkDataBase.py

转载注明出处：https://www.heiqu.com/wpxsyd.html

使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）

相关推荐