Sqoop 结合多种系统的具体应用(2)

日期：2020-06-16 栏目：程序人生浏览：次

sqoop export \
--Dsqoop.export.records.per.statement=10 \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--export-dir user \
--batch

--Dsqoop.export.records.per.statement：指定每次导入10条数据，--batch：指定是批量导入。

2、在实际应用中还存在这样一个问题，比如导入数据的时候，Map Task 执行失败，那么该 Map 任务会转移到另外一个节点执行重新运行，这时候之前导入的数据又要重新导入一份，造成数据重复导入。因为 Map Task 没有回滚策略，一旦运行失败，已经导入数据库中的数据就无法恢复。Sqoop export 提供了一种机制能保证原子性，使用--staging-table 选项指定临时导入的表。Sqoop export 导出数据的时候会分为两步：第一步，将数据导入数据库中的临时表，如果导入期间 Map Task 失败，会删除临时表数据重新导入；第二步，确认所有 Map Task 任务成功后，会将临时表名称为指定的表名称。

sqoop export \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--staging-table staging_user

3、在 Sqoop 导出数据过程中，如果我们想更新已有数据，可以采取以下两种方式。

1)通过 --update-key id 更新已有数据。

sqoop export \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--update-key id

2)使用 --update-key id和--update-mode allowinsert 两个选项的情况下，如果数据已经存在，则更新数据，如果数据不存在，则插入新数据记录。

sqoop export \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--update-key id \
--update-mode allowinsert

4、如果 HDFS 中的数据量比较大，很多字段并不需要，我们可以使用 --columns 来指定插入某几列数据。

sqoop export \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--column username,sex

5、当导入的字段数据不存在或者为null的时候，我们使用--input-null-string和--input-null-non-string 来处理。

sqoop export \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--input-null-string '\\N' \
--input-null-non-string '\\N'

Sqoop与其它系统结合

Sqoop 也可以与Hive、HBase等系统结合，实现数据的导入和导出，用户需要在 sqoop-env.sh 中添加HBASE_HOME、HIVE_HOME等环境变量。

1、Sqoop与Hive结合比较简单，使用 --hive-import 选项就可以实现。

sqoop import \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--hive-import

　　2、Sqoop与HBase结合稍微麻烦一些，需要使用 --hbase-table 指定表名称，使用 --column-family 指定列名称。

sqoop import \
--connect jdbc:mysql://db.dajiangtai.net:3306/djtdb_hadoop \
--username sqoop \
--password sqoop \
--table user \
--hbase-table user \
--column-family city

相关阅读：

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

Sqoop安装配置及Hive导入

[Hadoop] Sqoop安装过程详解

用Sqoop进行MySQL和HDFS系统间的数据互导

Hadoop Oozie学习笔记 Oozie不支持Sqoop问题解决

Hadoop生态系统搭建（hadoop hive hbase zookeeper oozie Sqoop）

Hadoop学习全程记录——使用Sqoop将MySQL中数据导入到Hive中

Sqoop 的详细介绍：请点这里
Sqoop 的下载地址：请点这里

转载注明出处：https://www.heiqu.com/3a73d2d36bd96f10e3999447360a20c4.html

Sqoop 结合多种系统的具体应用(2)

相关推荐