下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
一、Mysql与HDFS互导数据
环境:
宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96
3台虚拟机操作系统为Ubuntu-12.04.1-32位
三台虚拟机已成功安装Hadoop,并实现免密钥互访,配hosts为:
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
实验在masternode上进行,已成功连接mysql
步骤一,下载安装包:
我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
下载相关文件:
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。
步骤二,相关配置:
修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then
# echo “Error: $HBASE_HOME does not exist!”
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’
# exit 1
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
# echo “Error: $ZOOKEEPER_HOME does not exist!”
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’
# exit 1
#fi
修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
添加 export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :$SQOOP_HOME/bin
步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
创建用户sqoop并授权:
grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;
创建表空间(schema)sqoop,并创建测试表:
create table students (
id int not null primary key,
name varchar(20),
age int)
插入测试数据:
insert into students values('10001','liyang',29);
insert into students values('10002','lion',28);
insert into students values('10003','leon',26);
在masternode测试sqoop能否成功连接宿主机器上的mysql:
sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!
步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop:
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功:
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode
从mysql导入数据,运行如下命令:
sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1
验证导入数据是否成功:
若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000
运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:
10001,liyang,29
10002,lion,28
10003,leon,26
步骤五,将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空:
delete from students;
然后在masternode上执行导出数据命令: