Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS、Hive、HBase)与传统关系数据库(MySql、Oracle等)间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在,后来被独立成为了一个Apache项目。除了关系数据库外,对于某些NoSQL数据库,Sqoop也提供了连接器。
一、Sqoop基础知识
Sqoop项目开始于2009年,可以在Hadoop相关存储与传统关系数据库之间进行数据导入导出工作。Sqoop会开启多个MapReduce任务来并行进行数据导入导出工作,提高工作效率。
二.sqoop安装
安装在一台节点上就可以了,我选择在机器hadoop2上安装,在安装前请确保已经搭建了hadoop环境。
1.sqoop下载 :http://www.apache.org/dyn/closer.lua/sqoop/
2. 上传
3. 安装
tar sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz4. 配置环境变量
vim /etc/profileexport SQOOP_HOME=/usr/cloud/sqoop/sqoop-1.4.4export $PATH:JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin
三、mysql安装
1 .上传MySQL-server-5.5.31-2.el6.i686.rpm,下载地址http://dev.mysql.com/downloads/mysql/
2.安装
#以root用户登录配置mysql metastore3.配置mysql远程连接
#检查是否已经安装mysql
rpm -qa | grep mysql
#删除除mysql-libs-5.1.66-2.el6_3.i686
rpm -e mysql-libs-5.1.66-2.el6_3.i686 --nodeps
#安装mysql服务端
rpm -ivh MySQL-server-5.1.73-1.glibc23.i386.rpm
#安装mysql客户端
rpm -ivh MySQL-client-5.1.73-1.glibc23.i386.rpm
修改mysql的密码(注意:删除匿名用户,允许用户远程连接)
/usr/bin/mysql_secure_installation
登陆mysql
mysql -uroot -p
#mysql服务启动命令
/etc/init.d/mysql start
#mysql服务停止命令
/etc/init.d/mysql stop
GRANT ALL PRIVILEGES ON hadoop.* TO 'root'@'192.168.31.20' IDENTIFIED BY 'hadoop' WITH GRANT OPTION; FLUSH PRIVILEGES; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'hadoop' WITH GRANT OPTION; FLUSH PRIVILEGES;4.建表
create table person(id INT ,name VARCHAR(100),age INT ); #初始化数据 insert person(id,name,age) values(1,"zhangsan",20); insert person(id,name,age) values(2,"lisi",40); insert person(id,name,age) values(3,"wangwu",30);
四,hdfs导入mysql数据
sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --table person --columns 'id, name, age' #指定输出路径、指定数据分隔符sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --table person --target-dir '/sqoop/std' --fields-terminated-by '\t' #指定Map数量 -m sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --table person --target-dir '/sqoop/std1' --fields-terminated-by '\t' -m 2#增加where条件, 注意:条件必须用引号引起来sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --table person --where 'id>2' --target-dir '/sqoop/std2' #增加query语句(使用 \ 将语句换行)sqoop import --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop \--query 'SELECT * FROM person where id > 2 AND $CONDITIONS' --split-by person.id --target-dir '/sqoop/std3' 特别强调:如果使用--query这个命令的时候,需要注意的是where后面的参数,AND $CONDITIONS这个参数必须加上而且存在单引号与双引号的区别,如果--query后面使用的是双引号,那么需要在$CONDITIONS前加上\即\$CONDITIONS如果设置map数量为1个时即-m 1,不用加上--split-by ${tablename.column},否则需要加上#导入hdfs后数据校验:hadoop fs -ls /五:将HDFS上的数据导出到数据库中
sqoop export --connect jdbc:mysql://hadoop2:3306/hadoop --username root --password hadoop --export-dir '/std3' --table person1 -m 1 --fields-terminated-by ','