大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

我们之前导入的都是全量导入，一次性全部导入，但是实际开发并不是这样，例如web端进行用户注册，mysql就增加了一条数据，但是HDFS中的数据并没有进行更新，但是又再全部导入一次又完全没有必要。

所以，sqoop提供了增量导入的方法。

1、数据准备：

2、将其先用全量导入到HDFS中去

3、先在mysql中添加一条数据，在使用命令进行追加

 #指定字段的取值范围，增量到数据(指的是Mysql增加了一条或多条数据，追加到HDFS中去,

 如果想追加到hive本来的数据中去就把路径换成hive的路径)

 # 适用于表不断的有新数据插入

sqoop import \

--connect jdbc:mysql://master:3306/student \

--username root \

--password  \

--table student_zeng \

--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \

--split-by id \

-m  \

--fields-terminated-by '\t' \

--incremental append \

--check-column id \

--last-value

4、根据时间进行大量追加（不去重）

 追加

 sqoop import \

 --connect jdbc:mysql://master:3306/student \

 --username root \

 --password  \

 --target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \

 --table student_zeng \

 --fields-terminated-by '\t' \

 --check-column last_mod \

 --incremental lastmodified \

 --last-value "2019-12-19 20:57:16" \

 -m  \

 --append

结果：但是我们发现有两个重复的字段

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

5、往往开发中需要进行去重操作：sqoop提供了一个方法进行去重，内部是先开一个map任务将数据导入进来，然后再开一个map任务根据指定的字段进行合并去重

#根据业务可能需要去重  -merge-key 就是做这个事

sqoop import \

--connect jdbc:mysql://master:3306/student \

--username root \

--password  \

--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \

--table student_zeng \

--fields-terminated-by '\t' \

--check-column last_mod \

--incremental lastmodified \

--last-value "2019-12-19 22:00:09" \

-m  \

-merge-key id

结果：

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

之前有重复的也进行合并去重操作，最后生成一个结果。

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）的更多相关文章

大数据之路week07--day06 （Sqoop 的使用）
Sqoop的使用一(将数据库中的表数据上传到HDFS) 首先我们先准备数据 1.没有主键的数据(下面介绍有主键和没有主键的使用区别) -- MySQL dump 10.13 Distrib 5.1.7 ...
大数据之路week07--day06 （Sqoop 将关系数据库（oracle、mysql、postgresql等）数据与hadoop数据进行转换的工具）
为了方便后面的学习,在学习Hive的过程中先学习一个工具,那就是Sqoop,你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了. Sqoop是一个用来将Hadoop和关系型数据库中的数据 ...
大数据之路week07--day06 （Sqoop 在从HDFS中导出到关系型数据库时的一些问题）
问题一: 在上传过程中遇到这种问题: ERROR tool.ExportTool: Encountered IOException running export job: java.io.IOExce ...
大数据之路week07--day06 （Sqoop 的安装及配置）
Sqoop 的安装配置比较简单. 提供安装需要的安装包和连接mysql的驱动的百度云链接: 链接:https://pan.baidu.com/s/1pdFj0u2lZVFasgoSyhz-yQ 提取码 ...
sqoop操作之Oracle导入到HDFS
导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --passw ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
大数据之路week04--day06（I/O流阶段一之异常）
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房 ...
大数据框架开发基础之Sqoop(1) 入门
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle , ...
C&num;码农的大数据之路 - 使用C&num;编写MR作业
系列目录写在前面从Hadoop出现至今,大数据几乎就是Java平台专属一般.虽然Hadoop或Spark也提供了接口可以与其他语言一起使用,但作为基于JVM运行的框架,Java系语言有着天生优势. ...

随机推荐

RGB888-&gt&semi;RGB565-&gt&semi;RGB888
转自CB的博客:http://blog.chinaaet.com/detail/28298 在我们的计算机中,图像是以RGB888显示的,24位图每个像素保存了32bit的数据,即RGB888+Al ...
EM算法原理以及高斯混合模型实践
EM算法有很多的应用: 最广泛的就是GMM混合高斯模型.聚类.HMM等等. The EM Algorithm 高斯混合模型(Mixtures of Gaussians)和EM算法 EM算法求最大似然 ...
四主要的几种 Web 服务器
一 Microsoft IIS 1. 仅支持 Windows 操作系统,用于 .Net 平台网站的部署和运行. 2. IIS 是一种 Web 服务组件,包括括 Web 服务器.FTP 服务器.NNTP ...
Golang常用包
fmt 实现了格式化IO函数,格式化短语派生于C io 提供了原始的io操作 bufio 这个包实现了缓冲的io,io.Reader 和 io.Write 对象 sort 对数组和用户定义集合的原始的 ...
ruby rails&lowbar;autolink不能加载的原因
从rails 3.1.0开始,默认在ActionView::Helper::TextHelper中的auto_link方法已经被移除,放到了第三方的gem里:rails_autolink.遂想试一下其 ...
【SQL】sql语句在insert一条记录后返回该记录的ID
insert into test(name,age) values(') SELECT @@IDENTITY test是表名重点是这句SELECT @@IDENTITY
tiny4412--linux驱动学习(1)
1,概述 linux设备驱动分为三种:字符驱动设备.块驱动设备.网络设备架构: 1,字符设备驱动是指只能一个字节一个字节读写的设备,不能随机读取设备内存中的某一数据,读取数据需要按照先后数据.字符 ...
Harmonic Number（调和级数+欧拉常数）
In mathematics, the nth harmonic number is the sum of the reciprocals of the first n natural numbers ...
Django中提供的6种缓存方式
由于Django是动态网站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显,最简单解决方式是使用: 缓存,缓存将一个某个views的返回值保存至内存或者memcache中, ...
【双目备课】OpenCV例程&lowbar;stereo&lowbar;calib&period;cpp解析
stereo_calib是OpenCV官方代码中提供的最正统的双目demo,无论数据集还是代码都有很好实现. 一.代码效果: 相关的内容包括28张图片,1个xml和stereo_calib.cpp的代 ...