一、 第二阶段课程回顾
hadoop 2.x
HDFS
YARN
MapReduce
Zookeeper
Hive
二、大数据协作框架
对日志类型的海量数据进行分析
hdfs
mapreduce/hive
1. 数据来源
(1)RDBMS(Oracle、MySQL、DB2...) -> sqoop(SQL to Hadoop)
(2)文件(apache,nginx日志数据) -> Flume(实时抽取数据)
2. 任务调度
对数据的分析任务Job,至少都是上千(互联网公司)
任务调度:什么时候执行,多长执行一次
某一些业务的分析,需要许多job任务共同完成,相互依赖关系,工作流。
Ooozie
宙斯
3. 监控
统一WEB UI界面管理 Hue
三、业务流程
对数据进行分析
结果集存储:hdfs文件/hive表中
Sqoop=>导出到RDBMS
四、Apache Sqoop
1. Sqoop: SQL-to-Hadoop
2. 连接传统关系型数据库和Hadoop的桥梁
(1)把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中
(2)把数据从Hadoop系统里抽取并导出到关系型数据库里
3. 利用MapReduce加快数据传输速度
批处理方式进行数据传输
将常用的MapReduce(数据导入导出)进行封装,通过传递参数的形式,运行MapReduce任务。
MapReduce任务
Cli
bin/sqoop import ...
4. 以Hadoop为主体,RDBMS为客体
sqoop import
将RDBMS数据放入hadoop中,就是导入,import
sqoop export
将hadoop中的数据放入到RDBMS中,就是导出,export
5. sqoop依赖于hadoop
(1)数据的乙方,存储在hdfs
(2)底层的数据的传输实现MapReduce / YARN
五、环境搭建
《OD学Sqoop》数据转换工具Sqoop的更多相关文章
-
数据集成工具—Sqoop
数据集成/采集/同步工具 @ 目录 数据集成/采集/同步工具 Sqoop简介 Sqoop安装 1.上传并解压 2.修改文件夹名字 3.修改配置文件 4.修改环境变量 5.添加MySQL连接驱动 6.测 ...
-
[大数据之Sqoop] —— 什么是Sqoop?
介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具.你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中:也可以把数据从hdfs中导出到关系型数据 ...
-
《OD学Hive》第六周20160730
一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> & ...
-
Apache Sqoop 结构化、非结构化数据转换工具
简介: Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化.非结构化数据转换的工具. 一.安装 MySQL.导入测试数据 1.文档链接:http://www.c ...
-
数据同步工具Sqoop和DataX
在日常大数据生产环境中,经常会有集群数据集和关系型数据库互相转换的需求,在需求选择的初期解决问题的方法----数据同步工具就应运而生了.此次我们选择两款生产环境常用的数据同步工具进行讨论 Sqoop ...
-
sqoop导出工具
sqoop的导出工具是把HDFS上文件中的数据导出到mysql中 mysql中的表 现在在linux上创建一个文件,并把这个文件上传到hdfs上 cat person.txt ,no7, ,no8, ...
-
《OD大数据实战》Sqoop入门实例
官网地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html 一.环境搭建 1. 下载 s ...
-
关系数据库数据与hadoop数据进行转换的工具 - Sqoop
Sqoop 本文所使用的Sqoop版本为1.4.6 1.官网 http://sqoop.apache.org 2.作用 A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> ...
-
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
随机推荐
-
Git Shell 基本命令(官网脱水版)
用户信息 当安装完 Git 应该做的第一件事就是设置你的用户名称与邮件地址. 这样做很重要,因为每一个 Git 的提交都会使用这些信息,并且它会写入到你的每一次提交中,不可更改: $ git conf ...
-
003-常用的Meta标签写法和作用
页面关键词<meta name="keywords" content="your,tags"/> 页面描述<meta name="d ...
-
VS2015 使用 Web Deploy 发布网站到 WindowsServer2008 R2服务器详解
使用原因:由于开发期间需要将开发出的网站随时提交到服务器以便公司高层随时访问所以要求将开发出的网站每天发布到服务器,频繁度比较高,因此不能再使用之前的方式(发布到本地后再拷贝文件到服务器),所以想到了 ...
-
jquery用append添加按钮之后,按钮监听无法使用的解决方法
<!DOCTYPE html><html><head><meta charset="utf-8"> <title>< ...
-
tiny_cnn 阅读(1)
从今天起, 我会每天把阅读tiny_cnn的阅读心得提交到博客园中希望大家在这个平台上可以多多交流: 关于如果阅读代码? 抓住重点,忽略细节 首先打开从github上下载的文件: 通过csdn和网上搜 ...
-
iOS category中的所谓属性 和 从xib初始化对象的方法 以及类扩展
今天在编码时遇到以下代码 @interface UITextField (TCCustomFont) @property (nonatomic, copy) NSString* fontName; @ ...
-
add a path cgi-bin to asp.net mvc
1.简单,但是会丢失请求数据 protected void Application_BeginRequest() { string url = HttpContext.Current.Request. ...
-
性能测试vs负载测试vs压力测试-概念普及
下面我们主要介绍性能测试.负载测试和压力测试. 效率作为ISO 9126内部和外部质量的重要质量属性之一,其含义是在规定条件下,相对于所用的资源的数量,软件产品可提供适当性能的能力.资源可能包括其他软 ...
-
读 Working with forms 一些心得
Working with forms About this document This document provides an introduction to Django’s form handl ...
-
beta冲刺用户测评-咸鱼
测评人:庄加鑫-咸鱼 测评结果 一.使用体验数据加载响应很快!页面切换丝滑流畅!UI有点偏暗,有些字被覆盖了.页面布局过于居中,两侧空白范围较大.总体功能完善.二.登录.注册.忘记密码界面管理员登录 ...