一、阿里云大数据平台
1.阿里云大数据与Hodoop生态的产品映射
2.阿里云产品构建离线数据仓库
3.阿里云大数据产品实时流处理
4.阿里云产品构建应用系统
5.阿里云产品构建海量营销数据分析系统
6.应用案例-XX典型数据分析系统
二、大数据计算服务MaxCompute简介
1.MaxCompute的技术特点
2.MaxCompute的产品优势
3.MaxCompute的功能概述
4.MaxCompute与其他云产品配合使用
5.使用场景
■基于SQL构建大规模数据仓库系统和BI系统
■基于DAG/Graph构建大型分布式应用系统
■基于统计和机器学习的大数据统计和数据挖掘
6.MaxCompute基本概念
7.MaxCompute的ACID特性
8.MaxCompute架构图
9.逻辑层组件
10.任务、作业、作业实例
11.元数据存储
三、数据上传与下载
1.MaxCompute数据同步概述
2.阿里云数据同步工具
3.Tunnel概述
4.上传命令 upload
5.下载命令 download
6.其他命令
7.常用参数
8.Tunnel命令是对tunnel模块的SDK的封装,具有tunnel的一些特点:
■支持对表的读写,不支持视图
■写表是追加(Append)模式
■采用并发以提高整体吞吐量
■避免频繁提交
■目标分区必须存在
四、Tunnel SDK
1.Tunnel SDK 概念
2.主要接口
3.TableTunnel接口定义
4.InstanceTunnel接口定义及约束
5.UploadSession接口说明
6.DownloadSession接口定义
7.TunnelBufferedWriter接口定义
8.Java + eclipse环境配置
9.简单上传实例
10.简单下载实例
11.多线程上传实例
12.多线程下载实例
五、DataHub概述
六、Maxcompute SQL
1.MaxCompute SQL与MySQL的语法差异
2.数据的组织
3.MaxCompute数据类型
4.MaxCompute SQL的DDL语句
表操作-创建/删除
快捷建表操作CTAS
生命周期Lifecycle
分区操作Partition
修改表属性Alter Table
视图操作VIEW
创建外部表访问非结构化数据
示例:内置extractor读取OSS数据
5.MaxCompute SQL的DML语句
查询操作(SELECT)
更新表中数据INSERT OVERWRITE/INTO
更新表中数据VALUES
多路输出MULTI INSERT
示例
并集(联合) -UNION
交集-INTERSECT
补集- EXCEPT
交集、并集、补集注意事项
SEMI/ANTI JOIN (半连接)
MAPJOIN HINT
分支表达式CASE WHEN
CTE操作
GROUPING SETS
复制表数据CLONE TABLE
数据导入LOAD
压缩表中数据
清空表中数据
参数化视图
6.MaxCompute SQL 内置函数
内置函数