阿里云大数据产品体系

时间:2024-02-21 11:52:50

一、阿里云大数据平台

1.阿里云大数据与Hodoop生态的产品映射

2.阿里云产品构建离线数据仓库

3.阿里云大数据产品实时流处理

4.阿里云产品构建应用系统

5.阿里云产品构建海量营销数据分析系统

6.应用案例-XX典型数据分析系统

二、大数据计算服务MaxCompute简介

1.MaxCompute的技术特点

2.MaxCompute的产品优势

3.MaxCompute的功能概述

4.MaxCompute与其他云产品配合使用

5.使用场景

■基于SQL构建大规模数据仓库系统和BI系统
■基于DAG/Graph构建大型分布式应用系统
■基于统计和机器学习的大数据统计和数据挖掘

6.MaxCompute基本概念









7.MaxCompute的ACID特性

8.MaxCompute架构图





9.逻辑层组件



10.任务、作业、作业实例


11.元数据存储

三、数据上传与下载

1.MaxCompute数据同步概述

2.阿里云数据同步工具


3.Tunnel概述


4.上传命令 upload

5.下载命令 download

6.其他命令

7.常用参数








8.Tunnel命令是对tunnel模块的SDK的封装,具有tunnel的一些特点:

■支持对表的读写,不支持视图
■写表是追加(Append)模式
■采用并发以提高整体吞吐量
■避免频繁提交
■目标分区必须存在

四、Tunnel SDK

1.Tunnel SDK 概念

2.主要接口

3.TableTunnel接口定义


4.InstanceTunnel接口定义及约束


5.UploadSession接口说明

6.DownloadSession接口定义


7.TunnelBufferedWriter接口定义


8.Java + eclipse环境配置

9.简单上传实例

10.简单下载实例

11.多线程上传实例

12.多线程下载实例

五、DataHub概述


六、Maxcompute SQL


1.MaxCompute SQL与MySQL的语法差异

2.数据的组织

3.MaxCompute数据类型









4.MaxCompute SQL的DDL语句

表操作-创建/删除

快捷建表操作CTAS

生命周期Lifecycle

分区操作Partition

修改表属性Alter Table

视图操作VIEW

创建外部表访问非结构化数据

示例:内置extractor读取OSS数据

5.MaxCompute SQL的DML语句

查询操作(SELECT)


更新表中数据INSERT OVERWRITE/INTO

更新表中数据VALUES

多路输出MULTI INSERT

示例

并集(联合) -UNION

交集-INTERSECT

补集- EXCEPT

交集、并集、补集注意事项

SEMI/ANTI JOIN (半连接)

MAPJOIN HINT


分支表达式CASE WHEN

CTE操作


GROUPING SETS


复制表数据CLONE TABLE

数据导入LOAD

压缩表中数据

清空表中数据

参数化视图

6.MaxCompute SQL 内置函数

内置函数









七、UDF函数