01 Hive SQL基础知识

前言

本文主要讲的是一些Hive SQL的基础知识，希望能帮助到想要接触大数据分析和刚接触大数据分析的同学。实际永远比所见的复杂，但万丈高楼平地起，一切来源于基础。

关键字：初步了解sql每个关键字的功能

执行顺序/执行计划：看懂执行步骤，有助优化sql和排查sql执行遇到的问题

SQL优化/特殊运算/特殊函数：提高SQL的执行效率

补充知识：表结构处理语句/SQL书写规范/数据仓库基础知识

关键字





select  a.col1,             



        count(distinct b.col2) as col2 --count:聚合函数，依据gourp条件汇总计算




  from  (



        select  *            --select:选取数据列




          from  table1      --from:获取源数据




         where  col1 > 5     --where:过滤源数据




           and  (col2 < 5




                or col3 = 5)



        ) as a                --as:赋予表别名




  left  join table2 b      --left/right/inner/full join:将两份源数据进行合并




   on  a.col1 = b.col1       --on:关联条件





inner  join table3 c       



   on  a.col1 = c.col1       



 full  join table4 d       



   on  a.col1 = d.col1  




group  by a.col1             --group by:分组,聚合运算的汇总依据【类比excel上的透视表】





having count(distinct b.col2) > 0 --having:对聚合后的数据结果进行过滤





order  by col2               --order by:对col2排序

join的执行逻辑

左右表形成笛卡尔积的数据集【a*b条数】
根据关联条件过滤数据集
添加外部行，补全主表【即left join 添加所有右表为null的左表；full join 添加所有右表为null的左表和所有左表为null的右表】

关键字执行顺序





select  a.user_id,



        count(distinct ) as cnt 



  from  table1 a 



  left  join table1 b



    on  a.user_id = b.user_id 



 where  b.last_login_date >= '2020-01-01'




 group  by a.user_id




having  cnt > 1




 order  by cnt desc

from:获取源数据
join:将两份源数据进行合并
where:过滤源数据【注：左表的where条件会优先于join执行】
select:选取数据列
group by:分组聚合函数
having:对聚合后数据集进行过滤
distinct:去重
order by:对col2排序
select:选取数据列

执行计划

SQL优化

join的优化

关联表要保证结果集的最小化
尽量将小数据集的表作为关联主表

count(distinct **) 与 count(**) from (select ** from group by **) a

两者的差别在于：

group by 会让数据先进行去重处理，避免了数据倾斜的问题
group by 会将数据分配到多个reduce上计算，节省了reduce计算的时间

数据倾斜导致的查询缓慢

原因：mapreduce时因数据在节点上分布不均匀，导致单节点承载数据过大，节点执行效率低，拉低整体的执行效率

数据本身分布不均（例如当数据属于极小方差的正态分布，数据大量堆积在均值上。原因： a.表的设计存在问题，即本身粒度存在问题 b.业务数据本身客观存在导致）
sql中小大表join时，主表的key过于集中或空值过多（空值由一个reduce进行处理）

解决方法：

将主表中过于集中的值单独提取出来计算
重构主表，加入随机字段和主键合并

特殊运算

位运算：（二进制计算）

& 按位与：5 & 3 = 1【101 & 11 = 1】

| 按位或：5 | 3 = 7 【101 | 11 = 111】

^异或：5 ^ 3 = 6 【101 ^ 011 = 110】

位运算在留存计算中的运用：【适用于要同时计算多个留存率的需求】





select  ,



		count(1) as login_user_cnt,



		sum(a1.is_keep_1d) as keep_user_cnt_1d, 



		sum(a1.is_keep_2d) as keep_user_cnt_2d,



		sum(a1.is_keep_3d) as keep_user_cnt_3d,



		sum(a1.is_keep_in_3d) as keep_user_cnt_in_3d



  from  (



		select  ,



				a.user_id,



				max(case when a.keep_bit_num & power(2, a.currnt_num + 1) > 0 then 1 else 0 end) as is_keep_1d,



				max(case when a.keep_bit_num & power(2, a.currnt_num + 2) > 0 then 1 else 0 end) as is_keep_2d,



				max(case when a.keep_bit_num & power(2, a.currnt_num + 3) > 0 then 1 else 0 end) as is_keep_3d,



				max(case when a.keep_bit_num & (power(2, a.currnt_num + 3 + 1) - 1) >= power(2, a.currnt_num + 1) then 1 else 0 end) as is_keep_in_3d



		  from  (



				select  pt,



						user_id,



						datediff(pt, '2020-01-01') as currnt_num,



						sum(power(2, datediff(pt, '2020-01-01'))) over (partition by user_id order by pt desc) as keep_bit_num



				  from  



				 where  pt >= '2020-01-01'




				   and  pt <= '2020-01-31'




				) a 



		 group  by ,



				a.user_id



		) a1  



 group  by

取余：%

取整：ceil向上取整 floor向下取整

特殊函数

窗口函数:在不改变数据集条数的情况下，按照parttition by 进行汇总统计

func(*) over (partition by * order by * )

常用窗口函数：

lead 分组领先 / lag 分组滞后
row_number() 同值异序连续 123 / rank() 同值同序不连续 113 / dense_rank() 同值同序连续 112

特殊用法：

有无order by的区别：

sum(1) over (partition by pb order by num) 按pb分组按num顺序逐步累计求值

sum(1) over (partition by pb) 按pb分组累计求值

grouping sets:按照group by条件，根据不同grouping sets条件进行多次聚合运算

区别union+group by：使用union操作会增加IO开销,会减少cpu和内存的开销,使用grouping sets会减少IO开销,会增加cpu和内存的消耗

lateral view:行转列，将一行array拆分成多行，其他字段重复【不能与where共用】





select  ,



        a.array_col,



	    tmp.tmp_col,



        a.array_col2,



	    tmp.tmp_col2



  from   a 




lateral view explode(split(a.array_col, '、')) tmp as tmp_col




lateral view explode(split(a.array_col2, '、')) tmp as tmp_col2

表结构处理语句

create





create [external] table 表名 --external外部表




 (



  非分区字段名 字段类型 comment'注释' -- 字段类型：string int bigint double array<string>




  [,非分区字段名 字段类型 comment'注释']



 )



 comment '表注释'




 partitioned by (分区字段名 字段类型 comment'分区字段')



 row format delimited fields terminated by '\t'  --列分割依据




 stored as textfile     --存储的数据格式




 [location 'hdfs地址'] ;

内外部表的区别：

hdfs文件的区别：外部表是作为hdfs文件的一种映射，内部表是与hdfs文件一一对应
删除操作的区别：外部表只是删除表的映射关系（即元数据），数据源不做删除动作；内部表是删除hdfs文件和删除表
加载数据的区别：load data 只做映射不迁移数据，内部表会迁移数据

insert




-- 非分区表




insert overwrite/into table 表名




select ...



 



-- 分区表




insert overwrite/into table 表名 partition (分区字段=分区值)




select ...



 



-- 分区表-动态分区插入(ps:动态分区插入存在上限)




insert overwrite/into table 表名 partition (分区字段)




select ...,分区字段

overwrite的处理顺序：先对覆盖数据进行删除，再插入

alter




-- 新增字段



 alter table 表名 add columns (字段名 字段类型 comment '注释' [,字段名 字段类型 comment '注释']) 



 



 -- 修改单列字段




 alter table 表名 change column 修改字段 修改后字段 修改后字段类型 [修改后注释] [after 前一个字段名]  CASCADE 



 



 -- 修改表名




 alter table 旧表名 rename to 新表名



 



 -- 按字段顺序修改字段




 alter table 表名 replace columns (保留/修改后字段 保留/修改后类型 [保留/修改后注释])  CASCADE 



 



 -- 删除分区




 alter table 表名 drop partition (需要删除的分区条件)     注：对应的hdfs文件也会被删除

分区表新增字段问题：分区表中新增字段后会出现外部表序号和hdfs列序号无法对应导致数据无法显示

解决方案：alter table 表名 add columns (字段名字段类型 comment '注释' ) cascade

show & desc




-- 显示table_name的分区




show partitions table_name  



 



-- 显示table_name的建表语句




show create table table_name  



 



-- 显示table_name的字段明细




desc table_name

SQL书写规范

因人而异，但要一直保持一致的规范。【关键字和字段或表之间空两格，以便分清字段和表；逗号在后；运算符前后空一格；tab标识4个空格...】

以下是我根据自己的书写规范编的工具：sql_format(链接：百度网盘请输入提取码提取码：w412)

数据仓库基础知识

数仓的常见层级划分

ods层：原始数据层，存储从业务库同步过来的数据，不做任何处理，不对数据开发以外的人开放

dwd层：明细数据层，对ods层的数据进行解析清洗

dws层：轻度汇总层，对dwd层的数据对常见的指标进行轻度聚合，粒度仍是用户级别

st层：报表层，根据业务需求定制的报表，粒度以日期为主，例如天/月/年

建表规范命名

层级+业务id+表内容+更新方式【尽量英文，单词过长用缩写】

字段规范命名

原子指标+修饰词【修饰词：时间修饰词等其他】

与原定数仓命名规范保持一致【原定数仓命名规范高于自认为的命名规范】

埋点基础知识

埋点的意义

记录用户行为，由数据分析师处理分析，供于运营/产品人员使用

埋点的类型

前端代码埋点：由埋点人员设计及规范内容格式，埋点存在js【自主性高，代码耦合性高】

可视化埋点：埋点有控台配置【自主性中，代码耦合性低】

全埋点：开发规定内容，返回所有用户行为信息【自主性低，代码耦合性低，信息全】

秒客网