文件名称:education-online.zip
文件大小:130.96MB
文件格式:ZIP
更新时间:2022-11-03 04:41:21
scala hadoop spark
在线教育项目 1.dwd 数据清洗 数据脱敏 清洗规则 脱敏字段,存储基础表 2.dws 降维 对表轻度聚合 做题表 课程表 主修行业表 试卷表。 3.join 方式:Spark SQL 、DF API、DS API , RDD DF DS 三者区别 优点和劣势。 宽表:几张宽表,字段。 拉链表:缓慢变化的字段(vip等级 用户支付金额) 4.用户注册模块:统计各个平台注册人数,通过url地址跳转的注册人数,top3用户支付金额 对内分析各部门贡献程度。 做题模块:统计试卷分数、做题情况、做题难易度 对外用户。