2023.2.14
一、
1.数据预处理的过程和解决问题
2.什么是离群点,检测离群点的四个方法
3.数据仓库的四个特点,画出数据仓库结构图
4.维度归约的两个方法及区别。
二、
两个模型用来预测新冠病毒的阳性和阴性
1.分别求准确率,精确率,召回率,错误率
2.在实际中用哪个模型比较好(利用召回率)
三、FP-树
树的生成过程,画出FP树
2.给出挖掘频繁项的过程和结果
四、给出事务列表
1.利用GSP算法,最小支持度为2,求频繁序列
2.求最大频繁序列
3.问如何从Lk-1到Ck
五、给出ER图
1.维度建模
2.问如果时间维度有不同的粒度,事实表和维度表怎么做
3.基本立方体【日, 商品号,城市】,求2017年第一季度所有品牌的销售额的OLAP操作
的工作原理
六、DBSCAN
1.过程
2.列出核心对象
3.分别给出两组密度相连还有密度可达的集合
七、数据流
一组数据流(PPT上有),给出到达子集11011
1.求到达后的样子
2.求1的个数