3.spss modeler 数据挖掘3
标签(空格分隔): 3.1数据挖掘
#一 对记录和字段的操作
- 字段—对列进行操作
选择/排序/样本一般组合使用
选择–读取值/角色定义
排序—排序
样本—需要前几名数据
汇总—分类求和/计数/平均值
合并/追加
合并—列数增加(有相同的关键字段)
追加—行数增加
先导入3个表格—读取值–追加运行
2.记录—对行进行操作
类型(更改字段存留)
筛选器(更改字段名/存留)
导出—新增一个字段
填充—缺失值进行填充
自定义填充/指定值填充
空白值:
空值:空值表示值未知。空值不同于空白值或零值。
分区
字段重排—调整字段的位置
#二 主要模型介绍
1.主要算法介绍
2.自动建模器
3.分类模型—需要给一个目标或者影响因素
4.聚类模型—细分各类数据
5.关联模型—电商/购物篮类
抽取相应的规则即找到同时发生的事务之间的关联性
#三 输出和导出操作
1.输出
输出中的’表’节点可导出另存为CSV文件
矩阵:进一步具体了解数据特征
数据审核—图形/平均数
统计量—数值字段的基本汇总信息
2.导出
导出:结果输出成相应的格式
注意:数据一定要读取值
#四 建模操作
1.项目背景—了解业务背景
2.数据说明—需要字段
3.业务理解和数据理解
业务理解:根据病人的情况,哪种药物最有效
数据理解:
4.数据准备—增加新的需要字段/分区
5.建模
6.评估
分区/分析
- 使用模型的数据集合建立模型的结构(字段名称/数值类型)保持一致
7.部署/实施