4.spss modeler 数据挖掘4
标签(空格分隔):3.1数据挖掘
#一 项目背景和目的
#二 业务理解—数据需求
#三 数据分析
1.存在问题—数据缺失/异常值
(1)确定缺失值数据类型及数量
(2)确定方法:数据审核(质量)—数量较大的数据审核
- 自定义缺失值
2.处理
2.1 缺失值处理
2.1.1 删除
- 途径:数据审核
- 原则:谁高留谁
- 操作:
1)对记录进行删除—删除单行(质量—缺失值选择—丢弃)
2)对字段进行删除(选择)
2.1.2 弥补—填充
(1) 生成缺失值超节点
(2) 缺失值超节点—右键单击—展开—变成 填充性别
1)缺失值设定为指定值
2)缺失值设置为随机选取
填充 性别(超节点)—替换条件—随机函数—补充函数[男,女]
性别
_
年龄
2.2 异常值处理
2.2.1单字段异常值—极值或者离群值
**确定方法1:**数据审核—选定该字段—双击图形
确定方法2:分组—小数量级
分组—分布图
2.2.2 多字段异常值(联合分布异常值)—多列组合
(1) 确定方法:散点图
x轴和y轴选定组合
(2) 处理
数据审核—质量
#四 观察数据项之间的联系
1.数值类的字段—均值节点
2.连续型的字段—网络图节点