spss modeler 数据挖掘4

时间:2024-04-01 16:24:39

4.spss modeler 数据挖掘4

标签(空格分隔):3.1数据挖掘


#一 项目背景和目的
spss modeler 数据挖掘4

#二 业务理解—数据需求
spss modeler 数据挖掘4

#三 数据分析

1.存在问题—数据缺失/异常值
(1)确定缺失值数据类型及数量
spss modeler 数据挖掘4

(2)确定方法:数据审核(质量)—数量较大的数据审核
spss modeler 数据挖掘4

  • 自定义缺失值
    spss modeler 数据挖掘4

2.处理

2.1 缺失值处理

2.1.1 删除

  • 途径:数据审核
  • 原则:谁高留谁
  • 操作:
    1)对记录进行删除—删除单行(质量—缺失值选择—丢弃)

spss modeler 数据挖掘4

2)对字段进行删除(选择)

spss modeler 数据挖掘4

2.1.2 弥补—填充

(1) 生成缺失值超节点
spss modeler 数据挖掘4

(2) 缺失值超节点—右键单击—展开—变成 填充性别

1)缺失值设定为指定值
spss modeler 数据挖掘4

2)缺失值设置为随机选取
填充 性别(超节点)—替换条件—随机函数—补充函数[男,女]
性别
spss modeler 数据挖掘4
spss modeler 数据挖掘4
_
年龄
spss modeler 数据挖掘4
spss modeler 数据挖掘4


2.2 异常值处理

2.2.1单字段异常值—极值或者离群值

**确定方法1:**数据审核—选定该字段—双击图形
spss modeler 数据挖掘4

确定方法2:分组—小数量级
分组—分布图
spss modeler 数据挖掘4

2.2.2 多字段异常值(联合分布异常值)—多列组合

(1) 确定方法:散点图
x轴和y轴选定组合
spss modeler 数据挖掘4

(2) 处理
数据审核—质量
spss modeler 数据挖掘4

spss modeler 数据挖掘4

spss modeler 数据挖掘4

#四 观察数据项之间的联系
1.数值类的字段—均值节点
spss modeler 数据挖掘4
spss modeler 数据挖掘4
spss modeler 数据挖掘4

2.连续型的字段—网络图节点

spss modeler 数据挖掘4