前面,通过数据审核得到数据的分布情况和数据质量,今天,小编和大家一起进一步查看数据中缺失值的情况。
案例:数据文件Customers(缺失).xlsx。
数据流:
数据展示:
数据审核结果:
审核报告中显示,“Car_Owner”有7个缺失值,但是“Age”没有报告缺失值。
为了在分析前完成对缺失值的定义,我们可以通过类型节点,对缺失值进行定义和检查。
1. 类型节点
1.1 缺失选项定义
由于字段“Age”的缺失值已被提前处理为-1,因此需要在软件中定义该处理。
1.2 检查选项定义
1.3 重新进行数据审核
2. SPSS Modeler缺失值类型
2.1 空值
在数据文件中留空或在软件中使用“undef”定义为控制的值将在软件中被识别为空值。
注意:字符串在软件中并不是被识别为空值,而是被识别为空字符串和空白。
如:字段“Car_Owner”缺失值被识别为空字符串和空白,如果“Age”字段存在记录留空,则被识别为空值。
2.2 空字符串和空白
将被单独识别为一类,而不被视为空值。一般情况下,空字符串都视为等同于空白。
2.3 空白值
在源节点或类型节点中,被专门定义为缺失的值,例如“Age”字段取值为-1的值被识别为空白值。
对于空白值,软件将显示原值,例如本例中的-1。