SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN

时间:2024-04-01 16:20:56

教程传送门:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析
SPSS Modeler18.0数据挖掘软件教程(四):分类分析-决策树

1、数据介绍

本节教程中将利用SPSS Modeler18.0对电信客户流失数据使用KNN模型进行分类分析,所使用的数据集是SPSS Modeler18.0自带数据集《telo.sav》,本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的朋友可以直接下载。
本次所用数据与教程(一)中相同,数据结构如下:
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN
该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。

2、操作步骤

利用SPSS Modeler建立KNN分类模型分析客户流失,模型建立如下:
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN
在构建区建立【源】【类型】【过滤器】【分区】的方法与决策树相同,再将【建模】节点中的【KNN】模型拖入构建区,在目标选项卡中设置预测目标字段。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN在【字段】选项卡中可以使用预定义角色或者在下面手动设置,在【设置】现象卡的【模型】选项中,勾选【使用分区数据】、【为每个分割构建模型】、【标准化范围输入】,消除量纲的影响。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN
在【相邻元素】选项卡中,设置自动选择K的范围,设定K的值为3-5,让模型自动选择最佳的K值。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN
点击运行,得到如下模型结果,其中左边为样本在低维度预测空间中的映射分布情况,右边的K选择错误日志,显示了K值确定的过程。本例中最终K为4时,训练集上效果最好。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN
当在左边选择任一样本作为焦点时,将会自动连接到对应的K近邻样本点,在右边选择【邻元素和距离表】,可以看到与改焦点距离最近的K个元素。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN选择【象限图】则展示与改焦点最近的K个样本在每个属性上的分布情况,最懂显示六个属性。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN【分类表】表示该KNN分类模型的准确率情况。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN对于KNN模型结果,可以添加【分析】和【表格】节点查看模型情况。在【分析】节点中点击运行,查看模型在训练集和测试集上的准确性。
SPSS Modeler18.0数据挖掘软件教程(五):分类分析-KNN

3、小结

本节教程中,主要讲解了利用SPSS Modeler18.0KNN分类建模,详细阐述了从数据过滤到模型参数设置的步骤,并对模型结果进行了详细讲解。