教程传送门:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modeler18.0数据挖掘软件教程(二):数据描述性统计与可视化
SPSS Modeler18.0数据挖掘软件教程(三):逻辑回归分析
1、数据介绍
本节教程中将利用SPSS Modeler18.0对电信客户流失数据使用决策树建模,进行分类分析,所使用的数据集是SPSS Modeler18.0自带数据集《telo.sav》,本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的朋友可以直接下载。
本次所用数据与教程(一)中相同,数据结构如下:
该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。
2、操作步骤
利用C5.0决策树方法进行分类分析,需要利用SPSS Modeler建立如下数决策树模型。
模型的详细构建步骤如下:
在源数据中打开需要进行处理的数据集,连接到【类型】节点,设置好各字段的测量值与【角色】。本例中“churn”为目标,即用户流失与否。
设置【过滤器】删选不需要的字段。
将【字段】节点中的【分区】拖入构建区,把数据按照8/2分为训练集和测试集,设置好标签。
将【建模】节点中的【C5.0】决策树模型拖入构建区,【字段】选项卡可以按照预定好的角色,或者在下面手动设置。在模型中勾选使用分区数据。
设置好模型参数后,点击运行,得到如下C5.0决策树运行结果,其中左边是决策树的判断规则,右边是自变量的重要性。
点击左上角的复制可以复制下来真个决策规则:
点击【查看器】选项卡,可以看到整个决策树的结构如下:
点击左上角的复制,可以复制下整个决策树:
对于决策树分类结果的好坏,可以通过添加【输出】节点中的【分析】节点来查看。添加【分析】节点,点击运行,本例中的决策树在训练集上正确率为88.99%,在测试集上为70.15%。
3、小结
本节教程中,主要讲解了利用SPSS Modeler18.0决策树分析建模,详细阐述了从数据过滤到模型参数设置的步骤,并对于决策树模型结果进行了简要讲解。