7.8 spss modeler
1、缺失值分析与处理
1、数据理解的重要性
在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域有一句话,“ Garbage in,garbage out.”意思就是说,如果项目的输入数据没有经过科学的预处理,那所得到的结果必将是错误的。通过数据理解,可以理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系,可以为建模时输入数据项和模型的选择提供重要的信息。
2、从商业理解到数据理解
以某超市的市场推广活动为例,从商业理解开始,了解如何用Modeler 进行数据理解。
商业理解
现状:
某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品地处二楼,很多顾客还不知道,营业额没有达到预期。
目标:
经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消费。
活动计划:
首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。
数据理解
首先对超市内现有的数据进行分析:
1. 会员基本信息:会员申请会员卡时登记的信息,其中包含了会员年龄,职业,学历,电话,工作,收入,住址等信息。
2. 消费信息:会员消费的明细记录。
了解了现有数据后,发现有以下问题:
1. 会员基本信息是会员提供的,里边有很多值是缺失的,有的看起来是错误的。
2. 而消费信息由于是每次消费后电脑生成,信息是完整的,但是信息却很庞杂,不利于分析。
3. 可用的数据项非常多,到底用哪些数据项来进行数据预测呢?
3、缺失值
1、缺失值定义
缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据挖掘中,都要遇到缺失值的问题,有可能是数据采集中的失误,有可能客户不愿意提供某些信息,面对这样的数据,应该如何处理 ? 使用这样的数据可能会对后期的建模产生不可预料的影响。如果丢弃,这些数据中可能包含着宝贵的信息。
2、缺失值分析
1、确定数据文件中缺失值的类型和数量
2、利用“数据审核”节点审核数据,观察有效数据的数量
3、利用类型节点设置缺失值定义
3、缺失值处理—删除
1、通过数据审核节点进行缺失值处理设定
原则:完整的字段占的比例高,一般应该过滤掉包含缺失值的字段
完整记录所占比例较高,一般应该删除含有缺失值的记录
2、通过数据审核节点生成的处理节点删除字段或记录
4、缺失值处理—填充
1、通过数据审核节点设定缺失值插补方式
2、通过填充节点设置插补条件与插补内容
补充:超节点的简单使用
2、异常值
1、单字段分析
异常值就是数据文件中那些和其它值相比有明显不同的值,它们可以通过观察数据分布来确定。
单字段异常值:出现在一个字段中的异常值(极值或离群值)
连续型数据异常值:通过数据审核节点查看
小数据量级枚举类数据的抽象分组
枚举类数据:不连续,可穷举
利用分布图节点实现分组
2、多字段分析
多字段异常值:需要多列组合才能发现的异常值,也称为联合分布异常值
联合分布异常值分析:通过散点图进行
3、异常值处理
单字段异常值处理:通过数据审核节点设置
单字段异常值处理:通过数据审核节点生成的超节点处理
单字段异常值处理:自定义填充节点,以取得更好效果
3、观察数据项之间联系
对于数据挖掘来说在进行真正的建模之前,通过观察数据项之间的关系,特别是输入数据项和目标数据项之间的关系,是非常有意义的,它能快速的让我们对数据之间的关系有个大概了解,精简一些不必要的数据项,提高建模速度和稳定性。
通过均值节点可以观察数值类字段对目标字段的影响力
通过网络图节点可以观察非数值类字段对目标字段的影响力
4、超市商品购买关联分析
1、项目背景:发掘消费者购物偏好
超市通常以快速消费品的销售为主,具有和百货、电子商务等不同的特征,比如消费者在购买决策和购买过程上就有自身的特点。快速消费品大都是日常用品,在采购时常出现即兴的情形,可能由于某些因素引发冲动购物。并且在购买时,可能对周围其他人的建议不敏感,更多取决于个人偏好,同时商品的外观、包装、广告、促销、价格、销售点等均对销售起着重要作用。
在国内的快速消费品市场,商品品种的差异性不大,价格竞争的空间也很小。如何对商品进行合理布局,如何设计’受欢迎的促销方案就成了超市竞争客户的一个关键点而布局、广告和促销的设计必须贴近消费者 ,这就要求超市分析消费者购物的个人偏好,并且找到共性。
本案例就是在这种背景下,受一家中型超市的委托,希望根据顾客的购买情况来帮助其优化营销方案和提升客户满意度。
2、分析思路和业务理解
超市在运营中保存了交易明细账数据,考虑根据顾客购买商品的情况,分析商品购买之间的关联,从而为超市提供合理的建议。
1、分析商品之间的潜在联系。顾客在选购商品时,经常会同时选购若干商品,这些商品之间存在一定关联。
2、分析顾客可能还会购买的商品 。根据已经选购商品的情况,预测顾客还可能选购的商品。
基于这两点的分析结果 , 可以对超市运营和促销提供以下建议:
1、优化商品布局:根据客户的购物喜好,调整商品布局,让客户有更好的购物体验,同时剌激消费者的购物冲动。
2、设计促销方案 : 设计一些商品捆绑销售套餐,提升购买价值 。
3、快速商品推荐:推荐消费者最可能感兴趣的商品,提高客户满意度,促进销售。
3、数据准备
超市对顾客购买商品的记录信息是按照每个顾客购买的商品条目来记录数据的。为了进行关联分析,需要对这种数据结构进行调整。我们把数据变为每行代表一个顾客的购买行为,在每一行中记录该顾客在各商品的购买情况,可以用T表示顾客购买了该商品,F表示顾客没有购买该商品。
使用类型和设为标志节点处理商品购买信息转换为布尔值效果。
4、关联分析-常用关联方法
Apriori 是一种关联规则发现方法,侧重于找出数据库中某些特定事件一起发生的情况,以找出那些可信的并且具有代表性的规则。
连续关联规则挖掘算法 Carma(The continuous association rule rnining algorithm)是Apriori 算法的替代方案,该算法减少了I0成本,降低了对时间和空间的要求。
序列模型可以从连续数据或面向时间的数据中发现模式,比如按时间表记录的采购清单。序列的元素为组成一个事务的项目集合。
5、商品购买关联分析
1、通过网络图观察商品之间的购买联系
2、设置各角色类型,注意各变量既是条件也是结果。
添加Apriori节点推算关联模型
3、规则运行结果
4、将模型带入表格运行,观察商品推荐结果
6、结果应用
分析完商品购买关联后 , 可以有以下业务应用:
1、优化商品布局:通过网络图,能够分析出有些商品很容易被同时购买,在超市进行商品排列时,可以把这些商品摆放得靠近一些,或者在同一通道内。当顾客购买某一商品时,方便购买其他关联商品,也会产生一些购物冲动来同时购买其他商品。比如把葡萄酒与甜食摆放在一起,啤酒跟罐装蔬菜摆放在一起。
2、设计促销方案:依据商品关联分析的结果,设计促销方案会更能吸引顾客。比如对于关联性强的商 品葡萄酒和甜食,可以设计捆绑促销,同时购买这两种商品,可以优惠5%;或者购买葡萄酒后,可以优惠 10%的价格购买甜食。
3、快速商品推荐:点算完顾客购买的商品后,通过关联分析模型,可以推测顾客还可能购买的商品,此时可 以向顾客进行推荐。
5、基于决策树的银行营销数据挖掘
1、项目背景与运行环境
1、项目背景:提升营销效果
随着大数据时代的到来,数据的价值得到进一步提升,银行管理人员将不再满足于采用数据对经验决策进行验证的简单模式,基于数据的决策行为将从“被动”转向“主动”,主要体现于两方面:一是数据在业务分析上的作用从“数据验证”向“数据启发”提升;二是数据在业务应用上的作用从“事后快速响应”向“事前精准预测”提升。银行对自身数据分析能力提出了更高要求。
本项目是基于对某银行营销数据的分析,应用CRISP-DM数据挖掘方法,以便确定产品(如银行定期存款)是否被购买,从而进一步提升精准营销的效果。通过建立模型,深入分析客户信息,关注客户价值的形成原因和驱动因素,准确识别未来存在价值提升可能性的客户。
什么是精准营销
精准营销是当前企业营销的关键,如何做到精准,这是系统化流程,有的企业会通过营销做好相应企业营销分析,市场营销状况分析,人群定位分析,最主要的是需要充分挖掘企业产品所具有的诉求点,实现真正意义上的营销。精准的含义是精确、精密 、可衡量。
1、精准营销就是通过可量化的精确的市场定位技术突破传统营销定位只能定性的局限;
2、精准营销使营销达到可度量、可调控等精准要求。摆脱了传统广告沟通的高成本束缚,使企业低成本快速增长成为可能;
3、精准营销不断满足客户个性化需求,建立稳定的企业忠实顾客群,实现客户链式反应增值,从而达到企业的长期稳定高速发展的需求。
4、精准营销使企业摆脱繁杂的中间渠道环节及对传统营销模块式营销组织机构的依赖,实现了个性关怀,极大降低了营销成本。
5、与现今大数据营销思路相辅相成。
本课程数据挖掘的工具
本课程将基于决策树算法,对银行营销数据进行挖掘。决策树算法是目前进行客户分类时很常用的算法。本项目我们使用IBM SPSS Modeler进行建模,重点介绍决策树算法在银行营销领域
的应用。
项目的运行环境是SPSS Modeler及MySQL。
2、CRISP-DM数据挖掘流程
1、业务理解
通常情况下,一个完整的数据挖掘过程由业务问题定义、数据选择、数据清洗和预处理、模型选择与预建立、模型建立与调整、模型的评估与检验、模型解释与应用等多个步骤组成。
SPSS Modeler可以提供最出色、最广泛的数据挖掘技术,确保用户可用最恰当的分析技术来处理相应的问题,从而得到最优的结果以应对随时出现的商业问题。即便改进业务的机会被庞杂的数据表格所掩盖,也能最大限度地执行标准的数据挖掘流程,为用户找到解决商业问题的最佳答案。IBM SPSS Modeler的GRISP-DM方法进行数据挖掘的6个基本步骤:业务理解、数据理解、数据准备、建立模型、评估模型和应用模型。
CRISP-DM(即“跨行业数据挖掘标准流程”的缩写)是一种业界认可的用于指导数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系说明。作为一种流程模型,CRISP-DM概述了数据挖掘的生命周期。
模型中由六个阶段组成,其中的箭头表示这些阶段间最重要和最频繁使用的依赖关系。阶段之间并不一定要严格遵守顺序。实际上,大多数工程都会根据需要在这些阶段之间来回移动。
CRISP-DM模型具备灵活性,可以轻松地自定义。例如:如果组织旨在检测洗钱行为,很有可能将在不设定具体建模目标的情况下对大量数据进行筛选。此时,工作不是建模,而是以数据探索和数据展现为主,以便揭示可疑的财务数据模式。
确定数据挖掘目标:
例如,“减少流失”的业务目标可以转换为包含下列信息的数据挖掘目标:
1) 基于最近的采购数据识别高价值客户;
2) 使用可用的客户数据构建一个模型,用于预测每个客户的流失可能性;
3) 基于流失倾向和客户价值为每个客户指定等级。
这些数据挖掘目标可以被企业用于减少最有价值客户的流失。业务和技术必须紧密配合才能获得有效的数据挖掘。
2、数据理解
数据理解,即数据的ETL(数据提取、转换和加载),主要是处理数据中的异常值、空值、错误数值等数据清洗和预处理工作,这部分需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点以及经验进行,一般情况下,这部分的时间占数据挖掘项目的70%左右。为什么数据的ETL如此重要呢?正所谓万丈高楼平地起,如果连地基都是“豆腐渣工程”的话,那么再华丽的楼房也没人愿意掏腰包。
数据清洗和预处理的目的:
一方面保证建模的数据是正确和有效的;另一方面,通过对数据格式和内容的调整,使建立的模型更加准确和有效。数据整理的主要工作包括对数据的转换、整合、抽样、随机化、缺失值的处理等。数据转换和整合的工作目的就是为了保证数据的质量和可用性。
例如,样本数据中客户最终流失的数据比例较低,只占全部数据的8%。利用这样的数据建模不容易找出流失的客户特征、建立精确的模型。我们可以按比例抽取未流失客户和流失了的客户,把两者合并构成建模的数据源。通常一个模型在建立以后,需要用大量的数据对它进行检验,如果一个未经检验的模型被贸然推广使用,就有可能由于模型的不精确带来应用的损失,所以我们通常会把数据分为两部分: 2/3的数据用来建模,1/3的数据用来检验。
项目分析使用的数据是某银行电话营销数据,包括:
① 客户的基本数据:年龄、工作、婚姻、教育等;
② 客户的业务相关数据:是否破产、余额、房贷、贷款等;
③ 电话营销数据:连络方式、连络日期、以及关键的电话营销结果。
客户的基本数据:
1、年龄(age):客户的年龄(数字)
2、工作(job):工作类型(分类:“管理员”,“未知”,“失业”,“管理”,“女佣”,“企业家”,“学生”,“蓝领”,“个体户”,“退休”,“技术人员”,“服务”)
3、婚姻(marital):婚姻状况(“已婚”,“离婚”,“单身”;注:“离婚”是指离婚或丧偶)
4、教育(education):(分类:“未知”,“中学”,“小学”,“大专”)
客户的业务相关数据:
5、是否破产(default):是否有信用? (二进制:“是”,“否”)
6、余额(balance):平均每年余额(数字)
7、住房(housing):是否有住房贷款?(二进制:“是”,“否”)
8、贷款(loan):是否有个人贷款?(二进制:“是”,“否”)
电话营销数据:
9、连络方式(contact):联系人通讯类型(分类:“未知”,“电话”,“手机”)
10、最后联系日(day):每个月的最后一个联系日(数字)
11、最后联系月份(month):每年的最后一个联系月份(分类:“jan”,“feb”,…,“nov”,“dec”)
12、上次联系持续时间(duration):上次联系持续时间,以秒为单位(数字)
13、活动中联系次数(campaign):此活动期间和客户的联系次数(数字,包含最后一次联系)
14、最近一次营销天数(pdays):客户最近一次与之前活动联系后经过的天数(数字,-1表示之前未联系过客户)
15、活动前联系次数(previous):在此活动之前和客户的联系次数(数字)
16、上一次营销结果(poutcome):以前的营销活动结果(分类:“未知”,“其他”,“失败”,“成功”)
17、客户是否订购产品(y):(二进制:“是”,“否”)
3、数据准备
数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。在前期的业务理解和数据理解阶段投入足够的精力可以将对这一阶段的投入降至最低,但仍需花费大量的精力为挖掘准备和打包数据。
数据准备通常包含以下任务:
① 合并数据集和记录;
② 选择数据子集样本;
③ 汇总记录;
④ 导出新的属性;
⑤ 排序数据以便建模;
⑥ 删除或替换空值或缺失值;
⑦ 分为训练数据集和测试数据集。
4、建立模型
建立模型,就是当我们需要从定量的角度分析和研究问题时,在经历初步深入研究的基础上,简化假设、分析内在规律等步骤后,用数学的符号和语言,把它表述为数学模型,然后用模型结果来解释实际问题,并接受实际的检验。
选择正确的建模技术:
在IBM SPSS Modeler中,提供了大量建模技术,当决定要使用哪种模型之后,需要注意以下问题:
此模型是否需要将数据分为测试集和训练集?
是否具有足够的数据为给定的模型生成可靠的结果?
此模型是否需要特定的数据质量级别?当前数据是否达到?
数据是不是适用于此特定模型的恰当类型?如果不是,是否可以使用节点进行必要的转换?
模型说明:
当检验模型的结果时,确保记录下建模经验。可以使用节点注解对话框或工程工具将这些记录存储在模型自身中。
对于每个模型,记录以下信息:
1) 是否能从此模型得出有意义的结论?
2) 此模型是否揭示了新的深入见解或不寻常的模式?
3) 模型是否存在执行问题?执行时间是否合理?
4) 此模型是否存在数据质量难题,例如具有大量缺失值?
5) 有没有应该记录的计算不一致问题?
5、评估模型
评估模型是数据挖掘过程中的必须步骤,建立数据挖掘模型时,我们追求的是模型带来的效益,所以没那么多时间去玩模型、搞算法,大部分都是借助数据挖掘自带的评估模型来做,至于准确度、收益率等,理论上很完美,实际中就不一定。
评估结果:
在这个阶段,将对工程结果是否达到业务成功标准的评估进行规范。此步骤要求对声明的业务目标有清晰地了解,因此请确保在工程评估时包含关键决策制定者。
在报告中需要考虑以下问题:
① 结果是否明确声明并且采用可以轻松展示的格式?
② 是否存在应该突出强调的特别故事或独特的发现问题?
③ 是否能够按照模型和发现的问题适用顺序进行排序?
④ 总的来说,这些结果能在多大程度上满足组织的业务目标?
⑤ 结果还引发了哪些其他问题?如何使用商业术语表述这些问题?
⑥ 评估结束后,编辑汇总一个模型列表以包含在最终报告中。此列表应该包含同时满足数据挖掘目标以及业务目标的那些模型。
审核过程:
我们应该汇总每个阶段的活动和决定,包括数据准备步骤、模型构建等。
对于每个阶段,需要注意如下问题:
① 这一阶段是否对最终结果的值有所贡献?
② 有没有方法可以简化或改善这一特定阶段或操作?
③ 这一阶段的失败之处和失误分别是什么?下一次应该如何避免?
④ 是否存在死端,例如某些已验证无效的特殊模型?是否有办法预测此类死端,以便可以更有效地开展工作?
⑤ 这一阶段是否存在任何令人惊喜的结果(不论好或坏)?事后看来,是否有明显的办法可以预测此类事件的发生?
⑥ 是否有其他的备选决定或策略可以在某个给定的阶段使用?在将来的数据挖掘工程中注意此类替代选项。
6、应用模型
部署就是使用新的深入见解在组织内部进行改善的过程。这可以表示正式的集成,例如实施一个用于生成随后要读入数据仓库中的流失得分的IBM SPSS Modeler模型。
此外,部署还意味着可以使用从数据挖掘中获得的深入见解改善组织。
生成最终报告:
编写最终报告不仅可以将早期文档中的零碎信息联系起来,而且还可以用于传达结果。尽管这看起来很简单,但重要的是将结果演示给各种与结果的相关人员。
我们需要考虑什么人观看报告,他们是技术开发人员还是只关注市场的管理人员?报告都应包含下面的主要信息:
原始业务问题的全面说明。
用于执行数据挖掘的流程。
工程的成本。
与原始工程计划之间的偏差的记录。
数据挖掘结果的汇总信息,包含模型和发现的问题。
所提议的部署计划概况。
数据挖掘工作的进一步建议,包括在数据探索和建模阶段发现的信息。
3、决策树算法简介
决策树是一种通过图示罗列解题的有关步骤,以及各步骤发生的条件与结果的一种方法。
在机器学习中,决策树是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的是某个可能的属性值,而每个叶子节点则对应从根节点到叶子节点所经历的路径表示的对象值。在数据挖掘中决策树是一种经常要使用到的技术,可以用于分析数据,同样也可以用来进行预测。
决策树方法最早产生于20世纪60年代至70年代末,由John J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。
决策树算法的原理
决策树算法是在进行数据挖掘时经常使用的分类和预测方法。
一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支 。决策树算法的基本原理为:通过算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照算法规则分类,直到数据无法再分类为止。
模型定义
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率、评价项目风险、判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
决策树一般由方块节点、圆形节点、方案枝、概率枝等组成,方块节点又称为决策节点,由节点引出若干条细枝,每条细枝代表一个方案,称为方案枝;圆形节点又称为状态节点,由状态节点引出若干条细枝,表示不同的自然状态,称为概率枝。每条概率枝代表一种自然状态。在每条细枝上标明客观状态的内容和其出现概率。在概率枝的最末稍标明该方案在该自然状态下所达到的结果(收益值或损失值)。这种树形图由左向右、由简到繁展开,组成一个树状网络图。
决策树经常在运筹学中使用,特别是在决策分析中,它帮助确定一个最可能达到目标的策略。
决策树算法的优点:
决策树易于理解和实现,人们在学习过程中不需要使用者了解很多的背景知识,使它能够直接体现数据的特点,只要解释后都有能力去理解决策树所表达的意义。
对于决策树,数据的准备往往是简单或者是不必要的,而且能够同时处理数据型和常规型属性,在相对短的时间内能够针对大型数据源做出可行且效果良好的结果。
易于通过静态测试来对模型进行评测,可以测定模型可信度。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。
决策树之CHAID算法
CHAID算法,它是由 Kass在1975年提出的,全称是卡方自动交叉检验(Chi-squaredAutomatic Interaction Detector),从名称可以看出,它的核心是卡方检验,那么我们先来了解下什么是卡方检验。
卡方检验只针对分类变量,它是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,偏离程度越大;卡方值越小,偏差越小,若两个值完全相等时,卡方值就为 0,表明理论值完全符合。
4、建立银行用户挖掘模型
1、读取数据库数据
IBM SPSS Modeler 中需要根据数据档案格式,来选择不同的源节点读取数据。我们使用的是MySQL数据库,因此我们将使用数据库源节点。在节点设定方面,我们读入“bank-full”表。
在“类型”选项下可以设置变量角色,在“注解”选项下可以设置节点名称等。
2、数据字段预分析
一般来说,业务相关数据及电话营销数据对我们预测相当重要,而客户的基本数据有时候并不重要,例如性别。但在此,年龄、工作、教育对一个人的收入等级连带的定存意愿可能有关联,所以进一步的分析是必要的。
在模型建置前,首先要了解数据的组成。通过数据审核节点中简单的图表及统计数据,我们可以察觉数据的异常、极端值。以年龄字段为例,我们可以通过最大、最小及平均值,来观察有无异常分布。年龄18~95岁及平均40岁属于正常分布,所以不需要做特殊处理。其它字段可以通过同样方式检视,以增加对客户数据的了解。
接下来我们选择几个代表性的字段来分析电话营销结果在数据字段间的分布。以客户职业为例,由图可发现,学生、退休人员,及公司主管对定存产品的接受度较高。同时,我们也意外发现,失业者的定存接受度也相当高。而这些发现仍需再进一步的研究,才可解释其原因。但在此,将不多作探讨。
以年龄的分布来说,超过60岁的客户普遍对定存产品的接受度较高,因此,可以做为打电话的参考依据。然而,以单一面相来决定结果并非最理想,我们仍需要找寻跟其它字段的关联性。
在业务数据上,许多字段是连续类型的测量级别(Continuous),通过直方图,我们可以发现,银行最后一次致电客户的时间、客户接电话的次数都会影响结果。这些字段都是建立预测模型的重要参考依据。
IBM SPSS Modeler 也提供了网状图让我们了解字段间的关联。例如由打电话的月份这个字段,我们可以通过网状图评估月份对成功率的影响。
3、数据类型定义
为了产生决策树模型,我们需要在数据建模前就定义好各字段的角色,也就是加入字段选项下的「类型」节点。将类型节点拉入流后,我们会先点选读取值按钮,接着设定角色。在本案例中,字段 y 是我们最后预测的目标,因此先将其角色设定为“目标”,余下的字段则是要设定为“输入”。
4、数据分区
通常,在训练有监督的机器学习模型的时候,会将数据划分为训练数据和测试数据,是为了能够选出效果(可以理解为准确率)最好的、泛化能力最佳的模型。
a) 训练数据:训练数据是用来学习模型的。训练数据的质量对生成一个成功的机器学习模型来说至关重要,理想的训练数据应该是多样化并尽可能与模型需要用到的特性相关的。
b) 测试数据:用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合。
c)验证数据。可选,用于辅助模型构建,可以重复使用。
5、决策树节点设定
双击“建模”选项卡上的 CHAID节点图标,CHAID节点就会添加到模型中,并且对节点进行编辑设置。CHAID或卡方自动交互效应检测是一种通过使用卡方统计量识别最优分割来构建决策树的分类方法。CHAID首先检查每个输入字段和结果之间的交叉表,然后使用卡方独立性检验来检验显著性。如果以上多个关系具有显著的统计意义,那么CHAID将选择最重要(p值最小)的输入字段。如果输入具有两个以上的类别,那么将会对这些类别进行比较,然后将结果中未显示出差异的类别合并在一起。此操作通过将显示的显著性差异最低的类别对相继合并在一起来实现。当所有剩余类别在指定的检验级别上存在差异时,此类别合并过程将终止。对于名义输入字段,可以合并任何类别;对于有序集合,只能合并相邻的类别。
6、生成决策树模型
决策树节点设置好以后,需要基于我们的银行营销数据生成决策树模型,具体步骤如下:
步骤1:运行数据流中的CHAID模型节点。
步骤2:将生成的CHAID模型添加数据流中。
步骤3:由于我们加入了分区节点将数据分成训练数据与测试数据,因此在决策树模型产生后,可加入“分析”节点(“输出”选项下)
5、运行及结果分析
1、运行方式
生成决策树模型后,我们需要进一步查看模型的具体参数,从而以判断模型的优劣,运行方式主要有以下两种:
方式1:双击“数据流设计区”中生成的CHAID模型节点,如图所示。
方式2:右击“管理区”“模型”选项卡中的CHAID模型,选择“查看”,如图所示。
2、分析结果
决策树节点设定完成后,点击主工具列的运行当前流前即可看到决策树模型的产生。双击决策树模型则可看到模型结果,我们最主要要观察的是模型标签及查看器标签下的内容。
“模型”选项如图所示,左边使用文字树状展开,表现每一阶层的分类状况及目标变数的模式;右边则是整体模型预测变量的重要性比较。我们也将会根据变量重要性调整模型设定、变量选择,持续的训练出更好的模型。
6、模型应用
由本次分析的结果看来,电话营销中有适当的与客户的谈话时间(>1000秒),及上次电话营销的成功率将会影响到本次电话营销的结果。电话营销的谈话时间需要进一步的检视 与客户对 谈的实 际内容,以设计吸引客户的话题。从campaign(打电话)次数来看,打给客户推销的次数越多,销售的效果越差。
公司在进行电话营销行动前也可以事先筛选客户,例如大于60岁或从事某一些职业(学生、退休、主管等) 的客户设定为优先考虑。再来筛选财务状况。将基本的条件筛选完毕后,电话营销结果就会跟谈话的质量有关系。