在之前的系列中,介绍了如何导入数据源,不论是excel文件还是其它的数据源,都可以作为我们的数据来源来导入,那么,本文就根据之前导入的数据在sql server 建立决策树模型,并且对测试数据进行结果预测,原理部分,请参看其他博文,和前面一样,仍然采用截图的方式来描述过程。
在"BI"里面建立一个决策树项目,在”视图“选项下打开”解决方案资源管理器“,打开后,如图所示:
然后,新建数据源:
由于之前已经导入了数据到ML_DM数据库,因此,这里默认选择即可,如果是其他数据库,且未导入,则选择”新建“,进行数据库的导入即可。进入下一步:
这样便完成了数据源的建立。
接下来定义数据源视图,需要两个数据源视图,一个一个来完成,首先先建立训练数据源视图:
这样训练数据源视图就定义好了,如图:
用同样的方法,定义测试数据源视图,定义完成后,如下图所示:
接下来建立挖掘结构:
注意,这里选择”主键“,和输入变量,由于我们所建立的是关于用户是否购买电脑,因此把这个字段设为要预测的,而其他的字段作为输入。
注意,在这里,由于我们有测试数据,因此这里的数据全部作为训练数据,因此选择测试数据的百分比为0
选择挖掘模型,设置算法参数:
注意,这里参数选择可以自行设置,可以”经验性的“进行调参,关于参数描述,可以看这个网址:https://technet.microsoft.com/zh-cn/library/cc645868(v=sql.105).aspx/html
这里稍微解释下:由于数据量比较小,因此把"COMPLEXITY_PENALTY"设定为0.01,如果这个参数值过大,则不会拆分结点,导致无法建立决策树;将"MINIMUM_SUPPORT"设定为2,因为这里的叶子结点中最少的事件数为2,即”买电脑“或者”不买电脑“两种类别。将”SCORE_METHOD“参数值设为1,表示采用信息熵作为属性选择的启发信息。
接下来进行部署:
点击浏览
接下来,进行预测:
单击”挖掘模型预测“选项,选择事例表:
设置"class_buy_computer"字段为模型,进行预测。
现在进入最后一步,在任意空白处右击并在下拉菜单中选择”结果“选项,出现如下图所示的分类结果:
这样便对我们测试数据中的数据进行了结果的预测。这便是决策树模型的建立与模型预测过程。关于模型的预测过程,其他模型的过程一样,在后面,我会介绍关于贝叶斯模型的建立过程。