使用excel进行数据挖掘(4)---- 突出显示异常值
在配置环境后,可以使用excel进行数据挖掘。
环境配置问题可参阅:
http://blog.csdn.net/xinxing__8185/article/details/46445435
样例 DMAddins_SampleData.xlsx
文件下载地址:http://download.csdn.net/detail/xinxing__8185/8780481
在数据表中,选择table analysis tools sample表,该表中是用户的信息统计,包括婚姻状况,性别,收入,子女,教育程度,职业,是否有房子,汽车数量,居住区域,年龄,是否已购自行车等。
将鼠标点击表格中的数据,选项卡会多出一个
在一组平行测定所得到的分析数据中,有时会出现个别测定值与其他数据相差较远,这些数据称为离群值或逸出值(Qutlier).分析离群值有许多统计学方法。
从表面上看,离群值就是非常大和非常小的值,这些值可能是因为误差带来的,也可能不是误差,但是因为这些数据很少,不具有代表性,所以就将其删掉,以免影响后面的数据挖掘。
下面,将使用突出显示异常值功能对数据进行一个分析举例:
点击突出显示异常值,出现以下对话框:
选择需要分析的列,产生以下报表:
从结果中看,对于异常值的检测并不是孤立的,而是综合各个列间的数据因素。