【文件属性】:
文件名称:离群点的类型-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2021-06-14 22:53:09
RapidMiner
1.1 离群点检测
就餐饮企业而言,经常会碰到这样的问题:
1) 如何根据客户的消费记录检测是否为异常刷卡消费?
2) 如何检测是否有异常订单?
这一类异常问题可以通过离群点检测解决。
离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的
对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的
数据可能蕴含着更大的研究价值。
在数据的散布图中,如图 18-1 离群点远离其它数据点。因为离群点的属性值明显偏离
期望的或常见的属性值,所以离群点检测也称偏差检测。
图 18-1 离群点检测示意图
离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务中、网络
入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动
员。
(1) 离群点的成因
离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。
(2) 离群点的类型
对离群点的大致分类见表 18-1: