文件名称:离群点的类型-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:49
RapidMiner
1.1 离群点检测 就餐饮企业而言,经常会碰到这样的问题: 1) 如何根据客户的消费记录检测是否为异常刷卡消费? 2) 如何检测是否有异常订单? 这一类异常问题可以通过离群点检测解决。 离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的 对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的 数据可能蕴含着更大的研究价值。 在数据的散布图中,如图 18-1 离群点远离其它数据点。因为离群点的属性值明显偏离 期望的或常见的属性值,所以离群点检测也称偏差检测。 图 18-1 离群点检测示意图 离群点检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务中、网络 入侵、天气预报等领域,如可以利用离群点检测分析运动员的统计数据,以发现异常的运动 员。 (1) 离群点的成因 离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和收集误差。 (2) 离群点的类型 对离群点的大致分类见表 18-1: