文件名称:基于聚类分析的方法-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:20
RapidMiner
(3) 基于聚类分析的方法 一维聚类的方法包括两个步骤,首先将连续属性的值用聚类算法(如 K-Means 算法) 进行聚类,然后再将聚类得到的簇进行处理,合并到一个簇的连续属性值做同一标记。聚类 分析的离散化方法也需要用户指定簇的个数,从而决定产生的区间数。 7.3.4 属性构造 在数据挖掘的过程中,为了帮助提取更有用的信息、挖掘更深层次的模式,提高挖掘结 果的精度,需要利用已有的属性集构造出新的属性,并加入到现有的属性集合中。 比如进行防窃漏电诊断建模时,已有的属性包括供入电量、供出电量(线路上各大用户 用电量之和)。理论上供入电量和供出电量应该是相等的,但是由于在传输过程中存在电能 损耗,使得供入电量略大于供出电量,如果该条线路上的一个或多个大用户存在窃漏电行为, 会使得供入电量明显大于供出电量。反过来,为了判断是否有大用户存在窃漏电行为,可以 构造出一个新的指标--线损率,该过程就是构造属性。新构造的属性线损率按如下公式计算: 100% 供入电量-供出电量 线损率= 供入电量 ………………………(7-8)