文件名称:数据规约-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:21
RapidMiner
7.4 数据规约 在大数据集上进行复杂的数据分析和挖掘将需要很长的时间,数据规约可以产生更小的 但保持原数据完整性的新数据集。在规约后的数据集上进行分析和挖掘将更有效率。 数据规约的意义在于: 降低无效、错误数据对建模的影响,提高建模的准确性 少量且具代表性的数据将大幅缩减数据挖掘所需的时间 降低储存数据的成本 7.4.1 属性规约 属性规约通过属性合并创建新属性维数,或者直接通过删除不相关的属性(维)来减少 数据维数,从而提高数据挖掘的效率、降低计算成本。属性规约的目标是寻找出 小的属性 子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。属性规约常用方法见 表 7‐3。 表 7‐3属性规约常用方法 属性规约 方法 方法描述 方法解析 合并属性 将一些旧属性合为新属性 初始属性集: 1 2 3 4 1 2 3{A ,A ,A ,A , , , ,C}B B B 1 2 3 4 1 2 3 {A ,A ,A ,A } A; { , , } B.B B B 规约后属性集:{ , , }A B C 逐步向前 选择 从一个空属性集开始,每次从原 来属性集合中选择一个当前 优的属性添加到当前属性子集 中。直到无法选择出 优属性或 满足一定阈值约束为止。 初始属性集: 1 2 3 4 5 6{A ,A ,A ,A ,A ,A } 1 1 4{} {A } {A ,A } 规约后属性集: 1 4 6{A ,A ,A } 逐步向后 删除 从一个全属性集开始,每次从当 前属性子集中选择一个当前 差的属性并将其从当前属性子 集中消去。直到无法选择出 差 属性为止或满足一定阈值约束 为止。 初始属性集: 1 2 3 4 5 6{A ,A ,A ,A ,A ,A } 1 3 4 5 6 1 4 5 6{A ,A ,A ,A ,A } {A ,A ,A ,A } 规约后属性集: 1 4 6{A ,A ,A }