文件名称:属性约简-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:22
RapidMiner
(2)约简数据 数据挖掘可能会是一项令人困惑且异常艰巨的工作,尤其是在数据集非常大时。 但如 果我们管理好数据,就不一定会如此。 前面的示例展示了如何过滤掉属性中包含不需要的 数据(或缺失的数据)的观察项,但我们还可以约简数据,以便使用较小的数据子集测试数 据挖掘模型。 这不仅可以大幅缩短处理时间,而且还可以测试模型是否能够解答我们的问 题。 (3)处理不一致的数据 不一致的数据不同于缺失的数据。 不一致的数据发生在值确实存在的时候,但值是无 效或无意义的。如:性别属性的值被填写成一个不合乎情理的其他数字。 (4)属性约简 属性约简又称维规约或特征选择,从数学的角度考虑,就是有 p 维数据 x,通过某种方法, 得到新的数据 x’(x‘的维数小于等于 p)。新的数据在某种评判标准下, 大限度地保留原 始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除 冗余和不相关属性对计算过程和 终结果造成的影响。 7.5.3 操作实现 第一步:数据的导入 在 Repository(资源库)栏“Add DATA”加载数据,这里我们使用的数据文件是“数据 准备.csv”文件,指向文件的存储路径后,会让你确定数据文件的分割符,如“,”“;”及空 格等(如图 7.8)。接下来是约定每一列数据的格式,例如是“polynominal”多值属性、 “binominal”二值属性等等(如图 7.9),RapidMiner 会自动帮我们选定,我们也能手动修 改。数据加载后,存入“Local Repository”本地资源目录的“data”文件夹下,方便以后查 找,将数据用鼠标拖放到“Process”窗口下,以备下一步使用(图 7.10)。