文件名称:数据清洗及属性规约流程-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:54
RapidMiner
图 20.5 丢弃票价为空的记录 图 20.6 过滤异常值记录 图 20.7 数据清洗及属性规约流程 2. 属性规约 原始数据中属性太多,根据航空公司客户价值 LRFMC 模型,选择与 LRFMC 指标相关 的 六 个 属 性 : FFP_DATE 、 LOAD_TIME 、 FLIGHT_COUNT 、 AVG_DISCOUNT 、 SEG_KM_SUM、LAST_TO_END。删除与其不相关、弱相关或冗余的属性,例如:会员卡 号、性别、工作地城市、工作地所在省份、工作地所在国家、年龄等属性。经过属性选择后 的数据集,如表 20-5 所示。 表 20-5 属性选择后的数据集 LOAD_TIME FFP_DATE LAST_TO_END FLIGHT_COUNT SEG_KM_SUM AVG_DISCOUNT 2014/3/31 2013/3/16 23 14 126850 1.02 2014/3/31 2012/6/26 6 65 184730 0.76