【文件属性】:
文件名称:数据清洗及属性规约流程-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2021-06-14 22:53:14
RapidMiner
图 20.5 丢弃票价为空的记录
图 20.6 过滤异常值记录
图 20.7 数据清洗及属性规约流程
2. 属性规约
原始数据中属性太多,根据航空公司客户价值 LRFMC 模型,选择与 LRFMC 指标相关
的 六 个 属 性 : FFP_DATE 、 LOAD_TIME 、 FLIGHT_COUNT 、 AVG_DISCOUNT 、
SEG_KM_SUM、LAST_TO_END。删除与其不相关、弱相关或冗余的属性,例如:会员卡
号、性别、工作地城市、工作地所在省份、工作地所在国家、年龄等属性。经过属性选择后
的数据集,如表 20-5 所示。
表 20-5 属性选择后的数据集
LOAD_TIME FFP_DATE LAST_TO_END FLIGHT_COUNT SEG_KM_SUM AVG_DISCOUNT
2014/3/31 2013/3/16 23 14 126850 1.02
2014/3/31 2012/6/26 6 65 184730 0.76