文件名称:缺失值产生的原因-tinyxml指南[中文]
文件大小:6.46MB
文件格式:PDF
更新时间:2024-07-04 16:39:17
RapidMiner
6.1 数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据 挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁。 数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要 求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据包括: 缺失值 异常值 不一致的值 重复数据及含有特殊符号(如#、¥、*)的数据 本小节将主要对数据中的缺失值、异常值和一致性进行分析。 6.1.1 缺失值分析 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果 的不准确,以下从缺失值产生的原因及影响等方面展开分析。 (1) 缺失值产生的原因 1) 有些信息暂时无法获取,或者获取信息的代价太大。 2) 有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误 等一些人为因素而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的