数据清理中,处理缺失值的方法有两种:
删除法:
1
)删除观察样本
2
)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除
3
)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析
4
)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差
查补法:均值插补、回归插补、抽样填补等
缺失值处理的传统方法
列删法
由于删除了非缺失信息,损失了样本量,进而削弱了统计功效。但是,当样本量很大而缺失值所占样本比例较少时(<5%)可以考虑使用列删法。
对删法
在计算相关矩阵时,用所有可获得的数据计算,不管是否存在缺失值。由于计算每对相关系数基于差异较大的样本,所以存在协方差矩阵非正定的风险。
均值替代法
使用每个变量的均值去填补该变量的缺失值。最不为方法学者推荐。
回归法
根据变量间的相关,利用其他变量的信息通过建立回归方式去推算缺失值。。
相似反应类型插补法
通过从有类似反应模式的个体得分中获得一个数值填补缺失值。偏差要比列删法和对删法要小。
平均同质项目法
假设个体在某一因子的某些条目上存在缺失值,通过平均其他几个条目得分来填补缺失值。