实际工作中,数据集很少是完整的,许多情况下样本中都会包括若干缺失值NA,这在进行数据分析和挖掘时比较麻烦。
R语言通过na.fail和na.omit可以很好地处理样本中的缺失值
1、na.fail(<向量a>): 如果向量a内包括至少1个NA,则返回错误;如果不包括任何NA,则返回原有向量a
2、na.omit(<向量a>): 返回删除NA后的向量a
3、attr( na.omit(<向量a>) ,”na.action”): 返回向量a中元素为NA的下标
4、is.na:判断向量内的元素是否为NA
example:
1
2
3
4
5
6
7
8
9
10
11
12
|
data<-c(1,2,NA,2,4,2,10,NA,9)
data.na.omit<-na.omit(data)
data.na.omit
[1] 1 2 2 4 2 10 9
attr(, "na.action" )
[1] 3 8
attr(, "class" )
[1] "omit"
attr(data.na.omit, "na.action" )
[1] 3 8
attr(, "class" )
[1] "omit"
|
另外还可以使用!x方式方便地删除NA。
例如:
1
2
3
|
a<-c(1,2,3,NA,NA,2,NA,5)
a[!is.na(a)]
[1] 1 2 3 2 5
|
其中,is.na用于判断向量内的元素是否为NA,返回结果:c(FALSE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE,FALSE),即a内元素为NA,其对应的下标元素是TRUE,反之是FALSE。
!x是取非逻辑运算符,!is.na(a)表示a内元素不为NA,其对应的下标元素是TRUE,反之是FALSE。
通过a[!is.na(a)]进行索引后,即可取出a内不为NA的元素,将其过滤。
其中,函数na.fail和 na.omit 不仅可以应用于向量,也可以应用于矩阵和数据框。
example:
1
2
3
4
5
6
7
8
9
10
11
12
|
data <- read .table(text="
a b c d e f
NA 1 1 1 1 1
1 NA 1 1 1 1
1 1 NA 1 1 1
1 1 1 NA 1 1
1 1 1 1 NA 1
1 1 1 1 1 NA",header=T)
na.omit(data)
data
>[1] a b c d e f
<0 行> (或0-长度的row.names)
|
补充:R语言移除缺失值 NA.RM
看代码~
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
|
> a <- 2:12
> b <- seq (2,23,2)
> c <- c(1:11)^3
> d <- c(5:8, 30:36)
> df <- data.frame(a,b,c,d)
> df $a[ df $a==8] <- NA
> df $b[ df $b==8] <- NA
> df $c[ df $c==8] <- NA
> df $d[ df $d==8] <- NA
> df $d[ df $d==32] <- NA
> df
a b c d
1 2 2 1 5
2 3 4 NA 6
3 4 6 27 7
4 5 NA 64 NA
5 6 10 125 30
6 7 12 216 31
7 NA 14 343 NA
8 9 16 512 33
9 10 18 729 34
10 11 20 1000 35
11 12 22 1331 36
// 只根据第四列,也就是d 的 NA,移除相应的行
> bad.d <- is.na( df $d)
> bad.d
[1] FALSE FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE
> df [!bad.d,]
a b c d
1 2 2 1 5
2 3 4 NA 6
3 4 6 27 7
5 6 10 125 30
6 7 12 216 31
8 9 16 512 33
9 10 18 729 34
10 11 20 1000 35
11 12 22 1331 36
// 根据第二列和第三列的NA 移除相应的行
> df [complete.cases( df [,2:3]),]
a b c d
1 2 2 1 5
3 4 6 27 7
5 6 10 125 30
6 7 12 216 31
7 NA 14 343 NA
8 9 16 512 33
9 10 18 729 34
10 11 20 1000 35
11 12 22 1331 36
// 根据第二列和 第四列的NA,移除相应的行
> df [complete.cases( df [,c(2,4)]),]
a b c d
1 2 2 1 5
2 3 4 NA 6
3 4 6 27 7
5 6 10 125 30
6 7 12 216 31
8 9 16 512 33
9 10 18 729 34
10 11 20 1000 35
11 12 22 1331 36
// 根据所有列的NA,移除相应的行
> df [complete.cases( df ),]
a b c d
1 2 2 1 5
3 4 6 27 7
5 6 10 125 30
6 7 12 216 31
8 9 16 512 33
9 10 18 729 34
10 11 20 1000 35
11 12 22 1331 36
>
// 这个效果跟上面的 df [complete.cases( df ),] 相同
> na.omit( df )
a b c d
1 2 2 1 5
3 4 6 27 7
5 6 10 125 30
6 7 12 216 31
8 9 16 512 33
9 10 18 729 34
10 11 20 1000 35
11 12 22 1331 36
// 计算某一列的平均值, 移除NA值
> mean( df $d, na. rm =TRUE)
|
以上为个人经验,希望能给大家一个参考,也希望大家多多支持服务器之家。如有错误或未考虑完全的地方,望不吝赐教。
原文链接:https://blog.csdn.net/SThranduil/article/details/71710283