斯皮尔曼相关系数(Rank IC)可用于特征降维,如两个特征的斯皮尔曼相关系数值很高,则可删除其中一个特征。
斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient),通常用希腊字母
ρ
\rho
ρ(rho)表示,是一个衡量两个变量之间单调相关性的统计量
。
与皮尔逊相关系数不同,斯皮尔曼相关系数是基于数据的等级而非实际数值
。
这意味着它更适合于非参数数据或当数据的分布未知时使用。
计算公式
斯皮尔曼相关系数的公式可以表示为:
ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)} ρ=1−n(n2−1)6∑di2
其中:
-
d
i
d_i
di 是第
i
i
i 对观测值中,变量
X
X
X 和
Y
Y
Y 的
等级之差的绝对值。
-
n
n
n 是
观测值的总数。
对公式的每个字符进行解释:
- ρ \rho ρ:斯皮尔曼等级相关系数。
- d i d_i di:第 i i i 对观测值中 X X X 和 Y Y Y 的等级之差的平方。
- ∑ \sum ∑:求和符号,表示对所有观测值 i i i 从 1 到 n n n 进行求和。
- n n n:观测值的总数。
- n ( n 2 − 1 ) n(n^2 - 1) n(n2−1):这是斯皮尔曼相关系数分母的组成部分,确保了相关系数的值在 [ − 1 , 1 ] [-1, 1] [−1,1] 的范围内。
解释
- 当
ρ
=
1
\rho = 1
ρ=1 时,表示两个变量
完全正相关
,即等级差为0,意味着每当一个变量增加时,另一个变量也按同样的顺序增加。 - 当
ρ
=
−
1
\rho = -1
ρ=−1 时,表示两个变量
完全负相关
,等级差同样为0,但是增加和减少的顺序相反。 - 当
ρ
=
0
\rho = 0
ρ=0 时,表示
没有单调相关性
,即等级差的平方和相对于 n ( n 2 − 1 ) n(n^2 - 1) n(n2−1) 较大,表明等级差是随机的,没有特定的模式。
斯皮尔曼相关系数在金融、生物学、社会科学等领域中广泛使用,特别是在数据可能是有序分类或有异常值的情况下
,因为它只关注变量之间的相对顺序,而不是它们的实际数值大小。
这种属性使斯皮尔曼相关系数在分析非线性关系或数据集包含异常值
时尤其有用。