皮尔森相关系数公式
文字描述:相关性系数(Px,y)等于X,Y之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)
1. 先解释分子,为什么用协方差?
因为我们想要研究的两组数据的相关性,两个组数据如果相关的的话,要满足的最基本的条件:变化趋势相似(例如正相关或负相关)
而协方差就可以告诉我们这一点,协方差的公式为:
文字描述为:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值
如果X,Y的变化趋势是有规律的话,例如正相关,那么在X低于均值的时候,Y大概率也会低于均值;X高于均值的时候,Y大概率也会高于均值,所以两者相乘后的乘积大概率是正数(大量正数+少量负数),所以数学期望的话也是个正数,所以最后正相关的符号是正的
例如负相关,那么在X低于均值的时候,Y大概率也会高于均值;X高于均值的时候,Y大概率也会低于均值,所以两者相乘后的乘积大概率是负数,所以数学期望的话也是个负数(大量负数+少量正数),所以最后负相关的符号是负的
如果X,Y的变化趋势是没有规律的,在X低于均值的时候,Y可能低于均值也可能高于均值,所以他们乘后,有一部分乘积的结果为正,一部分为负,所以求数学期望的时候相互抵消了(正数和负数的数量相当),所以最后不相关的数据结果会很接近0;
2. 接下来解释分母,为什么用标准差的乘积
协方差除以标准差其实就是做一个归一化的操作,他的意义在于:消除量纲的影响,单纯反应两个变量每单位变化时的相似程度
为什么量纲会有影响呢?例如下图中,情况一和情况二的红线曲线变化幅度看起来差很多,但是实际上,两根红线的差别只是在于单位差了10000倍,但是绿线的变化对他们的影响其实是一样的,当绿线在最低峰的时候,红线也在最低峰;当绿线在最高峰的时候,红线也在最高峰;两种情况的相关性应当是一样的(相关系数只关注红线和绿线之间互相影响的程度)
如果只考虑协方差的话,情况一的协方差会比情况二大很多,我们想要研究的是变化幅度,不希望量纲的不同会造成对结果的影响,因此需要一个东西来消除量纲的影响
哪为什么标准差可以用来消除量纲的影响呢?
标准差的公式为
文字描述:求出某一个样本和均值的偏差,因为偏差可能为正也可能为负,所以平方一下,然后把所以偏差的平方都加起来得到偏差平方的数学期望,然后再开方把偏差拉回原来的量级
(其实平方是为了解决正负号的问题,如果一组偏差很大的数据,一时为很大的正数,一时为很大的负数,两个直接相加的话,偏差的期望就会变成0,就变成了这组数据没有偏差,这是我们不希望看到的,所以需要加上平方。而开方是为了消除平方的影响,把偏差的数学期望拉回原来的量级)
所以标准差表示的就是一组数据内部的偏离程度,也可以理解为变化幅度。这个变化幅度可能很大,也可能很小。
现在我们希望相关系数这个指标,能够消除量纲的影响,而量纲和变化幅度的意义其实是一样的。
例如,情况一中,X的单位是1千克,Y的单位是1元,Y每增加1元,X就增加1千克
情况二中,X的单位是0.1克,Y的单位是1元,Y每增加1元,X就增加0.1克
两个X的单位相差10000倍,导致他们的变化幅度也是相差10000倍(分别为1千克/元与0.1克/元)
因此协方差除以标准差的话,就变成了单位变化时的协方差,消除了量纲的影响(也可以说是消除了变化幅度的影响)
总结
以上就是皮尔森相关系数公式的理解,简单地总结就是:
- 分子的协方差用来得到相关性
- 分母的标准差用来消除量纲(或变化幅度)的影响
公式和图例来源,这篇文章讲得很好:如何通俗易懂地解释「协方差」与「相关系数」的概念?