Correlated 仅指存在线性关系。二次方关系不是 correlated。
Uncorrelated 指不存在线性关系,但可能有别的关系,比如说二次方等等。
这就是为什么 uncorrelated 不意味着 independence.
也即,dependent variables 不一定 correlated.
但是所有的 independent variables 都一定是 uncorrelated.
我们学当 Covariance = 0, 意思是 uncorrelated
Correlated 是指相关性,相关性是指线性相关性就是两个变量有没有线性关系。你的其他的关系,他是他是不管的。
另外这个 correlation coefficient 就是算出来那个系数,它实际上是standardized covariance,所以你 covariance 要等于0的话,你的 correlation 应该是等于0的。
Correlation Coefficient 和 Covariance 的区别
它们两个之间的区别是什么?
区别就是 correlation 是在 -1到+1之间。它是有区间的。
那个 covariance 可以是从-∞到+∞。
为什么要standardize这个 covariance 呢?
对协方差 covariance 进行标准化的原因主要是因为协方差的值会受到变量单位和量级的影响,这使得其值难以直观解释。标准化协方差(也称为相关系数 correlation coefficient)通过将协方差除以两个变量的标准差来消除这种影响,从而使得结果更容易解释和比较。标准化后的协方差(相关系数)的值介于-1和1之间,其中-1表示完全的负线性关系,1表示完全的正线性关系,0表示没有线性关系。
比如说,你有两个variable X跟Y,比如说它们两个的 covariance 是等于是等于27。
然后呢,你的有另外两个variable,比如说是A跟B,它们两个的 covariance 是127。
虽然A跟B的 covariance 要比X跟Y的 covariance 要大,但你不能说明A跟B的相关性要比X跟Y的相关性大。
但是correlation就能说明你比如说A跟B的,它的correlation coefficient 的是0.9,你的那个X跟Y的 correlation coefficient 是0.5。哦,那么你是可以说明A跟B的这个线性相关性,要比X跟Y的这个相关性要高,它是可以比较的。
为什么 covariance 是没有办法比较的呢?因为Covariance 是跟那个数值的单位是有关系的,比如说你的X跟Y,它的它的单位是是米,然后,你算它的 covariance 上,它得一个值。
然后,你假如说把它换算成多少厘米,就增加了100倍,你的 covariance 也会增加100倍。
所以,它是依赖于数值单位的,这个就没有办法比较了。就关键是你的衡量那个单位是不一样啊,你X跟Y的衡量的单位有可能是X跟Y是公斤,你的A跟B是厘米,你这个没法比较。
不要问AI关于这些概念的比较,它说的是错的!
Covariance is defined as the expected value of variations of two variables from their expected values. More simply, covariance measures how much variables change together.
Correlation is the standardized form of covariance by dividing the covariance with SD of each variable under normal distribution assumption. Generally, we use ‘r’ as sample correlation coefficient and ‘ρ’ as population correlation coefficient.
Statistical notes for clinical researchers: covariance and correlation:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5816993/