【通俗理解】协方差

时间:2022-10-12 22:32:37
The “covariance” of 2 features, e.g. feature i and feature j measures: (Select all that apply)
A. How much the 2 features vary in the same direction.
B. The average ratio of feature i and feature j.
C. The sum of deviations of feature i and feature j.
D. The deviation of feature i multiplied by the deviation of feature j, summed over all data points.

【通俗理解】协方差

上面是一道通信公司招聘笔试题。由协方差的公式(及其变形)不难选出正确答案(给公众号发送“协方差”获得答案)。希望通过此题,让大家熟悉一下一些概念:均值/期望,方差,协方差,相关系数。

基本概念科普

期望方差等被称作统计变量的数字特征。我们知道,概率密度函数可以完全描述一个统计变量的特性。正如一个用一个照片来描述一个人的长相一样。概率密度函数可能是个复杂的函数。有时候我们希望一个数字来得到这个随机变量的一些信息。比如用一个分数来描述一个人长相^_^。最基本的就是均值/期望和方差了,还有各种高阶矩阵。

描述两个随机变量的关系,我们有联合概率密度。同样地,我们可以用简单的一个数字来刻画这两个随机变量的一些关系。最常用的是协方差相关系数。看公式知道,相关系数就是归一化的协方差。



【通俗理解】协方差



根据上面协方差公式(上面分数的分子部分),两个变量同时大于均值或小于均值时,加分,否则减分。加减分数由当前观察值和均值的差决定。这就刻画了两个随机变量在多大程度上共同朝大于/小于均值方向波动。可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。我变大时你有时候变大有时候变小,期望里面的乘积项就有正有负,征服抵消就使期望趋于零。

再看相关系数的公式,知道其取值范围是{-1,+1}。因为表达式的分子分母正好是柯西-施瓦兹不等式的两边。柯西-施瓦兹公式有很多种形式,可以笼统表达为两个信号的内积小于或等于它们各自的能量之积。


通信中方差的物理意义

方差,在通信中有更直观的物理意义:噪声功率。在高斯白噪声信道中,发送信号x,接收信号y=x+n。n表示噪声,来自于元器件热噪声或无线信道的各种随机干扰,是高斯的 (WHY?)。y-x则是均值为零,方差为 sigma^2 的一个随机变量。方差就是噪声功率,表示噪声的强度。

【通俗理解】协方差

假设发送的x取值为+1或-1。如果没有噪声存在,接收到的y也是+1或-1,可以百分之百得到x。在高斯噪声的影响下,发送x=1时接收到的是一个均值为1,方差为 sigma^2 的随机变量。-1时同理,如上图所示。直观都能得到最优判决阈值是0点,错误概率是发送1/0接收到0/1的情况。噪声方差越大,上图的高斯曲线越胖,错误率就越高。


通信中的相关应用

相关E(XY),协方差E(XY)-E(X)E(Y),在公式上差一个均值乘积项。我们这里讨论更简单的相关。相关,在通信中应用是最普遍的。具体又有自相关和互相关,表示和自身求相关或两个变量求相关。

扩频通信的例子

比如有一个简单的通信系统,码本里有80个伪随机码,每个伪随机码表示一个字母或标点符号。伪随机码形式为{+1,+1,-1,+1,-1,...,-1}。发送端发送80个伪随机码中的一个X_i,在传输过程中,一些比特被污染,接收到的版本Y和发送X_i 的不同。如何判定发送的是哪个?

接收端采用计算相关的办法,对80个伪随机码里面的每一个 X_j 和Y做相关运算,求E(XY),得到的最大的判断为发送信号。很明显,如果Y就是某个X_i,则E(XY)=1,否则随着随机码长度增加趋于0,因为E(X_iX_j)=0。


上面是一个数字信号的例子。在模拟信号中,计算相关进行信号检测被称作匹配滤波器,或被称作rake接收机。假设发送信号x,接收到的信号y即使经过信道经过了畸变和噪声,但和x仍然是强相关的。

最起码有两类应用:1) 收到一段时间y信号,如果x出现一次,求在这段时间的哪个时刻出现;2) 收到一段y,发送的信号可能是x_1, x_2, ..., x_n,哪个最有可能。

实际通信系统中,匹配滤波无处不在。GPS系统中,几十颗卫星发送不同的伪随机码,GPS终端需要根据信号到达时间和卫星坐标来计算自己的位置。发现信号以及确定时间就用的是匹配滤波器。3G通信系统CDMA,使用扩频码把发送信号的能量散步在整个带宽上,其功率甚至低于噪声,也是用匹配滤波来发现信号。4G LTE通信系统中,小区搜索,帧同步等也用了匹配滤波的原理。



进一步阅读


1. 自相关函数。发送信号x不是一个数而是一个关于时间t函数(连续函数)或时间序列(离散函数)。自相关也是一个函数,自变量为时间差\tao。说到自相关函数就不得不提功率谱密度--表示信号能量在频域的分布。自相关函数和功率谱密度是一对傅立叶变换是通信和信号处理的最基本常识之一。

2. 自相关矩阵。主对角元素是某个维度的自相关,辅对角线是不同维度的互相关。如果各个维度相对独立,则互相关为0,对应的协方差矩阵是对角阵。

3. 协方差矩阵。和自相关矩阵差一个常数矩阵项。

【通俗理解】协方差