协方差(Covariance)与得分函数:从Fisher信息矩阵看统计关联

时间:2025-02-25 07:00:06

协方差与得分函数:从Fisher信息矩阵看统计关联

协方差(Covariance)是统计学中一个基础但强大的概念,它描述了两个随机变量之间的关系。在Fisher信息矩阵中,协方差以一种特别的形式出现:得分函数的协方差。你可能注意到它的定义 ( I ( θ ) i j = E [ s i s j ] I(\theta)_{ij} = E\left[ s_i s_j \right] I(θ)ij=E[sisj] )(其中 ( s i = ∂ log ⁡ p ( x ∣ θ ) ∂ θ i s_i = \frac{\partial \log p(x|\theta)}{\partial \theta_i} si=θilogp(xθ) ))似乎“少了均值”,这是怎么回事?今天我们就从这个角度出发,聊聊协方差的本质、得分函数的特殊性,以及它们在实际中的应用。


什么是协方差?

协方差衡量两个随机变量 ( X X X ) 和 ( Y Y Y ) 如何一起变化,定义为:
Cov ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] \text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] Cov(X,Y)=E[(XE[X])(YE[Y])]

展开后:

Cov ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \text{Cov}(X, Y) = E[XY] - E[X]E[Y] Cov(X,Y)=E[XY]E[X]E[Y]

  • 如果协方差为正,( X X X ) 增加时 ( Y Y Y ) 也倾向于增加。
  • 如果为负,则一个增加另一个减少。
  • 如果为零,说明两者在统计上“无关”(但不一定是完全独立的)。

通俗比喻

想象你在观察天气:( X X X ) 是温度,( Y Y Y ) 是降雨量。协方差告诉你,当温度升高时,降雨量是更可能增加(正协方差,像夏天多雨),还是减少(负协方差,像沙漠地区),或者没啥关系(零协方差)。


得分函数与Fisher信息矩阵

在Fisher信息矩阵中,协方差以得分函数的形式出现。得分函数是対数似然函数对参数的偏导数:

s i = ∂ log ⁡ p ( x ∣ θ ) ∂ θ i , s j = ∂ log ⁡ p ( x ∣ θ ) ∂ θ j s_i = \frac{\partial \log p(x|\theta)}{\partial \theta_i}, \quad s_j = \frac{\partial \log p(x|\theta)}{\partial \theta_j} si=θilogp(xθ),sj=θjlogp(xθ)

Fisher信息矩阵的元素定义为:

I ( θ ) i j = E [ s i s j ∣ θ ] I(\theta)_{ij} = E\left[ s_i s_j \bigg| \theta \right] I(θ)ij=E[sisj θ]

这被描述为“得分函数的协方差”,反映了参数 ( θ i \theta_i θi ) 和 ( θ j \theta_j θj ) 变化时似然波动的关联性。

为什么“少了均值”?

你可能会疑惑:普通的协方差定义是 ( E [ X Y ] − E [ X ] E [ Y ] E[XY] - E[X]E[Y] E[XY]E[X]E[Y] ),而这里只有 ( E [ s i s j ] E[s_i s_j] E[sisj] ),似乎少了 ( − E [ s i ] E [ s j ] -E[s_i]E[s_j] E[si]E[sj] ) 这一项。这是定义错误,还是有意为之?

答案在于得分函数的一个关键性质:它的期望为零。即:

E [ s i ∣ θ ] = E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i ∣ θ ] = 0 E[s_i | \theta] = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \bigg| \theta \right] = 0 E[siθ]=E[θilogp(xθ) θ]=0

为什么期望为零?

证明很简单:

E [ s i ] = ∫ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i p ( x ∣ θ )   d x = ∫ 1 p ∂ p ∂ θ i p   d x = ∫ ∂ p ∂ θ i   d x E[s_i] = \int \frac{\partial \log p(x|\theta)}{\partial \theta_i} p(x|\theta) \, dx = \int \frac{1}{p} \frac{\partial p}{\partial \theta_i} p \, dx = \int \frac{\partial p}{\partial \theta_i} \, dx E[si]=θilogp(xθ)p(xθ)dx=p1θippdx=θipdx

因为 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ) 是概率密度,总积分恒为1:

∂ ∂ θ i ∫ p ( x ∣ θ )   d x = ∫ ∂ p ∂ θ i   d x = 0 \frac{\partial}{\partial \theta_i} \int p(x|\theta) \, dx = \int \frac{\partial p}{\partial \theta_i} \, dx = 0 θip(xθ)dx=θipdx=0

在正则条件下(积分和导数可交换),( E [ s i ] = 0 E[s_i] = 0 E[si]=0 )。同样,( E [ s j ] = 0 E[s_j] = 0 E[sj]=0 )。

回到协方差

既然 ( E [ s i ] = 0 E[s_i] = 0 E[si<