注意
以下内容仅作为个人笔记,初学者请不要参考本篇内容,欢迎学过的同学指正错误。
正文
首先给出两种收敛的定义。对于一个随机变量序列
{θ^n(x)}n
,这个随机变量的值由随机变量
x
决定。对于任意正实数
ϵ
,如果存在一个随机变量
θ(x)
使下式成立:
limn→∞Pr(x,|θ^n(x)−θ(x)|<ϵ)=1,
则称序列
{θ^n(x)}n
依概率收敛到随机变量
θ(x)
。
如果对于任意正实数
ϵ
,如果存在一个随机向量
θ(x)
使下式成立:
Pr(x,limn→∞|θ^n(x)−θ(x)|<ϵ)=1,
则称序列
{θ^n(x)}n
几乎处处收敛到随机变量
θ(x)
。
直观来说,在
n
大到一定程度,前者的含义是
θ^n(x)
与
θ(x)
的距离小于
ϵ
的概率收敛到
1
上;后者的含义是,
θ^n(x)
与
θ(x)
的距离以
100%
的概率在
ϵ
以内。准确来说,几乎处处收敛其实并不要求在
x
的取值范围内所有的取值都使得
θ^n(x)
与
θ(x)
的距离在
ϵ
以内,要理解这一点需要测度论的知识,我还没接触过这方面的知识,但有一个例子很好理解:对于
x∈[0,1]
,如果只有
x=1
使得
|θ^n(x)−θ(x)|≥ϵ
成立,我们仍然可以说
{θ^n(x)}n
几乎处处收敛,这是因为
Pr(x=1)=0
,因而
Pr(x∈[0,1))=1
。
具体来说,这两种收敛的区别是什么呢?对于足够大的
n
来说,前者不需要满足
|θ^n(x)−θ(x)|<ϵ
在
x
所有的取值范围上成立,也就是可能存在一个区间
[x0,x0+O(g(x))]
使得
|θ^n(x)−θ(x)|≥ϵ
成立,而后者,如上一段所说的,要求这个不等式最多只能在
x
取某一个值
x0
上成立。
如果仍然难以理解,这里可以举例子说明。设随机变量
x
是在区间
[0,1]
上的均匀分布,定义关于
x
的随机变量序列为:
θ^n(x)=x+xn.
定义随机变量:
θ(x)=s.
可以发现这个随机变量只在
x=1
时才有
|θ^n(x)−θ(x)|≥ϵ
成立,因此是几乎处处收敛。
对于同样的
x
,按照另一种方法定义随机变量
θ^n(x)
和
θ(x)
:
θ^2k+i(x)kiθ(x)=1x∈[i2k,i+12k]=1,2,3,...=0,1,...,2k−1=0
可以看到,即使
2k+i
的值再大,
|θ^n(x)−θ(x)|≥ϵ
成立的概率也不会等于
0
,但是他们是按概率收敛的。
参考
几乎必然收敛和依概率收敛 by AlgorithmDog