中心极限定理的理解与实践

时间:2024-11-14 08:48:28

引言

    中心极限定理(Central Limit Theorem, CLT)是概率论中的一个重要定理。该定理被广泛应用与科研、生产生活实践中。在雷达的目标检测相关理论中也是一个基础工具,本文立足于雷达目标检测(虽然截至第一次写作,文中并没有过多涉及CLT在雷达目标检测中的应用),对该定理做一点梳理和探讨。

Blog

2024.11.13  博文第一次写作

目录

引言

目录

一、中心极限定理相关概念理解

二、中心极限定理仿真实践

2.1 多变量的和是否呈正态分布的仿真实践

2.2 大样本变量随机抽样得到的各变量样本均值的分布

三、总结

四、参考资料

五、代码


一、中心极限定理相关概念理解

    中心极限定理似乎有两层含义?:

    1、当大量相互独立的随机变量相加时,无论这些随机变量自身的分布如何,其和的分布趋向于正态分布(或高斯分布)。进一步地,如果我们把各随机变量进行标准化,那么其和的分布将趋于标准正态分布。

    2、当样本量较大时,无论该样本整体的分布如何,从中随机抽取的m组小样本(一般认为小样本的样本数应该大于30个)的均值呈正态分布,且其均值收敛于样本整体的均值,方差为原样本整体方差的1/n (n为小样本的样本数)。

    如果我们用数学语言来描述上面两段话就是

    1、假设随机变量X1、X2、… Xn 相互独立(n足够大),那么 将呈正态分布。进一步地,如果我们对各个变量做标准化处理:假设前述各随机变量X具有的数学期望和方差分别为:

                                                              (1-1)

                                                           (1-2)

    那么,如果n足够大,随机变量之和的标准化量:

                                                     (1-3)

    将呈标准正态分布。

    注:事实上,这一定理正是在雷达目标检测中我们对噪声建模的依据:在雷达系统中,噪声通常被视为随机变量。根据中心极限定理,当大量独立的随机噪声源叠加时,其总和将趋向于正态分布。因此,可以基于该定理对雷达系统中的噪声进行建模:假设其服从正态分布。 对杂波的建模也有帮助

    2、对于包含大量样本的变量Y,假设其均值为μ,方差为σ2,如果我们随机从中抽取m组小样本: X1、X2、… Xm,每组小样本中的样本数量不低于30个(假设为n),对这些小样本求其均值:E(Xi),则这些均值

                                                 (1-4)

    将呈以均值为μ,方差为的正态分布。

    注:这个定理表明,我们可以基于小样本来推测样本整体的分布情况。就拿最近的美国大选的投票情况举例:比如我们想知道某个州对川普的支持率,我们可以随机地从这个州中抽取m组样本,每组样本选取n个选民,这样可以得到每组样本支持川普的比率,然后计算这m组样本的支持川普的比率的均值,就大概可以知道这整个州对川普的支持率是多少。

    至于这个定理的证明,不在本文的探讨范围内,读者可以参考[1]等其它资料(我也没有仔细研究)。

二、中心极限定理仿真实践

    分别对上面两种情况做简单的仿真探讨。

2.1 多变量的和是否呈正态分布的仿真实践

    本节仿真的思路是:随机生成多种类型分布的样本,然后将这些样本叠加,求叠加后样本的分布情况。  具体地,我使用了Matlab内置的:均匀分布rand、正态分布normrnd、对数正态分布lognrnd、二项分布binornd、泊松分布poissrnd、指数分布exprnd、卡方分布chi2rnd、T分布trnd 8种类型,构建N个循环,每个循环下随机生成8组不同类型的分布,一共生成8*N组样本。(N可调节,后文的结果中我设置N为10,此外,每组样本的数量设置为512)。对生成的这80组数据求和,进而得到叠加后样本的分布情况,结果如下:

图2.1  8种不同类型的分布所随机生成的数据(示例)

    求和、并根据公式(1-3)标准化后,将样本从最小值到最大值等间隔地分成30等份,求每个区间内的样本数量并进而等效地得到概率密度曲线(这里的处理过程和我在之前关于概率密度的博文[2]中一样):

图2.2  80组样本求和并标准化后的概率密度分布

    还是很接近典型的正态分布曲线的?【这里不去证明它是不是正态分布】,此外,我还使用Matlab自带的histfit函数画出了它的分布直方图以及用正态分布进行拟合的结果:

图2.3  样本分布直方图及其拟合结果

    读者可以基于后文提供的代码进行其它样本数量、单样本数据长度等尝试。

2.2 大样本变量随机抽样得到的各变量样本均值的分布

    本节仿真的思路是:随机生成一组特定类型分布的大样本,然后随机从中挑选m个样本,挑选n次,计算各次挑选下的样本均值,并分析其均值的分布情况。  具体地,我进行了两种类型分布下的仿真:卡方分布和二项分布(这两种分布是我们在雷达目标检测中常见的两种分布,比如多种噪声幅值平方的叠加就符合卡方分布,在做二元检测时,每个脉冲下对目标的检测就是二项分布)。 分别生成这两种分布下的大样本(2048个样本数据),然后随机地从中抽取m个样本,抽取n次(在本节的仿真中,m设置为256,n设置为100),计算各次挑选下的样本均值,并分析其均值的分布情况。

    得到的结果如下,对于卡方分布

图2.4  随机生成的卡方分布大样本

图2.5  随机生成的卡方分布参数(均值和方差)

    直接使用Matlab自带的histfit函数画出所挑选的100组样本的样本均值分布直方图,并使用正态分布进行拟合,得到的结果如下:

图2.5  小样本的均值直方图分布及其正态分布拟合结果

    还是很接近正态分布的?进一步地,求其均值和方差:

图2.6 小样本均值的 均值和方差

    可以看到其均值:7.8872和大样本的均值:7.895很接近! 而且方差之比 1.7043/0.006251 = 272.644 也很接近小样本下单样本的数量:256。 所以结果和我们前面的理论是吻合的: 均值收敛于样本整体的均值,方差为原样本整体方差的1/n (n为小样本的样本数)。

    对大样本为二项分布的情况同样做上述处理,得到的结果如下:

图2.7  随机生成的二项分布大样本

图2.8  随机生成的二项分布参数(均值和方差)

    使用Matlab自带的histfit函数画出所挑选的100组样本的样本均值分布直方图,并使用正态分布进行拟合,得到的结果如下:

图2.9  小样本的均值直方图分布及其正态分布拟合结果

   

    还是很接近正态分布的?进一步地,求其均值和方差:

图2.10 小样本均值的 均值和方差

    可以看到其均值:6.0501和大样本的均值:6.0564很接近!不过方差之比 13.0317/0.039018 = 333.992与小样本下单样本的数量:256有较大差距。整体上结果和我们之前的理论还是吻合的。

    读者可以基于后文给的代码进行其它数据分布、其它参数下的分析和探讨。

三、总结

    本文探讨中心极限定理,具体地,先对中心极限定理的相关概念做了介绍,随后分别仿真实践 对所述中心极限定理的两层含义做了验证。  中心极限定理有着很广泛的应用场景,在雷达目标检测中,该定理是我们将噪声建模为高斯分布的理论依据,此外,在相干/非相干积累中我们也可以基于该定理对信号的pdf做一些辅助分析。

四、参考资料

[1] 中心极限定理的证明_中心极限定理证明-****博客

[2] 概率密度与功率谱密度的理解与仿真-****博客

五、代码

中心极限定理的理解与实践博文对应的数据和代码资源-****文库