机器学习（二）——数理统计与参数估计

概率论：

期望；方差；偏度；峰度；协方差；相关系数；独立相关性；

数理统计：

大数定理；切比雪夫不等式；矩估计；极大似然估计

1、统计量概念

1.1 期望

从感情上来讲就是预期的值，数值意义上来讲可以认为是概率加权下的“平均值”。

特别地，若特征X和Y相互独立时，E(XY)=E(X)E(Y)；反之不成立。如果已知E(XY)=E(X)E(Y)，只能说明X和Y不相关。那么不相关和独立有什么区别呢？独立就是两者没有任何关系，当然也不相关。相关指的是线性关系，不相关指没有线性关系，但是呢可能有其他关系，不一定独立。所以独立一定不相关，不相关不一定独立。

1.2方差

度量随机变量及其数学期望之间的偏离程度。

公式定义上，方差是函数[X-E(X)]²的期望，因此，离散型、连续型随机变量的方差可统一表示为：

机器学习（二）——数理统计与参数估计

表示的是X的取值偏离期望值E(X)的程度。如果X和Y是独立的，那么Var(X+Y)=Var(X)+Var(Y)。方差的平方根是标准差。

总结一下，均值描述的是样本集合的中间点，它表达的信息是很有限的，而标准差描述的是样本集合的各个样本到中心点的距离的平均。比如两个集合：[1,9,13,21]和[9,10,12,13],两个集合的均值都是11，但是两个集合的差别还是很大的，后者比较集中，标准差更小一些，而前者的标准差就很大。所以标准差有效描述了集合的分散度。

1.3协方差

协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法，方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来，质量因子是可以人为控制的。回归分析是从数量因子的角度出发，通过建立回归方程来研究实验指标与一个或几个因子之间的数量关系。但大多数情况下，数量因子是不可以人为加以控制的。在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。协方差的定义如下：Cov(X,Y)=E { [ X-E(X) ] [ Y-E(Y) ] }。

那么协方差有什么意义呢？协方差作为两个随机变量在相同方向上变化趋势的度量，Cov(X,Y)>0代表两者的变化趋势相同，Cov(X,Y)<0代表两者的变化趋势相反，Cov(X,Y)代表X和Y不相关。机器学习中，可以基于协方差来筛选特征。

并且协方差的上届：

上图中，一组事物划分出了n个特征，各对应一个分布，每一行代表单个事物，事物标记或者预测出来的标签作为分布Y。通过计算每个特征和标签的协方差，筛选出质量较好的特征，特征选择对后续的实验特别重要。有时，也会用相关系数矩阵来发现特征之间的相关性，可视化展示如下图所示。

1.4相关系数

相关系数是用以反映变量之间相关关系密切程度的统计指标。

机器学习（二）——数理统计与参数估计

1.5协方差矩阵

机器学习（二）——数理统计与参数估计

去均值后，协方差矩阵为：机器学习（二）——数理统计与参数估计

协方差矩阵是对称阵。

1.6独立和不相关

独立比不相关性质更强。独立一定不相关，不相关不一定是独立。

二、参数估计

2.1矩

X的k阶原点矩为机器学习（二）——数理统计与参数估计

X的k阶中心矩为机器学习（二）——数理统计与参数估计

总结：期望（一阶原点矩）

方差（标准差，二阶中心距）

变异系数

偏度（三阶）

峰度（四阶）

机器学习（二）——数理统计与参数估计

2.2 偏度

定义：偏度衡量随机变量概率分布的不对称性，是相对于平均值不对称程度的度量。

机器学习（二）——数理统计与参数估计

定义上偏度是样本的三阶标准化矩，定义式如下，其中

分别表示二阶和三阶中心矩：

2.3峰度

直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然

四阶标准矩可以定义为：

其中μ₄是四阶中心矩，σ是标准差。

在更通常的情况下，峰度被定义为四阶累积量除以二阶累积量的平方，它等于四阶中心矩除以概率分布方差的平方再减去3：

这也被称为超值峰度（excess kurtosis）。“减3”是为了让正态分布的峰度为0。

三. 重要定理与不等式

3.1切比雪夫不等式

切比雪夫表达的是随机变量X及其期望和方差之间的关系，表达式如下：

机器学习（二）——数理统计与参数估计

这个不等式说明，X的方差越小，事件发生的概率越大，X的取值基本上集中在期望附近。为统计推断中依据样本平均数估计总体平均数提供了理论依据。特别需要注意的是，切比雪夫定理并未要求Xi 同分布，相较于大数定律更具一般性。

3.2大数定理

大数定理比较有意思哈，是概率论历史上第一个极限定理，原为“伯努利定律”，后改为大数定理，是讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。比如，我们向上抛一枚硬币，硬币落下后哪一面朝上本来是偶然的，但当我们上抛硬币的次数足够多后，达到上万次甚至几十万几百万次以后，我们就会发现，硬币每一面向上的次数约占总次数的二分之一，偶然中包含着某种必然。

大数定理的定义：设随机变量Xi相互独立，并且具有相同的期望和方差。作前n个随机变量的平均Yn，则对于任意正数ε，有公式

机器学习（二）——数理统计与参数估计

那么大数定理的存在，为我们的实际应用带来了哪些好处呢？很多时候，大数定理为“用频率来估计概率”提供了有力的理论依据。比如正态分布的参数估计，朴素贝叶斯做垃圾邮件分类，隐马尔科夫模型有监督参数学习等等。

3.3中心极限定理

中心极限定理指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。定义为：设随机变量X1、X2...Xn...相互独立，服从同一分布，并具有相同的期望和方差，则随机变量Yn 机器学习（二）——数理统计与参数估计的分布收敛到标准正态分布。

在实际问题中，很多随机现象可以看作许多因素的独立影响的综合反映，往往近似服从正态分布。比如城市耗电量——大量用户的耗电量总和。

四. 用样本估计参数

参数评估是通过抽取样本来评估总体的分布的方法。例如我们从黑盒子中抽取了一堆白球和黑球，怎样知道盒子中球是什么样的分布呢，正态分布还是二元分布呢？有两种常用的构造估计量的方法：矩估计法和极大似然估计法。矩估计的理论依据是大数定理，通过找总体矩与参数之间的关系，用样本矩替换总体矩，得到关于估计量的方程组，解方程组得到k个参数的矩估计值。

最大似然估计法是在总体分布类型已知条件下使用的一种参数估计方法，它的思想是一次试验就出现的事件有较大的概率。比如说王祖蓝和李晨撕名牌，你猜最后谁获胜了呢？因为李的获胜概率大，所以这次还是李获胜的可能性大。

4.1矩估计

矩估计的原理总结来讲为：令总体矩的k阶矩分别等于样本的k阶矩即可，至于到底会涉及到k是多大就要看你要估计的总体中包含几个未知参数了，包含几个k就应该是几。

矩估计，即矩估计法，也称“矩法估计”，就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩（即所考虑的随机变量的幂的期望值）的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代（未知的）总体矩，解出感兴趣的参数。从而得到那些参数的估计。

矩估计的理论依据就是基于大数定律的，大数定律语言化的表述为：当总体的k阶矩存在时，样本的k阶矩依概率收敛于总体的k阶矩，即当抽取的样本数量n充分大的时候，样本矩将约等于总体矩。

优点：在不清楚总体分布具体属于什么分布的情况下，只需要根据均值和方差进行估计即可。缺点：如果在总体分布已知的情况下，并不能很好的使用对应分布类型的信息，因为矩估计根本就不看重总体分布到底属于那种类型。

4.2极大似然估计

它是建立在极大似然原理的基础上的一个统计方法，极大似然原理的直观想法是，一个随机试验如有若干个可能的结果A，B，C，... ，若在一次试验中，结果A出现了，那么可以认为实验条件对A的出现有利，也即出现的概率P(A)较大。

机器学习（二）——数理统计与参数估计

极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

总结起来，最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

当然极大似然估计只是一种粗略的数学期望，要知道它的误差大小还要做区间估计。

求极大似然函数估计值的一般步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数；

（4）解似然方程。

参考：https://blog.csdn.net/zengxiantao1994/article/details/72787849

秒客网

机器学习（二）——数理统计与参数估计

三. 重要定理与不等式

3.1切比雪夫不等式

3.2大数定理

3.3中心极限定理

四. 用样本估计参数

相关文章