伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

时间:2024-03-23 14:44:19

瑞士数学家雅克·伯努利(Jacques Bernoulli,1654~1705)首次研究独立重复试验(每次成功率为p)。在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作《推测术》。在书中,伯努利指出了如果这样的试验次数足够大,那么成功次数所占的比例以概率1接近p。 雅克·伯努利是这个最著名的数学家庭的第一代。在后来的三代里,一共有8到12个伯努利,在概率论、统计学和数学上做出了杰出的基础性贡献。
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

1. 伯努利分布

伯努利分布(Bernoulli distribution)又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验(Bernoulli trial)。

伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布
伯努利试验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?等等

  • 如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
  • 进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。伯努利分布是离散型概率分布,其概率质量函数为:
    伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

2. 二项分布

二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。在单次试验中,结果A出现的概率为p,结果B出现的概率为q,p+q=1。那么在n=10,即10次试验中,结果A出现0次、1次、……、10次的概率各是多少呢?这样的概率分布呈现出什么特征呢?这就是二项分布所研究的内容。

如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为X~B(n,p),其概率质量函数为
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

显然,
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布
从定义可以看出,伯努利分布是二项分布在n=1时的特例
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布
二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。

举个例子

伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布
https://zhuanlan.zhihu.com/p/24692791

3. 多项分布

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个,如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项式分布。

扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布
多项式分布一般的概率质量函数为:
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

4. 贝塔分布

在介绍贝塔分布(Beta distribution)之前,需要先明确一下先验概率、后验概率、似然函数以及共轭分布的概念。

先验概率

先验概率就是事情尚未发生前,我们对该事发生概率的估计。利用过去历史资料计算得到的先验概率,称为客观先验概率; 当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。例如抛一枚硬币头向上的概率为0.5,这就是主观先验概率。

后验概率

后验概率是指通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正,而后得到的概率。

先验概率和后验概率的关系

关系

伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

区别

一种表述:

  • 先验概率不是根据有关自然状态的全部资料测定的,而只是利用现有的材料(主要是历史资料)计算的;
  • 后验概率使用了有关自然状态更加全面的资料,既有先验概率资料,也有补充资料。

另外一种表述:

  • 先验概率是在缺乏某个事实的情况下描述一个变量;
  • 后验概率(Probability of outcomes of an experiment after it has been performed and a certain event has occured.)是在考虑了一个事实之后的条件概率。

似然函数

共轭分布(conjugacy)

后验概率分布函数与先验概率分布函数具有相同形式

好了,有了以上先验知识后,终于可以引入贝塔分布啦!!首先,考虑一点,在试验数据比较少的情况下,直接用最大似然法估计二项分布的参数可能会出现过拟合的现象(比如,扔硬币三次都是正面,那么最大似然法预测以后的所有抛硬币结果都是正面)。为了避免这种情况的发生,可以考虑引入先验概率分布 p ( u ) p(u) p(u)来控制参数 u u u,防止出现过拟合现象。那么,问题现在转为如何选择 p ( u ) p(u) p(u)
二项分布的似然函数为(就是二项分布除归一化参数之外的后面那部分,似然函数之所以不是pdf,是因为它不需要归一化):
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

5. 狄利克雷分布

狄利克雷分布(Dirichlet distribution)是多项分布的共轭分布,也就是它与多项分布具有相同形式的分布函数。
概率分布函数为:
伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布

6. 后记

本篇博文只是将伯努利分布、二项分布、多项分布、贝塔分布和狄利克雷分布做了简单的介绍,其中涉及到大量的概率基础和高等数学的知识,文中的介绍只是粗浅的把这些分布的概念作了大概介绍,没有对这些分布的产生历史做介绍。我想,更好的介绍方式,应是从数学史的角度,将这几项分布的发现按照历史规律来展现,这样会更直观、形象。后续再补吧!

https://blog.csdn.net/kingzone_2008/article/details/80584743
https://zhuanlan.zhihu.com/p/24692791