最近在cousera上学了一本课,Bayesian Statistics: From Concept to Data Analysis
虽然很久以前学过统计学,最近几年也陆陆续续地接触到一些对贝叶斯统计的讨论,但是并没有掌握其思想,于是找了门课学了一下感觉收益匪浅。
首先,如果要能跟得上这门课,必须有概率论的基础,明白几个最典型的分布,伯努利分布,正态分布, 泊松分布…,知道什么是期望和方差,知道什么是条件概率。当然忘记了也没关系,如果看看材料能迅速回忆起来也可以。
在开始写这篇文章前,我在网上搜索了一些中文的关于讨论贝叶斯方法的资料。感觉是如果你懂了,你觉得这些材料很有用,如果你不懂,那就不知所云。本文目的是想通过自己的学习心得让大家一起更好的理解贝叶斯统计方法。
贝叶斯方法最重要的思想基础是在 统计学上注入先验知识。
传统的统计分析是直接靠拥有的样本来分析。比如说,新冠病毒得病率,一般我们通过采样n个人,然后看多少人x得了,那么个人得病概率就是x/n.
那么贝叶斯统计学是怎么分析的了。贝叶斯统计学是根据拥有的知识或感觉对于这个得病概率进行猜测或估计。比如说病毒专家门根据对病毒的理解,有很大的把握认为这个概率是期望为0.3的正太分布。请注意,这里说的是得病概率的概率分布是属于正态分布。有点别扭是不是。举一个直白的例子来理解,得病率是小于0.3的概率是0.5, 小于0.2的概率是0.4。如果你理解了这一点,那后面的就很好follow了。
然后呢,根据拥有的数据,推算出得病概率的后验概率分布。如果能很容易的理解贝叶斯定理的话,这个推算并不难,其实就是条件概率翻来覆去的算。这个后验概率可以说是对得病概率的更全面的理解,结合了主观认知(先验概率)和客观数据(观察到的数据)。
贝叶斯统计方法的反对声音就是主观猜测是错的怎么办。其实这并不能用来反驳贝叶斯方法论。贝叶斯方法论的目的就是结合主观判断和客观数据来得出问题的结论。传统纯靠数据推导的方法看似正确,其实不然。回到新冠病毒得病率的计算方法上来,这个x/n准确是需要样本主要有代表性的情况下才可靠。这个关键的隐含条件被淡化了。而贝叶斯是主动的把主观先验知识提取出来,反而显得更加的客观。这是个哲学问题。
贝叶斯统计方法有一个很有趣的现象,就是在观察事件在某种分布下,先验概率分布和后验概率分布为参数不同的同一种分布(共轭分布)。这使得后验概率很容易推算出来,intuition上也比较好理解。
比如说,观察事件是二项分布,如果二项分布的每次实验成功概率p的先验概率分布是beta分布,那后验概率分布也是beta分布。
比如说,观察事件是泊松分布,如果泊松分布的参数lambda的先验概率分布属于gamma分布,那么后验概率分布也是gamma分布。
说了半天,那贝叶斯统计方法到底是做什么呢。
举几个例子:
新冠发病率,如果发现100人中有10个人得了,根据贝叶斯方法的得来的结果,就不是一个绝对数字,而是类似这样的结论: 小于0.1的概率是0.9,0.8到0.9之间的概率是0.05 。。。这就是说即使只有十个人得了,发病率也是有可能达到百分八九十。
产品损坏率是不是达标,用贝叶斯统计方法很容易得到一个结果,损坏率是<0.01的概率是99%
火山爆发,未来一年火山爆发的概率为30%
所以贝叶斯统计方法一个最大用处是用来做预测。后续我会写一些关于贝叶斯机器学习相关的。
更多文章请关注微信公众号: