前言:
贝叶斯公式究竟是什么意思,在现实中的含义是什么,什么是先验概率,什么是后验概率?
问题:
如下图所示:在一个群体中,有20个人。感冒5人,流感6人,脑膜炎4人,脑瘫3人,正常2人。
以B为例,解释一下。B表示感冒,感冒人数是5人,其中2人头疼。
现在问题是:当一个人头疼,判断这个人是感冒的概率?
解答:
1:(ABCDEF都表示事件),A表示头疼,B是感冒,C表示流感,D表示脑膜炎,E表示脑瘫,F是正常
2:因此,我们的问题就是求解 ,由贝叶斯定理我们知道:
其中:表示在事件A发生的情况下,事件B发生的概率。
3:一个人头疼肯定是由上述5中情况导致的,因此由全概率公式,我们知道:
即:
4:从上面的图可以统计出来 ,,,,
以为例,它表示在感冒时头疼的概率,共5人感冒,2人头疼,则
,,,
,,,,
- 则
其中,P(A)还有一个算法,就是用(总的头疼人数)除以(总的人数),同样也是0.5
5:,因此我们知道当一个人头疼的时候,这个人感冒的概率是0.2
同样的方式计算,,,
所以,当一个人头疼时,他感冒的概率是0.2,流感的概率是0.4,脑膜炎的概率是0.3,脑瘫的概率是0.1,正常的概率是 0,就是说只有这个人头疼,他就不可能是正常人,一定是患病的,这很好解释,因为正常人不会头疼。
总结:
通过这个例子可以发现,当我们要解答“一个人头疼,那么他感冒的概率是多少,即P(B|A)”这个问题的时候,可以转换成求解:
1:整个人群中头疼的概率P(A);
2:这个人群中“如果一个人感冒,那么他头疼的概率P(A|B)”
3:这个人群中感冒的人的概率P(B)。
这个场景可以出现在医院,有一个人头疼,就问医生,他可能是感冒的可能性是多少。医生当然是根据他的医学知识来判断,可能感冒了,可能发烧了。但是如果一个普通人想解决这个问题,他就会收集上述3个方面的数据,我们发现,这3个数据都是很好统计的,这样就可以把一个专业性的问题变成一个统计性的问题。也就是将后验概率,变成先验概率。
后验概率就是说:在A发生的情况下,B发生的概率,先验概率就是一个统计的问题,这个人群中,20个人有5个感冒,就知道,感冒的概率是0.25。
当然有人会说你相当于把求解P(B|A)转成了求解P(A|B),但是这个形式好像还是后验概率的形式,我的理解是,针对上述问题来说,P(A|B)好求,但是P(B|A)很难求。不信你试试看,P(A|B)就是在感冒的人群中,头疼的人的概率。我们只需要统计感冒人数和感冒人数中头疼的人数,很简单。