朴素贝叶斯分类

贝叶斯分类是机器学习中一个重要的分类算法，由于其简单高效，所以在实战中非常受欢迎。

本文将介绍贝叶斯分类中两个比较典型的算法——朴素贝叶斯与贝叶斯信念网络。

基础知识

在开始介绍算法之前，我们先温习几个概率论上几个基础知识。

1.条件概率:P(A|B)

表示在B发生的情况下A发生的概率。

例如：在一堆棋子中有方形和圆形两种，方形有红色和白色，圆形有黄色和绿色。问，在已知一颗棋子是方形的情况下该棋子是红色的概率是多少。

那么这个问题就可以表示成——P(棋子是红色|方形棋子)

2.先验概率

是在获得某些信息或者依据前，对 P 的不确定性进行猜测。

例如：下雨之前会刮风，那么在没有观察是否刮风之前求下雨的概率就是先验概率。

3.后验概率

“后验”在这里意思是，考虑相关事件已经被检视并且能够得到一些信息。比如在判断到刮风的情况下再预测下雨的概率。

后验概率包含了先验信息以及观测样本数据提供的后验信息，对先验概率进行了修正，更接近真实情况。

贝叶斯定理

$P (A | B) = P ( B | A ) P ( A ) P ( B )$

其中P(A|B)是在B发生的情况下A发生的可能性。

在贝叶斯定理中，每个名词都有约定俗成的名称:

•   P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。
•   P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。
•   P(A)是A的先验概率（或边缘概率）。之所以称为"先验"是因为它不考虑任何B方面的因素。
•   P(B)是B的先验概率或边缘概率。

按这些术语，贝叶斯定理可表述为：
后验概率 = (相似度*先验概率)/标准化常量

也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例P(B|A)/P(B)也有时被称作标准相似度（standardised likelihood），贝叶斯定理可表述为：

后验概率 = 标准相似度*先验概率