贝叶斯定理是一个条件概率或边缘概率计算公式,已知事件X下事件Y的后验概率,
P(Y|X)=P(X|Y)P(Y)P(X)
。这里,补充一点,虽然后验概率和似然概率都是条件概率,区别在于后验概率是相对事件而言的,而似然函数是对未知参数而言的。一般来说贝叶斯分类器是根据贝叶斯定理求出后验概率(经验风险)最大的一组输出y。
最大后验概率等价于0-1损失函数时的经验风险最小化估计。
1、朴素贝叶斯分类器
朴素贝叶斯分类基于一个特别强的假设,即输入的条件都是相互独立的。
P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)∑P(X=x|Y=ck)P(Y=ck)
P(Y=ck|X=x)=∏P(X(j)=x(j)|Y=ck)P(Y=ck)∑∏P(X(j)=x(j)|Y=ck)P(Y=ck)
这里由于
P(X)
对所有类别相等,可以视为一个归一化项,从而,分类问题可以视为
P(Y=ck|X=x)=∏P(X(j)=x(j)|Y=ck)P(Y=ck)
这里需要注意的是,由于贝叶斯估计是一个强先验依赖的估计方法,如果没有先验知识作为参考,即所要估计的概率值在先验知识缺乏的情况下出现的概率为0的情况。为了避免这种问题,可以采用Laplace平滑,即对于所有的项增加一个常数项的默认初始值。
贝叶斯估计和最大似然估计
最大似然估计是贝叶斯估计的一种特例,贝叶斯估计可以看做是添加了平滑处理后的最大似然估计
需要先计算的先验知识
P(y=ck)=∑I(yi=ck)+λN+kλ
,以及条件概率
Pλ(X(j)=aji|y=ck)=∑I(x(j)i=aji,yi=ck)+λ∑I(yi=ci)+Sjλ
。当
λ
为0时为最大似然估计。从而,分类概率为
y=argmaxP(y=ck)∏Pλ(X(j)=aji|y=ck)