上一篇文章极大似然估计的应用已经说明了,后验概率的求解难点在于类条件概率的估计非常难。
p(x | w)中的x往往包含多个相关因素(是一个多种因素构成的向量),即它可能有多个需要考虑的属性值:x=(x1,x2,x3,...,xn)。
任一xi都代表了所有相关因素中的其中一个。在癌症辅助判断中,它可能是患者的年龄,也可能是患者的性别,也可能是患者是否吸烟等等。因此当x是一个向量时,我们若要计算P(x|c),实际上就是要计算P(x1,x2,x3,...,xn∣c) 。这个理论上也是可以利用我们的数据集D来进行估计的,但是现实情况是,n的值往往非常大(属性非常多),而我们的数据集往往不能保证我们的样本包含了属性值的所有可能组合(假设每个属性都是二值属性,那么就有2^n种属性组合)。那么很多p(x|c)我们估计得到的值就是0。然而这些样本很可能仅仅是我们的数据集中没包含到,即“未被观测到”,但不代表它们现实中“出现概率为0”。于是这就给我们计算出真实合理的目标p(c|x)值造成了障碍。
于是,朴素贝叶斯的“朴素”就发挥作用了。我们为了能够获得合理的p(x|c)的值,采用了“很不科学”的属性条件独立性假设。
这个假设用公式表达式这样的:
属性条件独立性假设实际上是忽略掉了某些属性之间可能存在的关联,假设属性的取值可能性都是独立的。但是,由于朴素贝叶斯分类器在这种naive的假设下仍能在实际问题中取得比较好的效果,因此这个假设的不合理性也就可以暂时放下不谈了。