1.贝叶斯决策论
贝叶斯决策论是概率框架下实施决策的基本方法。设有N种可能的类别标记,即
这就是贝叶斯判定准则(Bayes decision rule)。
若目标是最小化分类错误率,则条件风险为
通常情况下
其中P(c)为先验概率,P(x|c)为样本x关于类别c的条件概率。这就是后验概率最大化准则。这样一来,根据期望风险最小化原则就可以得到后验概率最大化准则。
在某些情况下,可假定Y中每个假设有相同的先验概率,这样式子1.5可以进一步简化为公式1.6,只需考虑P(x|c)来寻找极大可能假设。
综合以上讨论,当前求最小化分类错误率的问题转化成了求解先验概率P(c)和条件概率(也称似然概率)P(x|c)的估计问题。对于先验概率P(c)表达了样本空间中各类样本所占的比例,根据大数定理,当训练集包含充足的独立同分布样本时,P(c)可以通过各类样本出现的频率进行估计。整个问题就变成了求解条件概率P(x|c)的问题。
2.朴素贝叶斯分类器
采用“属性条件独立性假设”:对已知类别,假设所有属性相互独立。
其中d为属性数目,
对于所有类别来说P(x),因此贝叶斯判定准则有
令
对于离散属性而言,令
对联系属性而言,可考虑概率密度函数,假定
增加“平滑”,常用“拉普拉斯修正”。
一般计算过程:
1.估计类先验概率P(c)
2.每个属性的条件概率
3.根据式2.1计算得到概率值,类之间比较
3.半朴素贝叶斯分类器
朴素贝叶斯分类器采样的是属性条件独立性假设,但现实任务往往难以实现。于是对属性条件独立性假设在一定程度上放松,由此产生了一类“半朴素贝叶斯分类器”的学习方法。半朴素贝叶斯分类器的基本思想是考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于忽略比较强的属性依赖关系。
“独依赖估计”(One-Denpendent Estimator,ODE):假设每个属性在类别之外最多仅依赖于一个其他属性。
1.SOPDE方法。这种方法是假定所有的属性都依赖于共同的一个父属性(超父)。
2.TAN方法(在最大生成树基础上通过下列步骤)。每个属性依赖的另外的属性由最大带权生成树来确定。
(1)先求每个属性之间的互信息来作为他们之间的权值。
(2)构件完全图。权重是刚才求得的互信息。然后用最大带权生成树算法求得此图的最大带权的生成树。
(3)找一个根变量,然后依次将图变为有向图。
(4)添加类别y到每个属性的的有向边。
AODE一种基于集成学习机制、更为强大的独依赖分类器。AODE尝试将每个属性作为超父来构建SPODE,然后将具有足够训练数据支撑的SPODE集成起来作为最终结果。
4.贝叶斯网
学习于 : 《机器学习》–周志华