机器学习(十)——贝叶斯分类器

时间:2024-03-23 15:10:00

第一章节 贝叶斯决策论

贝叶斯决策论是概率框架下的实施决策的基本方法;贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

1 贝叶斯基本原理

目的:通过误判损失最小化得到机器学习(十)——贝叶斯分类器

 

过程:参考周志华《机器学习》的贝斯决策论 

 

机器学习(十)——贝叶斯分类器

 

不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c\x)-----(下面的截图中c和x改为A和D)

机器学习(十)——贝叶斯分类器

 

对于类条件概率P(x\c),来说,由于它涉及关于x所以属性联合概率(难点),直接根据出现的频率来估计将会遇到严重的困难。-----因为很多样本在取值的训练集中根本没有出现,直接使用频率来估计P(x\c)显然不可行,因为“未被观测到”与“出现概率为零”通常不同的。------------所以使用概率估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。

对于参数估计,统计学界有两个学派:频率主义学派和贝叶斯学派

频率主义学派:认为参数虽然未知,但却客观存在的固定值。因此通过优化似然函数等准则来确定参数。

贝叶斯学派:认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。

 

第二章节  极大似然估计

参考:周志华《机器学习》贝叶斯分类器中的极大似然估计

第三章节 朴素贝叶斯分类器

        不难发现,基于贝叶斯公式来估计后验概率P(c\s)的主要困难在于:类条件概率P(x\c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得,为了避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。

关于“拉普拉斯修正”,具体参考:周志华《机器学习》

第四章节  半朴素贝叶斯分类器

        为了降低贝叶斯公式估计后验概率P(c\x)的困难,朴素贝叶斯分类器采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立,于是,人们尝试对属性条件独立性假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。

        半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”是版朴素贝叶斯分类器最常用的一种策略,顾名思义,所谓的“独依赖”就是假设每个属性在类别之外最多依赖于一个其他属性。

具体参考:周志华《机器学习》

第五章节 贝叶斯网