《机器学习》第七章笔记

第七章贝叶斯分类器

1.贝叶斯决策论，是在概率框架下实施决策的基本方法

2.对分类任务来说，贝叶斯决策论考虑如何基于这些概率和误判损失函数来选择最优的类别标记

3.总体思想是让每一个分类器的风险最小，这样算期望的时候也最小

4.贝叶斯分类器：h=argmin 错误即损失λ×后验概率P（c|x）

5.要估计后验概率有两种策略，

判别式模型，给定x，对p（c|x）进行建模，常见的有BP神经网络，决策树，支持向量机---如何建模的呢？

生成式模型，对联合概率p(c,x）进行建模，在导出p（c|x），p(c|x)=p(c)p(x|c)/p(x),p(c)是先验概率，p(x|c)是类条件概率，也称为似然，p（x）是用于归一化的证据因子，在给定样本x 的条件下，p（x）与样本标记无关，所以主要关注分子项

p（x|c）难以直接估计，所以采用似然估计，假定p（x|c）是某种概率分布形式，再基于训练样本对概率分布的参数进行估计，即p（x|c）有具体的分布形式，被参数θc唯一确定，所以我们的目标就转为估计θc，假定参数符合某一先验分布，然后根据观测到的数据来确定后验分布

6.朴素贝叶斯分类器

1）p（x|c）是所有属性上的的联合概率？，直接计算联合分布概率是个组合爆炸问题，即NP-hard问题----所以假设~~各个样本间独立~~属性条件独立（对于所有已知类别，所有属性独立），避开这个问题

屏幕剪辑的捕获时间:2017/11/8 9:35

假设Dc是D中第c类样本分布的集合，则Pc=|Dc|/|D|

离散属性：Dc,xi是Dc中第i类属性对应的xi，则P（xi|c）=|Dc,xi|/|Dc|

连续属性：会满足某个分布，最常见的是高斯分布,需要方差和均值

屏幕剪辑的捕获时间:2017/11/8 9:55

用如下图中的公式计算，注意p（x|c）中不同的c分类Dc，好瓜时Dc=8，不好的瓜Dc=9

屏幕剪辑的捕获时间:2017/11/8 9:56

若某个属性在某分类没出现过，会出现概率为零的情况，而计算的时候是连乘，则会导致整个概率为零，所以进行修改，改为p（c）=（|Dc|+1）/（|D|+N），p（x|c）=（|Dc,xi|+1）/（|Dc|+Ni）N是类别数，这个操作又叫“平滑”，加入拉布拉斯修正，目的是避免因为训练集不充分导致概率估计值为零

半朴素贝叶斯分类器

因为朴素贝叶斯分类器中各个属性相互独立的条件在实际中很难成立，所以放缓这一条件，一部分属性是独立的

又引出独依赖性，即属性至多只依赖一个属性

p(c|x)正比于p(c)连乘p（x|c,pai）

屏幕剪辑的捕获时间:2017/11/8 10:16

关键问题在于，如何确定各个属性的父属性

有三种方法


SPODE	使用同一个属性作为父属性
TAN	最大生成树？
AODE	将每个属性都作为父属性

接着，我们考虑到高阶依赖性，多个依赖，这个适用于有充分的训练样本，但是计算复杂度提高了

9.贝叶斯网（bayesian network）或称为信念网（belief network)

B=<G,Θ>，G是结构，即无环图，Θ是条件概率模型（conditional probability table CPT)

图有三种结构，同父结构，V型结构，顺序结构

在给定x1的条件下，x2 x3 条件独立，反之，不独立

在给定x4的条件下，x5，x6不独立，反之，x5，x6条件独立--边际独立性

在给定x8的条件下，x7，x9条件独立

秒客网

《机器学习》第七章笔记

相关文章