机器学习基础-朴素贝叶斯分类

时间:2024-03-24 08:12:13

贝叶斯定理

机器学习基础-朴素贝叶斯分类

可以将公式改写为

机器学习基础-朴素贝叶斯分类

c表示一个分类,f表示属性对应的数据字段

这里举个例子,

c代表苹果,f代表红色

P(苹果|红色)=P(红色|苹果)XP(苹果)/P(红色)

通过苹果是红色的条件概率可以得到红色是苹果的条件概率

通过先验概率可以算出后验概率

一个果子是苹果的概率为0.3 P(c)=0.3

一个果子是红色的概率为0.2 P(f)=0.2

苹果是红色的概率为0.7  p(f|c)=0.5

根据公式可以算出红色的果子是苹果的概率为 P(A|B)=0.5*0.3/0.2 = 0.75

朴素贝叶斯

上边看了贝叶斯定理,我们将贝叶斯定理扩展到多种类型,多种属性上边

统计的分类有:苹果,甜橙,西瓜

统计的属性有:形状,外观颜色,外观纹理,重量,握感,口感

机器学习基础-朴素贝叶斯分类

通过上变的表,可以得到,每种类型的每种属性对应的概率,如下:

机器学习基础-朴素贝叶斯分类

参考贝叶斯定理,

将红色的属性扩展到其他的属性,可以得出以下公式

机器学习基础-朴素贝叶斯分类

对比上边苹果的例子,fi是红色 fj是甜味,这里列举所有属性联合起来是苹果的概率

计算的过程中,对于统计的概率为0的数值,一般会给一个小于最小值的极小值用来计算,这个叫平滑

两种属性下,计算是圆形,口感是甜的

不同种类的概率:

是苹果的概率:

 

机器学习基础-朴素贝叶斯分类

是甜橙的概率:

机器学习基础-朴素贝叶斯分类

是西瓜的概率:

机器学习基础-朴素贝叶斯分类

甜橙的概率最大,所以这个水果最大可能是甜橙;

概率的乘积可能会非常小,可以使用数学手法进行转换,比如取log

朴素贝叶斯使用的方法:

准备数据 转换为计算机所能理解的数据,训练样本;

建立模型 基于样本训练,获取所有水果的概率

分类新数据 对于一个新的数据,根据已有的模型进行分类,这个过程也称为预测

朴素贝叶斯与其他分类的对比:

与KNN最邻近对比:朴素贝叶斯需要更多的时间进行模型训练,,但是对新数据预测时,效果更好,时间更短

与决策树对比:不能提供易于人理解的决策,但可以提供多种决策,支持模糊分类

SVM支持向量积:不能直接支持连续值的输入,案例中将连续值转换成了离散值便于朴素贝叶斯处理

适用的场景:属性大部分是离散的,需要支持模糊分类,需要支持快速实时的分类