朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

时间:2022-12-15 11:22:45

一.前言

1.1 本文原理

1.熟悉机器学习之朴素贝叶斯算法 2.使用朴素贝叶斯算法解决问题 贝叶斯定理是关于随机事件a和B的条件概率(或边际概率)的定理。其中p(a | B)是当B发生时a发生的可能性。 朴素贝叶斯算法: 对于样本集: 朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】 其中m表示有m个样本,N表示有N个特征。yi,i=1,2,。。,M表示样本类别,值为{c1,C2,…,ck}。 朴素贝叶斯分类的基本公式: 朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】 计算先验概率:计算样本类别数k。对于每个样本y=ck,计算P(y=ck)。这是总样本集中CK类的频率。 计算条件概率:将样本集划分为k个子样本集,分别计算属于CK的子样本集,计算特征概率P(Xj=ajl|Y=Ck)。它是子集中特征值为AJL的样本数与子集中样本数的比率。 对于要预测的样本xtest,计算每个类别CK的后验概率: 朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

1.2 本文目的

  1. 使用BernoulliNB(伯努利分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析; 参考代码:bayes =naive_bayes.BernoulliNB()
  2. 使用MultinomailNB(多项式分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析
  3. 使用GaussianNB(高斯分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析;

二.实验过程

2.1使用BernoulliNB(伯努利分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析;

和前几篇一样,先使用load_iris模块,里面有150组鸢尾花特征数据,我们可以拿来进行学习特征分类。 如下代码:

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

引入朴素贝叶斯算法模块:

from sklearn import naive_bayes

使用朴素贝叶斯算法机器分类器:BernoulliNB的用法如下:(伯努利分布)

nb=naive_bayes.BernoulliNB()

先采用俩个特征集,给鸢尾花分类,输出训练得分和预测,如下代码:

nb.fit(X[:,:2],y)
print("training score: ",nb.score(X[:,:2],y))
print("predict: ",nb.predict([[7,5],[7.5,4]]))

运行截图如下: 朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

2.2 使用MultinomailNB(多项式分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析

首先,上面的步骤肯定已经做完了,我们接下来在之前的基础上,使用MultinomailNB给鸢尾花特征分类 先保证朴素贝叶斯算法naive_bayes成功引入:

from sklearn import naive_bayes

还有就是load_iris模块,这里省略。 我们使用多项式分布MultinomailNB分类器,如下代码:

mu=naive_bayes.MultinomialNB()

标准如下:

naive_bayes.MultinomialNB(alpha=1.0, 
										fit_prior=True, 
										class_prior=None)

alpha:浮点可选参数。默认值为1.0。实际上,它添加了拉普拉斯平滑,即λ,如果该参数设置为0,则不添加平滑; fit_prior:布尔可选参数。 是输出为类别K的训练集样本数。 class_prio:可选参数。默认值为“无”。

这里我们选择使用第2,3特征进行鸢尾花特征分类,代码如下:

mu.fit(X[:,1:3],y)

给鸢尾花分类,输出训练得分和预测,如下代码:

print("training score: ",mu.score(X[:,1:3],y))
print("predict: ",mu.predict([[5,2],[4,7]]))

运行截图如下: 朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

2.3 使用GaussianNB(高斯分布)给鸢尾花分类,写出代码,对运行结果截图并对分类结果进行分析;

我们接下来在之前的基础上,使用GaussianNB给鸢尾花特征分类 先保证朴素贝叶斯算法naive_bayes成功引入:(省略),还有就是load_iris模块,这里省略。 我们使用多项式分布GaussianNB分类器,如下代码:

bayes = naive_bayes.GaussianNB()

这里我们选择使用第全特征进行鸢尾花特征分类,代码如下:

bayes.fit(X,y)

给鸢尾花分类,输出训练得分和预测,如下代码:

print("training score: ",bayes.score(X,y))
print("predict: ",bayes.predict([[7,5,2,0.5],[7.5,4,7,2]]))

运行截图如下:朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】

2.4 总结

需要充分的了解了贝叶斯定理和朴素贝叶斯算法的相关内容。初步可以使用BernoulliNB(伯努利分布),MultinomailNB(多项式分布),GaussianNB(高斯分布)给鸢尾花分类。 主要: 1.熟悉机器学习之朴素贝叶斯算法 2.使用朴素贝叶斯算法解决问题 朴素贝叶斯算法之鸢尾花特征分类【机器学习】【伯努利分布,多项式分布,高斯分布】