朴素贝叶斯基本原理&sklearn实现-理论

时间:2024-03-13 16:04:00

先验概率:根据以往的分析经验得到的概率,先验概率不需要样本数据
后验概率:根据数据的特征进行分析
联合概率:几个事件同时发生的概率,P(瓜熟,瓜蒂脱落)

  1. 定义
    贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。 而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法, 分类原理就是利用 ### 贝叶斯公式 ### 根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率作为该特征所属的类。
    贝叶斯公式:。。。。
    转化: ### p(类别|特征)=p(特征|类别)*p(类别)/p(特征) ###

    朴素贝叶斯:假设 ### 各个特征之间相互独立 ###

  2. 拉普拉斯平滑
    在某个分类下, 为防止训练集中某个特征值和某个类别未同时出现过,导致预测概率为0。 所以需要进行平滑处理 。当平滑系数为1时,为拉普拉斯平滑。

  3. sklearn中的朴素贝叶斯算法 api, 参考:https://zhuanlan.zhihu.com/p/366787872

在scikit-learn库,根据特征数据的先验分布不同,给我们提供了5种不同的朴素贝叶斯分类算法
(sklearn.naive_bayes: Naive Bayes模块),分别是
        伯努利朴素贝叶斯(BernoulliNB),
        类朴素贝叶斯(CategoricalNB),
        高斯朴素贝叶斯(GaussianNB)、
        多项式朴素贝叶斯(MultinomialNB)、
        补充朴素贝叶斯(ComplementNB) 。
  1. 朴素贝叶斯分类器适用于以下场景
    朴素贝叶斯分类器的应用场景非常广泛,只要能将问题转化为分类问题,且能够使用先验概率和条件概率来描述问题,都可以考虑使用朴素贝叶斯分类器。
1.文本分类:可以用于垃圾邮件过滤、新闻分类、情感分析等。
2.个性化推荐:可以用于基于用户历史数据进行推荐,如购物网站的商品推荐、音乐推荐等。
3.生物信息学:可以用于基因分类、蛋白质分类等。
4.医学诊断:可以用于疾病分类、药物疗效预测等。
5.图像识别:可以用于图像分类、人脸识别等
6.金融风险评估:可以用于信用评估、欺诈检测等。