贝叶斯分类器

时间:2022-06-10 10:07:49

原文https://cwiki.apache.org/confluence/display/MAHOUT/NaiveBayes

贝叶斯分类器是对属性集和类变量的概率关系建模的方法。

定理定义:

假设H[,1],H[,2]…,H[,n]互斥且构成一个完全事件,已知它们的概率P(H[,i]),i=1,2,…,n,现观察到某事件A与H[,1],H[,2]…,H[,n]相伴随而出现,且已知条件概率P(A/H[,i]),求P(H[,i]/A)。

贝叶斯公式(发表于1763年)为: P(H[,i]/A)=P(H[,i])*P(A│H[,i])/{P(H[,1])*P(A│H[,1]) +P(H[,2])*P(A│H[,2])+…+P(H[,n])*P(A│H[,n])}

朴素贝叶斯

朴素贝叶斯算法,通常用于二元分类。这是一种最常见的用于垃圾邮件过滤器的学习算法。尽管它基于很简单的假设,但在实践中已被证明算法效果超出预期。

在应用算法之前,以被分类的对象需要用数值来表示它们的类别特征。可以通过一些特定词的存在与否去判断垃圾邮件的特征以便对邮件分类。该算法有两个阶段:学习和应用。
在学习阶段,一个特征矢量集合被应用于算法上进行训练,并且每一组特征向量有着所属类别的标记。通过学习阶段来确定垃圾邮件中高频出现的信息。鉴于此信息,在应用过程中,可以很容易地计算出一个新的邮件是垃圾邮件的概率。

算法有这些假设,大多数数据集是不真实的,但这些数据更容易统计。最坏情况是所有的特征相互之间是独立的。在实际工作中,这意味着,已经出现在文本中的 “*女神像”与“纽约”一次毫无逻辑关联。

并发的朴素贝叶斯战略

见https://issues.apache.org/jira/browse/MAHOUT-9 。
示例

20Newsgroups - 示例代码显示如何培训和使用朴素贝叶斯分类,使用20个新闻组数据在http://people.csail.mit.edu/jrennie/20Newsgroups/


Complementary Naive Bayes

无翻译