贝叶斯分类法:一种统计学分类方法。能给定一个元组属于一个特定类的概率。该方法基于贝叶斯定理
比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类算法可以与决策树和神经网络分类算法媲美。大型数据库中贝叶斯分类法也表现出高准确率和高速度。
朴素贝叶斯分类法假定一个属性值对给定类的影响独立于其他属性值。这一假定称作类条件独立性。做此假定为了简化所需要的计算,并在此意义下称为‘朴素的’。
贝叶斯信念网络是图形模型,他能表示属性子集间的依赖,也可用于分类。
1.贝叶斯定理
设X是数据元组,贝叶斯术语中,X看作‘证据’。X用n个属性集的测量描述。令H为某种假设,例如数据元组X属于某特定类C。对于分类问题,希望确定P(H|X),即给定X的属性描述,找出元组X属于类C的概率。
P(H|X)是后验概率,即在条件X下,H的后验概率。例如,假设数据元组受限于分别由属性age和income描述的顾客,而X是一位35岁的顾客,收入为40000美元。假定H表示假设我们的顾客将购买计算机。则P(H|X)反映当我们知道顾客的年龄和收入时,顾客X将购买计算机的概率。
相反,P(H)是先验概率,或H的先验概率。对于我们的例子,它是任意给定的顾客将购买计算机的概率,而不管他们的年龄、收入或其他信息。
后验概率P(H|X)比先验概率P(H)基于更多的信息(例如顾客的信息)。P(H)独立于X。
类似地,P(X|H)是条件H下,X的后验概率。它是已知顾客X购买计算机,该顾客是35岁并且收入为40000美元的概率。
P(X)是X的先验概率。即顾客集合中一个人年龄为35岁并且收入为40000美元的概率。
---------------------------
如何计算和估计这些概率?
P(X)、P(H)和P(X|H)可以由给定的数据估计。贝叶斯定理是有用的,它提供了一种由P(X)、P(H)和P(X|H)计算后验概率P(H|X)的方法。
贝叶斯定理是:
----------------------------
朴素贝叶斯分类(又称简单贝叶斯分类法):
(1)设D是训练元组和相关联的类标号的集合。每个元组用一个n维属性向量X={x1,x2,···,xn}表示,描述由n个属性A1,A2,···,An对元组的n个测量。
(2)假定有m个类C1,C2,···,Cm。给定元组X,分类法将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类法预测X属于类Ci,当 且仅当P(Ci|X)>P(Cj|X) 1≤j≤m,j≠i
这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假设。
根据贝叶斯定理: