贝叶斯定理:
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是指在B发生的情况下A发生的可能性。贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1763)曾提出计算条件概率的公式用来解决如下一类问题:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现,且已知条件概率P(A/H[i]),求P(H[i]/A)。以下是贝叶斯公式:
贝叶斯公式的例子:
1.一座别墅在过去的20年里,一共发生过2次被盗,别墅的主人有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率为0.9,求狗叫时发生入侵的概率是多少。
令狗在晚上叫为A事件,则P(A)=3/7,盗贼入侵为B事件P(B)=2/(20*365)=1/3650,已知盗贼入侵狗叫的概率为0.9,即P(A|B)=0.9,根据贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A)=(0.9*1/3650)/(3/7)=0.00058
2.现分别有A、B两个容器,在容器A里分别有7个红球和3个白球,在容器B里有1个红球和9个白球,现已知两个容器里任意抽出一个球,问这个球是红球且来自容器A的概率有多少?
假设摸到红球为事件A,来自A容器为事件B,P(A)=8/20,P(B)=1/2,P(A|B)=7/10表示这个球来自A容器是红球的概率,P(B|A)=P(A|B)/P(A)=(1/2)*(7/10)/(8/20)=7/8
朴素贝叶斯分类器:对已知类别,假设所有属性相互独立。求在属性影响概率最大的类别。
关键求出P(y1|x),......,p(yn|x):x表示属性集合,yi指的是类别,即表示属性对不同类别的影响概率,求出概率最大的即为相应的类别。根据公式P(yi|x)=P(x|yi)/P(x),因为对于每种类别,x都相同,即P(x)都相同,所以求P(yi|x)最大,就是求P(x|yi)最大。而P(x|yi)可以转化为P(x|yi)=P(x1|yi)*P(x2|yi)*.......*P(xn|yi),而P(xj|yi)表示yi类别下,xj存在的概率。
根据以上过程可以将朴素贝叶斯分类器对数据集处理可以分为三步骤:
1.预处理:对数据集按特征属性进行划分,形成训练样本集合,分类器的质量由特征属性、特征属性划分以及训练样本质量决定
2.训练分类器:计算每个类别在训练样本中出现的频率以及每个特征划分时每个类别的条件概率估计。输入是特征属性和训练样本,输出是分类器
3.进行数据预测,模型应用。输入是分类器和待分类项,输出是待分类项与类别的关系。
以上分类器训练模型以及模型应用调用的是朴素贝叶斯算法:其算法实现的步骤:
1.计算先验概率的估计值以及条件概率的估计值:
2.对于给定的实例x进行计算不同类别下的概率
3.比较各个概率值,求最大值,返回最大值对应的分类
朴素贝叶斯分类器的优缺点:
优点:
1.朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定分类效率
2.朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法比较简单
3.无需复杂的迭代求解框架,适用于规模巨大的数据集
缺点:
1.属性之间的独立性假设往往不成立(可考虑用聚类算法先将相关性比较的属性进行聚类)
2.需要知道先验概率,分类决策存在错误率
朴素贝叶斯分类器的应用:新闻分类、病人分类、账号分类、性别分类、投资决策