------------序
贝叶斯公式:
从上面这幅可以看出,绿色的线条将这两个高斯函数分成两部分,那此刻分类就可以实现了。即一个点如果在绿色的左边,简单的来讲,它离红色线条比较近,所以可以认为是属于红色这一类别,相反则属于蓝色类别。
当然,这里利用高斯密度函数作为分类解释来说,实在是过于简单,这里没有考虑高斯函数之间的一种相关性(在以后的文章中再解释)。
贝叶斯公式分类的精髓:
那从上面可以了解到只要我们能够很好的建立高斯分布函数的模型,也就是知道两类各自的均值,标准差,那最终就可以像画绿线一样,找到一个分类的临界点。现在的关键是怎样利用贝叶斯公式来建立这样的模型了。
将前面贝叶斯公式变化如下:
首先应该了解的是统计学中经典的概率公式:事件A与事件B发生的概率用P(A)与P(B)来表示。这里面还有诸多概率的性质,诸如互斥呀,独立呀等等,鉴于此刻主要记录贝叶斯分类器这玩意,想想还是作罢。
那什么是贝叶斯分类器,最简单的来讲,利用贝叶斯变换公式的分类算法就是贝叶斯分类器。
这里,有一个最最最重要的公式:先验概率与后验概率的转换的公式。
上述就是最最经典的概率先验概率转成后验概率的公式。可以这么想想,在分类问题中,我们只能知道先验概率的情形,比如一个人喜欢咖啡或者红茶的概率可以从他每天要咖啡或者红茶的频率中统计出来,这其实就好比我们得到了这个人喜欢咖啡或者红茶的先验概率,那用这个先验概率来猜测未知的某一天,他来商店买咖啡还是红茶。当然,明眼人都能看出来,这种预测肯定不会百分之百的准确,那之所以称之为概率,那也正式因为这些事情的不确定性以及可以预知性的存在。
高斯分布函数:
那现在的问题来了,为什么利用贝叶斯公式就可以做到区别类别的效果呢?在这里,先引入一个分布函数----高斯分布。
上面的公式是高斯分布的密度函数的标准形态(标准形态是带参数形态,并非指标准的高斯分布),下面的图是标准差为1,均值为0的标准高斯分布的图像。
高斯函数分类:
好了,高斯分布的图像也画出来,针对前面的为什么可以利用贝叶斯公式来进行分类,这里可以好好利用高斯分布来看。接下来,在同一副图像中画出两个均值不同,标准差也不一样的高斯函数。
那什么是贝叶斯分类器,最简单的来讲,利用贝叶斯变换公式的分类算法就是贝叶斯分类器。
这里,有一个最最最重要的公式:先验概率与后验概率的转换的公式。
上述就是最最经典的概率先验概率转成后验概率的公式。可以这么想想,在分类问题中,我们只能知道先验概率的情形,比如一个人喜欢咖啡或者红茶的概率可以从他每天要咖啡或者红茶的频率中统计出来,这其实就好比我们得到了这个人喜欢咖啡或者红茶的先验概率,那用这个先验概率来猜测未知的某一天,他来商店买咖啡还是红茶。当然,明眼人都能看出来,这种预测肯定不会百分之百的准确,那之所以称之为概率,那也正式因为这些事情的不确定性以及可以预知性的存在。
高斯分布函数:
那现在的问题来了,为什么利用贝叶斯公式就可以做到区别类别的效果呢?在这里,先引入一个分布函数----高斯分布。
高斯函数分类:
好了,高斯分布的图像也画出来,针对前面的为什么可以利用贝叶斯公式来进行分类,这里可以好好利用高斯分布来看。接下来,在同一副图像中画出两个均值不同,标准差也不一样的高斯函数。
很明显可以看到,如果有一条垂直于X轴且经过原点的直线,如下图绿线所示:
当然,这里利用高斯密度函数作为分类解释来说,实在是过于简单,这里没有考虑高斯函数之间的一种相关性(在以后的文章中再解释)。
贝叶斯公式分类的精髓:
那从上面可以了解到只要我们能够很好的建立高斯分布函数的模型,也就是知道两类各自的均值,标准差,那最终就可以像画绿线一样,找到一个分类的临界点。现在的关键是怎样利用贝叶斯公式来建立这样的模型了。
将前面贝叶斯公式变化如下:
上述公式中,C代表类别,X代表特征,很明显,我们做出预测肯定是利用当前的特征,来判断输出的类别。注:上面的贝叶斯公式非常的简单,具体情况见各种分类的书籍。
当然这里也可以很明显的看到贝叶斯公式先验与后验概率之间的转换,很明显, P(c|x) 在我们的定义里面是后验概率,也是我们想要得到的东西。而P(x)、P(c) 以及P(x|c)都是先验概率,它们分别X特征出现的概率,C类出现的概率,C类中,出现X的概率。而第一项对于多类分类来说,都是一样,都是当前观察到的特征,所以此项可以略去。那最终的结果就是计算P(x|c)*P(c) 这一项,P(c)是可以通过观察来解决的。重点也就全部落在了P(x|c)上,上面对于此项的解释是在C类中,X特征出现的概率,其实简单来讲,就是X的概率密度。
当然这里也可以很明显的看到贝叶斯公式先验与后验概率之间的转换,很明显, P(c|x) 在我们的定义里面是后验概率,也是我们想要得到的东西。而P(x)、P(c) 以及P(x|c)都是先验概率,它们分别X特征出现的概率,C类出现的概率,C类中,出现X的概率。而第一项对于多类分类来说,都是一样,都是当前观察到的特征,所以此项可以略去。那最终的结果就是计算P(x|c)*P(c) 这一项,P(c)是可以通过观察来解决的。重点也就全部落在了P(x|c)上,上面对于此项的解释是在C类中,X特征出现的概率,其实简单来讲,就是X的概率密度。
概率密度----哈哈,这里不就可以跟高斯密度函数结合起来了嘛。那么整个贝叶斯分类器的框架就是这样的:
1. 提取当前各个类别的特征,利用高斯密度函数建立每个类别的概率密度函数。此为先验概率密度函数。
2. 在进行预测的时候,提取同样的特征,但特征值可能不一样。(例如,咖啡都提取形状,但有可能有的杯子大,有的小罢了)。将这些特征带入各个类别中计算 ,最终,当然是选择一个此项值最大的情况啦。
整个贝叶斯分类的简单框架基本上如上所示,至于为什么用高斯密度函数去拟合数据,这以后再说。
心得:
以前一直都觉得概率这玩意,太虚,所以一直没有把它放在心上,因为我一直对虚的东西提不起兴趣,所以没办法,更多的偏注在线性代数。现在好了,用的时候死磕概率,还终于明白了一点,其实贝叶斯分类器之所以能够成形,也真的是得力于贝叶斯公式的存在,此公式将世界外物的前序状态与当前状态建立了一个必然的连接,使得预测成为了一种可能。真心打心里佩服贝叶斯这类人。
我~~Keep on~~
1. 提取当前各个类别的特征,利用高斯密度函数建立每个类别的概率密度函数。此为先验概率密度函数。
2. 在进行预测的时候,提取同样的特征,但特征值可能不一样。(例如,咖啡都提取形状,但有可能有的杯子大,有的小罢了)。将这些特征带入各个类别中计算 ,最终,当然是选择一个此项值最大的情况啦。
整个贝叶斯分类的简单框架基本上如上所示,至于为什么用高斯密度函数去拟合数据,这以后再说。
心得:
以前一直都觉得概率这玩意,太虚,所以一直没有把它放在心上,因为我一直对虚的东西提不起兴趣,所以没办法,更多的偏注在线性代数。现在好了,用的时候死磕概率,还终于明白了一点,其实贝叶斯分类器之所以能够成形,也真的是得力于贝叶斯公式的存在,此公式将世界外物的前序状态与当前状态建立了一个必然的连接,使得预测成为了一种可能。真心打心里佩服贝叶斯这类人。
我~~Keep on~~
参考文献:
[1] 李航. 统计学习方法. 清华大学出版社.
[2] http://en.wikipedia.org/wiki/Bayes'_theorem