【机器学习基本理论】详解最大后验概率估计（MAP）的理解

https://blog.csdn.net/weixin_42137700/article/details/81628065

最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。上篇讲解了MLE的相应知识。【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解下面讲解最大后验概率MAP的相关知识。 1最大后验概率估计最大似然估计是求参数theta, 使似然函数p(x0|theta)最大。最大后验概率估计则是想求theta使得p(x0|theta)p(theta)最大。

求得的theta不单单让似然函数大，theta自己出现的先验概率也得大。（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法）

MAP其实是在最大化p(theta|x0)=p(x0|theta)p(theta)/p(x0),不过因为x0是确定的（即投出的“反正正正正反正正正反”），p(x0)是一个已知值，所以去掉了分母p(x0) （假设“投10次硬币”是一次实验，实验做了1000次，“反正正正正反正正正反”出现了n次，则p(x0)=n/1000总之，这是一个可以由数据集得到的值）。最大化p(theta|x0)的意义也很明确，x0已经出现了，要求theta取什么值使p(theta|x0)最大。顺带一提，p(theta|x0)即后验概率，这就是“最大后验概率估计”名字的由来。

对于投硬币的例子来看，我们认为（”先验地知道“）theta取取0.5的概率很大，取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识，例如假设p(theta)为均值0.5，方差0.1的高斯函数，如下图：【机器学习基本理论】详解最大后验概率估计（MAP）的理解

则p(x0|theta)p(theta)的函数图像为：

【机器学习基本理论】详解最大后验概率估计（MAP）的理解注意，此时函数取最大值时，theta取值已向左偏移，不再是0.7。实际上，在theta=0.558时函数取得了最大值。即，用最大后验概率估计，得到theta=0.558。

最后，那要怎样才能说服一个贝叶斯派相信theta=0.7呢？你得多做点实验。。

如果做了1000次实验，其中700次都是正面向上，这时似然函数为: 【机器学习基本理论】详解最大后验概率估计（MAP）的理解

如果仍然假设p(theta)为均值0.5，方差0.1的高斯函数，则p(x0|theta)p(theta)的函数图像为：【机器学习基本理论】详解最大后验概率估计（MAP）的理解

在theta=0.696，p(x0|theta)p(theta)取得最大值。

这样，就算一个考虑了先验概率的贝叶斯派，也不得不承认得把theta估计在0.7附近了。

PS. 要是遇上了顽固的贝叶斯派，认为p(theta=0.5)=1，那就没得玩了。。无论怎么做实验，使用MAP估计出来都是theta=0.5。这也说明，一个合理的先验概率假设是很重要的。（通常，先验概率能从数据中直接分析得到）

2最大似然估计和最大后验概率估计的区别相信读完上文，MLE和MAP的区别应该是很清楚的了。 MAP就是多个作为因子的先验概率p(theta)。或者，也可以反过来，认为MLE是把先验概率p(theta)认为等于1，即认为theta为均匀分布，无论theta为何值，p(theta)均为1 文章地址：http://blog.csdn.net/u011508640/article/details/72815981

秒客网

【机器学习基本理论】详解最大后验概率估计（MAP）的理解

相关文章