贝叶斯网络
贝叶斯网络又称为信度网络或信念网络(belief netwroks),是一种基于概率推理的数学模型,其理论基础是贝叶斯公式。
定义
贝叶斯网络由一个有向无环图和一个条件概率表组成。无环图中的结点表示随机变量,有向边表示条件依赖关系。两个结点没有连接关系表示两个随机变量能够在某些特定的情况下条件独立,而有连接关系表示两个结点在任何情况下都不存在条件独立。条件概率表描述联合分布概率。
贝叶斯网络中的每一个结点都与一个概率函数相关,概率函数的输入是该结点的父结点所表示的随机变量的一组特定值,输出为当前结点表示的随机变量的概率值。概率函数值的大小实际上表达的是结点之间依存关系的强度。
例子
使用贝叶斯网络的目的是通过概率推理处理不确定性问题和不完整性问题。
下图是一个简单的贝叶斯网络,它描述了这样一组事件:
- News - 报刊中的一篇文章是关于某地的新闻
- Sightseeing - 这篇文章包含当地的风光有关的内容
- History - 这篇文章包含当地历史有关的内容
其对应的联合概率函数为:
通过这个模型,可以用来回答一些问题,例如:
如果有一篇文章包含某地历史的内容,那么这篇文章是关于此地的新闻的概率是?
KaTeX parse error: No such environment: align at position 8:
\begin{̲a̲l̲i̲g̲n̲}̲
P(N=T|H=T)&=\f…
结构
贝叶斯网络中两个变量通过中间变量间接相连的方式主要有顺连、分连、汇连三种形式。
-
顺连
-
当 未知时, 的变化会影响 的置信度变化,从而间接影响 的置信度,此时 和 不独立。
-
当 已知时, 的变化不能影响 的置信度,也不能影响 的置信度,此时 和 独立。在这种情况下, 和 的信息通道被阻断了。
- 分连
分连的情况下,一个原因会导致多个结果
- 当 未知时, 和 可以相互影响,此时 和 不独立。
- 当 已知时, 和 不能相互影响,此时 和 独立。
- 汇连
汇连与分连的情况相反,表示多个原因导致一个结果
- 当 未知时, 和 不能相互影响,此时 和 独立。
- 当 已知时, 和 可以相互影响,此时 和 不独立。
构造贝叶斯网络
构建贝叶斯网络是一项复杂的任务,涉及表示、推断和学习三个方面的问题。
(1)表示:在随机变量集合 上给出其联合概率分布 。
(2)推断:贝叶斯网络可以推理关于随机变量变化的问题,如当观察到某些变量(证据变量)时,推断另一些变量子集的变化。在已知某些证据的情况下计算变量的后验分布的过程叫做概率推理。常用的精确推理方法包括变量消除法(variable elimination)和团树法(clique tree)。常用的近似推理算法有重要性抽样法(importance sampling)、随机马尔可夫链蒙特卡洛(Markov chain Monte Carlo)模拟法、循环信念传播法(loopy belief propagation)和泛化信念传播法(gereralized belief propagation)等。
(3)学习:参数学习的目的是决定变量之间相互关联的量化关系(确定条件概率表),通常使用最大似然估计法、最大后验概率法、期望最大方法和贝叶斯估计方法。除了参数学习外还需要确定变量之间的图关系,即结构学习。在简单的情况下贝叶斯网络可以由专家人工构造,但是在多数实用的系统中这一过程过于复杂,必须从大量数据中学习网络结构和局部分布的参数。
参考资料
- 宗成庆. 统计自然语言处理(第2版). 统计自然语言处理. 2008.
- cxjoker.贝叶斯系列:(三)贝叶斯网络
- 汤高.数据挖掘算法之贝叶斯网络
- 张洋.算法杂货铺——分类算法之贝叶斯网络(Bayesian networks)
本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。欢迎转载,演绎,但是必须保留本文的链接,不得用于商业目的。如您有任何疑问或者授权方面的协商,请与我联系。