- 这几天在写BayesWipe,写到条件概率表(CPT,Conditional Probability Table)的时候,感觉对贝叶斯网络的参数学习还是有些不清楚,因此想整理一下贝叶斯信念网络(BBN,Bayesian Belief Network)的一些概念,包括一些方法的整理。
- 参照一份PPT:https://wenku.baidu.com/view/83ed4295b90d6c85ed3ac6a5.html
- 不知道算不算原创,不过都是我手打下来的
- 贝叶斯网络简介
- 概率图模型的关系(包含关系):
- 概率模型
- 图模型
- 有向图模型(贝叶斯网络)
- Alarm network
- State-space models
- Naive Bayes Classifier 朴素贝叶斯分类器
- PCA/ICA 降维?
- HMM 隐马尔可夫模型
- 无向图模型(Markov网络)
- Markov随机场
- Boltzmann Machine
- Ising model
- Max-ent model
- Log-linear models
- 。。只听说过MRF,可以用Markov Logic Network作为模板生成
- 基本思路
- 贝叶斯网络是为了处理人工智能领域研究中的不确定性而发展起来的。
- 它将概率统计应用于复杂领域进行不确定性推理和数据分析的工具。
- 贝叶斯网络可以系统地描述随机变量之间的关系,然后进行概率推理。
- 使用概率论处理不确定性可以保证推理结果的正确性。
- 重要原理
- 链式法则:P(X1,X2,...XN) = P(X1)P(X2|X1)P(X3|X1,X2)...P(XN|X1,X2,...XN)
- P(A,B)=P(A)*P(B|A)记住这个就行了
- 也简单,知道了A发生的概率,A发生的情况下B发生的概率,相乘显然是A,B同时发生的概率咯
- 贝叶斯定理:P(A|B)=P(A)*P(B|A)/P(B)
- 基于上述公式P(A,B)=P(A)*P(B|A)=P(B)*P(A|B)
- 利用变量间条件独立性
- P(X1,X2...XN)=∏P(Xi|π (Xi))
- 应该是P(Xi|X1,X2,X3,X4..XN)=∏P(Xi|π (Xi)),其中π (Xi)是父节点,后验概率应该只和父节点有关。
- 一些问题
- BBN是什么
- 贝叶斯网络是一个基于网络的用来表达和分析包含了不确定性的模型的框架
- BBN用来该拿什么
- 辅助智能决策、数据融合,特征识别...
- 怎么来的
- 交叉了人工智能、决策分析、统计等
- 贝叶斯网络的几个主要问题
- 贝叶斯网络概率推理(Probabilistic Inference)
- 结构学习(Structure Learning)
- 参数学习(Parameter Learning)
- 分类(Classification)
- 隐变量和隐式结构学习(Hidden variables and hidden structure learning)
- 推导:
- 详情见图
-
- P(Z1|X1)=P(Z1|Y1,X1)P(Y1|X1)+P(Z1|Y2,X1)P(Y2|X1)
- 这里X1,X2/Y1,Y2的并集都是数据点的全集,所以可以这么做
- P(Z2|X1)=1-P(Z1|X1)
- P(W1|X1)可以一样的求出来
- P(Y1)的话可以用P(X1,Y1)+P(X2,Y1)来求,然后通过贝叶斯公式
- 同理P(Z1),P(W1)也可以链式求得
- 最后我们得到了P(W1|X1)和P(W1)和P(X1)『P(X1) 是一个已知的量』
- 可以根据贝叶斯定理求出X1的后验概率了P(X1|W1)
- 为什么要用贝叶斯网络进行概率推理
- 理论上,概率推理所需要的知识一个联合概率分布,但是联合概率分布的复杂度相对于变量个数成指数增长,所以变量众多的时候不可行。
- 贝叶斯网络解决了这个问题
- 它把复杂的联合概率分布分解成一系列相对简单的模块,那样就可以降低知识获取(Knowledge Acquisition)和概率推理的复杂度,可以把概率论应用到大型问题上。
- 统计学、系统工程、信息论和模式识别等众多学科中的多种模型:
- 朴素贝叶斯模型
- 隐类模型
- 混合模型
- HMM
- ...
- 动态贝叶斯网络主要用于对多维离散时间序列的监控和预测。
- 多层隐类模型,能够揭示观测变量背后的隐结构。
- 概率论基础
- 一个核心概念是条件独立:Conditional Independence
- 给定变量集合X=(X1,X2,...,Xn),变量Xi的父节点结合π (Xi)。我们可以用有向图来表示变量之间依赖和独立关系
- 每个变量(也就是Feature)都是一个节点
- 对每个节点Xi,都从π (Xi)中的每个节点引一条有向边道Xi。
- 父节点->子节点
- BBN是一个DAG,节点表示随机变量,节点间的边表示变量间的直接依赖关系。
- BBN应用
- 医疗诊断、工业、编码学、生物信息学、时序数据等等
-
贝叶斯网络学习
-
结构学习:发现变量之间的图关系
- 选择具有最大后验概率的结构
- P(Mi|D)=P(D|Mi)P(Mi)/P(D)
-
基于评分函数(Scoring function)
- BIC/MDL/AIC等等
- BNJ和Banjo都有实现这种方法
- BIC:
-
- 结构学习算法
- K2算法:
- 通过为每个结点寻找父结点集合来学习贝叶斯网络结构。它不断往父结点中集中添加节点,并选择能够最大化数据和结构的联合概率『P(X1,X2,X3...X4)』的节点集合。
- HillClimbing
- 从一个无边结构开始,在每一步,它添加能够最大化BIC的边。算法在通过添加边不能再提高结构得分时停止。
- 缺值数据结构学习:Structural EM
- SEM不是每次迭代都同时优化结构模型和参数,而是先固定模型结构进行数次参数优化后,再进行一次结构加参数优化,如此交替进行(大概跟GMM差不多吧)
- 目的是减小计算复杂度。
- BN结构
- 建立过程
-
- 从数据中学习BN的结构
- 基于熵(Entropy)的算法
- 最早的方法
- 用树和多边树的形式
- 条件独立
- 定义每个结点的条件独立性(Markov边界)
- 从Markov边界中推理出依赖性
- 基于score的度量
- 实现得最多最广泛的方法
- 定义一个质量的度量,并且最大化
- 使用贪心搜索来决定要添加的最佳的结构
- 但度量不再增加的时候,停止
- 模拟退火法和遗传算法
- 相比于贪心搜索,更加高级的方法,同样用于score-based method
-
参数学习:发现变量之间的互相关联的量化关系
- 最大似然估计
- 完全基于数据,不需要先验概率
- L(θ;D)=∏P(X[m],Y[m];θ) 其中m是每一条数据
-
我们可以在网络结构中知道X[m],Y[m]在θ下的公式,然后再进行最大似然估计
-
如图:
-
贝叶斯估计
- 有了最大似然估计的函数,加上先验概率,然后最大化后验概率就可以了。
- 这个比较复杂
- 缺值数据最大似然估计(EM算法)
- 基于θt 对数据进行修补,使之完整『E-step』
-
对修补后的完整数据计算最大似然估计θt+1『M-step』
-
隐结构模型学习
-
隐变量是取值未被观察到的变量,通过数据分析:
- 隐变量个数
- 隐结构
- 隐变量的势
- 模型参数
-
方法:基于评分函数的爬山法
-
BIC:
-
- 隐变量势学习爬山算法
- 隐结构学习双重爬山法。。。。
-
贝叶斯网络推理:建立了贝叶斯网络后,我们可以基于BBN推理得到变量的概率
- 贝叶斯网络可以利用变量间的条件独立对联合分布进行分解,降低参数个数。
- 推理是通过计算来回答query的过程
- 计算后验概率分布P(Q|E=e)
- 基础知识
- 图分割和变量独立(图分割、有向分割)
- 变量X和Y通过第三个变量Z相连接的三种情况
-
- 阻塞
- 设X为一节点集合,X和Y是不在Z中的两个节点,考虑X和Y之间的一条通路,如果满足下面的条件之一,则称被X阻塞:
- 有一个在Z中的顺连节点;
- 有一个在Z中的分连节点;
- 有一个汇连节点,它和它的后代均不在Z中。
-
- 如果X和Y之间的所有通路都被Z阻塞,那么我们说Z有向分割X和Y,简称d-separate,d分割
- 则X和Y在给定条件Z时,条件独立。
- =》(定理)整体Markov性设X和Y为贝叶斯网N中的两个变量,Z为N中一个不包含X和Y的节集合,如果Z d-分割X和Y,那么X和Y在给定Z时条件独立
- d-分割是图论的概念,而条件独立是概率论的概念,所以定理揭示了贝叶斯网络图论侧面和概率论侧面之间的关系。
- Markov边界与端正图
- Markov边界
- 在贝叶斯网络中,一个节点的Markov边界包括了它的父节点、子节点以及子节点的父节点
- 也就是爸爸儿子叔叔
- 端正图(Moral graph):团树传播算法-junction tree
- 设G是一个DAG,如果将G中每个节点的不同步节点结合,也就是在它们之间加一条边,然后去掉所有边的方向,所得到的无向图就是G的端正图。
- 网络推理算法
- 精确推理算法
- 变量消元算法
- 利用概率分解降低推理复杂度
- 如果有贝叶斯网络如下:
- A->B->C->D
- 可以利用一系列规则去掉、提取出条件独立的概率
- 使得运算局部化,消元过程实质上就是一个边缘化的过程。
- 最优消元顺序:最大势搜索,最小缺边搜索
- ...不是很懂
- 团树传播算法
- 利用步骤共享来加快推理的算法
- 团树是一种无向树,其中每一个节点代表一个变量集合,成为团(Clique)。团树必须满足变量的连通性,也就是包含同一变量的所有团所导出的子图必须是连通的。
- http://www.cnblogs.com/ironstark/p/5151713.html
- 近似推理
- 随机抽样:
- 这是一类应用于数值积分和统计物理中的近似计算方法。基本思想是从某个概率分布随机抽样,生成一组样本,然后从样本出发近似计算感兴趣的量。
- MCMC算法-Gibbs Sampling
- 首先随机生成一个与Evidence E=e一致的样本s1作为起始样本,此后,每个样本呢si的产生都依赖于前一个样本si-1,且si与si-1最多只有一个非证据变量的取值不同,记改变量为X。
- X的取值可以从非证据变量中随机选取,也可以按照某个固定顺序轮流决定。
- 在si中,X的值通过随机抽样决定,抽样分布是
- 当样本数N趋向于无穷的时候,Markov Chain理论保证了算法返回的结果收敛于真正的后验概率,Gibbs Sampling的缺点是收敛速度很慢,因为Markov Chain要花很长时间才能真正达到平稳分布。
- 随机抽样算法的理论基础是大数定理。
- 变分法(没解释)
- jibenshang