图模型的主要应用场景为欺诈侦测报警,从各个特征出现的频率对异常概率进行预警。概率图模型所涉及到的知识点非常广,所以对读者的基础知识要求也相对较高。
现在借助以下几个问题开始概率图模型的学习:
- 为什么需要概率图模型及其优点?
- 概率图模型都有哪些应用模型?
为什么需要概率图模型?
对于复杂系统理解和拆分,图应当是首选的分析利器。概率图模型就是一类用图形模式表达基于概率相关关系的模型的总称。概率图模型结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。
也就是说,概率图模型是用图来表示实体之间的关联和约束,具体到机器学习领域就是特征和类别、特征和特征之间以及类别和类别之间的关联和约束。
图的表达能力非常强,仅仅用点和线就可以表达实体之间复杂的关系。如果给关联实体的边再加附加上概率,就近一步表达了实体之间关系的强弱和推理逻辑。
概率图模型具体可以给我们带来什么呢?这里可以简单概括一下:
- 分类任务中,借助概率图建立实体之间紧凑的依赖关系,可以减小类后验概率计算所需的参数估计工作量。
- 概率图模型可以很容易与专家和领域知识结合,比如做一些实体之间的独立性假设,简化系统实体之间的依赖关系。
网络结构
概率图模型如图主要分为两种,即贝叶斯网络和马尔可夫网络。
贝叶斯概率图模型是有向图,因此可以解决有明确单向依赖的建模问题,而二马尔可夫概率图模型是无向图,可以适用于实体之间相互依赖的建模问题。这两种模型以及两着的混合模型应用都非常广泛。
概率图模型可以很清晰的表达实体之间的依赖以及导出联合概率以及条件概率的计算公式。
- 贝叶斯概率图依赖分析及联合概率因子分解。 (B⊥C|A) (D|B,C) P(A,B,C) = P(A)P(B|A)P(C|A)P(D|B,C)
- 马尔可夫概率图依赖分析及联合概率因子分解。 (B⊥C|A,D) (A⊥D|B,C) P(A,B,C) = φ1(A,B)φ2(B,C)φ3(C,D)φ4(A,D)/Z (Z为归一化因子,φ一般为指数函数)
可以看出,有向图的联合概率可以写成各条件概率的乘积,而无向图的联合概率可以写成最大团随机变量函数的乘积。注意,图的最大团其实就是图的各个最大连通子图。
概率图模型的实体关系建模可以简化或省略一些条件概率的计算,比如不用计算P(D|A,B,C),转而计算P(D|B,C)的值。
表示、推理及学习
现在从表示、推理和学习的角度,来进一步说明概率图模型的优点和作用。
- 从表示的角度看,概率图模型可以很好表示实体之间关系,而且可以很容易导出相应的概率公式。同时,这种表示方法可以很容易被领域内外的人所理解。
- 从推理的角度看,当我们得到相关的信息和观测数据,我们可以很容易利用概率图导出的计算公式进行推理,给出判别结果。
- 从学习的角度看,可以利用专家经验和语料数据,对概率图模型的相关参数进行估计,效率更高而不需要估计冗余的参数。
概率图模型都有哪些应用模型?
贝叶斯和马尔可夫网络是两种基本的概率图模型,结合两者又可以产生一些混合模型。那么实际应用中,有哪些模型属于概率图模型呢?
- 朴素贝叶斯模型NB
- 最大熵模型MEM
- 隐马尔可夫模型HMM
- 最大熵马尔可夫模型MEMM
- 条件随机场CRF
下面我们看看这些模型各自的概率图模型是怎样刻画的并分析各自所表达的含义。
对于朴素贝叶斯模型来说,特定的类别样本在不同的特征属性上具备不同的数据表征,而且特征之间有着独立性假设,即特征之间是无关联的。
对于隐马尔可夫模型来说,隐状态之间满足马尔可夫性假设,即当前状态只和前一状态有关,而与历史状态和后续状态无关;另外,还假设特征之间也是相互独立的,且特征只由当前隐状态产生。
对于最大熵马尔可夫模型来说,与隐马尔可夫模型相比,每个隐状态只依赖前一状态和当前观测,而且每组这样三者的组合都是独立的,且采用最大熵模型建模。
对于条件随机场模型来说,当前状态依赖于上下文状态和上下文观测,所以没有过多的独立性假设,可以*搭配特征以及标注。
总结
在概率图模型知识框架中,涉及的相关知识点非常多。我们熟知的很多模型都可以纳入到这个框架下,也使得我们自己积累的知识得以汇总并在此基础之上进一步爬坡。
学习概率图模型时,我们可以了解到每一种模型的特点是什么、之间对比有哪些,以及每一种模型各自涵盖的知识点。
比如:
- 朴素贝叶斯模型中的特征条件独立性假设和贝叶斯定理;
- 最大熵中熵建模知识、IIS迭代尺度优化算法以及分布相似性度量方法;
- 隐马尔可夫模型中的前向后向算法、viterbi解码、以及EM参数估计;
- 条件随机场模型中条件随机场定义、学习和预测的动态规划算法。
当然,接下来我们也会追随这些知识点继续学习这些模型。