机器学习课程学习周报十六
文章目录
- 机器学习课程学习周报十六
- 摘要
- Abstract
- 一、机器学习部分
- 1. 再探马尔可夫链
- 1.1 离散状态马尔可夫链
- 1.1.1 转移概率矩阵和状态分布
- 1.1.2 平稳分布
- 1.2 连续状态马尔可夫链
- 1.3 马尔可夫链的性质
- 2. 马尔可夫蒙特卡罗法
- 2.1 基本想法
- 2.2 基本步骤
- 2.3 马尔可夫链蒙特卡罗法与统计学习
- 总结
摘要
本次周报介绍了马尔可夫链的基本概念及其在机器学习中的应用。详细探讨了离散和连续状态的马尔可夫链,平稳分布及其性质。还介绍了马尔可夫蒙特卡罗法及其在统计学习中的作用,特别是在贝叶斯学习中的应用。
Abstract
This weekly report presents the fundamental concepts of Markov chains and their applications in machine learning. It explores both discrete and continuous state Markov chains, stationary distributions, and their properties. The Markov Chain Monte Carlo (MCMC) method and its role in statistical learning, especially in Bayesian learning, are also introduced.
一、机器学习部分
1. 再探马尔可夫链
1.1 离散状态马尔可夫链
1.1.1 转移概率矩阵和状态分布
有限离散状态的马尔可夫链可以由有向图表示。结点表示状态,边表示状态之间的转移,边上的数值表示转移概率。从一个初始状态出发,根据有向边上定义的概率在状态之间随机跳转(或随机转移),就可以产生状态的序列。马尔可夫链实际上是刻画随时间在状态之间转移的模型,假设未来的转移状态只依赖于现在的状态,而与过去的状态无关。
下面通过一个简单的例子给出马尔可夫链的直观解释。假设观察某地的天气,按日期的天气依次是“晴,雨,晴,晴,晴,雨,晴…”,具有一定的规律,马尔可夫链可以刻画这个过程。假设天气的变化具有马尔可夫性,即明天的天气只依赖于今天的天气,而与昨天及以前的天气无关。这个假设经验上是合理的,至少是现实情况的近似。具体地,比如,如果今天是晴天,那么明天是晴天的概率是0.9,是雨天的概率是0.1;如果今天是雨天,那么明天是晴天的概率是0.5,是雨天的概率也是0.5(如下图)。
上图表示这个天气的马尔可夫链,从一个初始状态出发,随时间在状态之间随机转移,就可以产生天气的序列,可以对天气进行预测。
下面看一个马尔可夫链应用的例子。自然语言处理、语音处理中经常用到语言模型,这是建立在词表上的n阶马尔可夫链(与前n个状态都有关)。比如在英语语音识别中,语音模型产出两个候选:“How to recognize speech”与“how to wreck a nice beach”,这两句的英文发音相近,要判断哪个可能性更大,显然从语义的角度前者的可能性更大,后者的语义甚至都不通顺,语言模型可以帮助做出这个判断。
将一个语句看作是一个单词的序列 w 1 w 2 ⋯ w s {w_1}{w_2} \cdots {w_s} w1w2⋯ws,目标是计算其概率。同一个语句很少在语料中重复多次出现,所以直接从语料中估计每个语句的概率是困难的。语言模型用局部的单词序列的概率,组合计算出全局的单词序列的概率,可以很好地解决这个问题。
假设每个单词只依赖于其前面出现的单词,也就是说单词序列具有马尔可夫性( X t {X_t} Xt只依赖于 X t − 1 {X_{t - 1}} Xt−1时,才说具有马尔可夫性),那么可以定义一阶马尔可夫链,即语言模型,如下计算语句的概率:
P ( w 1 w 2 ⋯ w s ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 w 2 ) ⋯ P ( w i ∣ w 1 w 2 ⋯ w i − 1 ) ⋯ P ( w s ∣ w 1 w 2 ⋯ w s − 1 ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 2 ) ⋯ P ( w i ∣ w i − 1 ) ⋯ P ( w s ∣ w s − 1 ) \begin{array}{l}P({w_1}{w_2} \cdots {w_s})\\ = P({w_1})P({w_2}|{w_1})P({w_3}|{w_1}{w_2}) \cdots P({w_i}|{w_1}{w_2} \cdots {w_{i - 1}}) \cdots P({w_s}|{w_1}{w_2} \cdots {w_{s - 1}})\\ = P({w_1})P({w_2}|{w_1})P({w_3}|{w_2}) \cdots P({w_i}|{w_{i - 1}}) \cdots P({w_s}|{w_{s - 1}})\end{array} P(w1w2⋯ws)=P(w1)P(w2∣w1)P(w3∣w1w2)⋯P(wi∣w1w2⋯wi−1)⋯P(ws∣w1w2⋯ws−1)=P(w1)P(w2∣w1)P(w3∣w2)⋯P(wi∣wi−1)⋯P(ws∣ws−1)
这里的第三个等式基于马尔可夫链假设。这个马尔可夫链中,状态空间为词表,一个位置上单词的产生只依赖于前一个位置的单词,而不依赖于更前面的单词。以上是一阶马尔可夫链,一般可以扩展到n阶马尔可夫链。
语言模型的学习等价于确定马尔可夫链中的转移概率值,如果有充分的语料,转移概率可以直接从语料中估计。直观上,“wreck a nice”出现后,下面出现“beach”的概率极低,所以第二个语句的概率应该更小,从语言模型的角度看第一个语句的可能性更大。
1.1.2 平稳分布
设有马尔可夫链 X = { X 0 , X 1 , ⋯ , X t , ⋯ } X = \left\{ {{X_0},{X_1}, \cdots ,{X_t}, \cdots } \right\} X={X0,X1,⋯,Xt,⋯},其状态空间为 S S S,转移概率矩阵为 P = ( p i j ) P = ({p_{ij}}) P=(pij),如果存在状态空间 S S S上的一个分布
π = [ π 1 π 2 ⋯ ] \pi = \left[ \begin{array}{l}{\pi _1}\\{\pi _2}\\ \cdots \end{array} \right] π= π1π2⋯
使得
π = P π \pi = P\pi π=Pπ
则称 π \pi π为马尔可夫链 X = { X 0 , X 1 , ⋯ , X t , ⋯ } X = \left\{ {{X_0},{X_1}, \cdots ,{X_t}, \cdots } \right\} X={X0,X1,⋯,Xt,⋯}的平稳分布。直观上,如果马尔可夫链的平稳分布存在,那么以该平稳分布作为初始分布,面向未来进行随机状态转移,之后任何一个时刻的状态分布都是该平稳分布。马尔可夫链可能存在唯一平稳分布,无穷多个平稳分布,或不存在平稳分布。
1.2 连续状态马尔可夫链
1.3 马尔可夫链的性质
以下介绍离散状态马尔可夫链的性质,可以自然推广到连续状态马尔可夫链。
- 不可约
设有马尔可夫链 X = { X 0 , X 1 , ⋯ , X t , ⋯ } X = \left\{ {{X_0},{X_1}, \cdots ,{X_t}, \cdots } \right\} X={X0,X1,⋯,Xt,⋯},状态空间为 S S S,对于任意状态 i , j ∈ S i,j \in S i,j∈S,如果存在一个时刻 t ( t > 0 ) t\left( {t > 0} \right) t(t>0)满足:
P ( X t = i ∣ X 0 = j ) > 0 P({X_t} = i|{X_0} = j) > 0 P(Xt=i∣X0=j)>0
也就是说,时刻0从状态 j j