RBM (受限玻尔兹曼机)

时间:2023-01-17 20:40:02

1. 玻尔兹曼分布:

p(E)eE/kT

2. RBM

两层:隐层和可视层, v , h
vi{0,1},   hj{0,1}

  • 能量假设:
    E(v,h;θ)=bvchvTWhθ={b, c, W}

  • 概率分布:
    p(v,h;θ)=1ZeE(v,h; θ)Z(θ)=v,heE(v,h;θ)

  • 条件概率:
    p(v|h; θ)=eE(v,h)veE(v,h)p(h|v; θ)=eE(v,h)heE(v,h)p(vi=1 | h;θ)=σ(bi+jWijhj)p(hj=1 | v;θ)=σ(cj+iWijvi)

  • 全概率:
    p(v)=hp(v,h)=heE(v,h)v,heE(v,h)

3. 优化

  • 极大化似然函数:
    (θ | v)=lnp(v; θ)=lnheE(v,h)lnv,heE(v,h)

  • 梯度:
    Lθ=Ep(h|v)[E(v,h)θ]Ep(v,h)[E(v,h)θ]E(v,h)Wij=vihj,E(v,h)bi=vi,E(v,h)cj=hj

4. 其他能量模型

1) Gaussian-Bernoulli RBM:

  • 能量定义:
    E(v,h;θ)=i(vibi)22σ2ijcjhjijWijviσihjθ={b, σ, c, W}

  • 条件概率:
    p(vi=x | h; θ)=(bi+σijWijhj, σi)p(hj=1 | v; θ)=σ(cj+iWijviσi)     

2) extended energy

  • 能量定义
    E(v, y, h)=bivicjhjWijvihjdkykUjkhjykθ={b, c, W, d, U}
  • 条件概率
    p(vi=1|h)=σ(bi+jWijhj)p(hj=1|x, y)=σ(cj+iWijxi+kUjkyk)p(yk=1|h)=exp(dk+jUjkhj)kexp(dk+kUjkhj)

5. 附录

1. 玻尔兹曼分布的最大熵推导

封闭系统能量守恒,总能量 。共有 N 个状态,每个状态 i 的能量 Ei ,对应概率 pi
则有约束条件:
ipi=1ipiEi=/NE¯
最大化信息熵:
H[p]=ipilnpi
等效于最大化下面的拉格朗日量:
[p]=H[p]+α(1ipi)+β(E¯ipiEi)
即得能量的概率分布:
p(Ei)eβEi

2. RBM 条件概率推导

p(vi=1|h)=vkip(vi=1,vk,h)vp(v,h)=vkiexp[(bivi+jWijvibj)vi=1+kibkvk+jcjhj+ki,jWkjvkhj]vi,vkiexp[(bivi+jWijvibj)+kibkvk+jcjhj+ki,jWkjvkhj]]=exp[(bivi+jWijvibj)vi=1]vkiexp[kibkvk+jcjhj+ki,jWkjvkhj]viexp[(bivi+jWijvibj)]vkiexp[kibkvk+jcjhj+ki,jWkjvkhj]=exp[(bivi+jWijvibj)vi=1]viexp[(bivi+jWijvibj)]=11+exp[bijWijbj].(vi{0,1})