简析EM算法(最大期望算法)

时间:2021-02-23 15:00:35

问题

  假设男、女身高都服从正态分布,我们通过抽样调查,利用最大似然估计,很容易估计出男、女群体的身高平均值。
  
  如果出现了意外,我们把抽样信息中男女的标记给弄丢了,男女身高数据混在了一起,那么还有没有办法把男女身高的平均值分别求出来呢?
  
  为便于理解,我们给出抽样数据:
  
  男人身高(cm):170,180,180,190
  女人身高(cm):150,160,160,170
  
  数据混在一起后,列表如下:

x(身高) M(男人数量) F(女人数量)
150 0 1
160 0 1
160 0 1
170 0 1
170 1 0
180 1 0
180 1 0
190 1 0

  当然,表中的M 、F列是身高对应的人数,在男女身高数据弄混以后就变成未知数了,我把它们列出来是为了方便理解后面的计算方法。
  

EM求解方法

  假设男、女身高均值分别为 μ1 μ2 ,这两个数的初值可以赋予任意两个不同的随机数,例如我们令初值为:
μ1=190,μ2=150
  根据这个初值,我们来重新估计每个 xi 对应的 Mi Fi 的期望值。这里,我们可以把 Mi Fi 理解为 xi 对应男人和女人的人数,取值介于0~1之间。因为两类数据分布会产生重叠,因此,对于同一个身高数据,按照密度函数来计算分配人数比列。这里假设男人和女人的概率密度函数分别为 pm pf ,同一个身高数据 xi 对应的男、女人数计算如下:
  
Mi=pm(xi)pm(xi)+pf(xi)Fi=pf(xi)pm(xi)+pf(x1)
  接下来,我们要更新 μ1 μ2 的值了,计算方法就是总身高除以总人数,算式如下:
μ1=M1x1+...+M8x8M1+...+M8μ2=F1x1+...+F8x8F1+...+F8
  这里可以把 Mi Fi 理解为 xi 对应男人和女人的人数,取值介于0~1之间。
  
  看到这里,我服气得简直要跪了。因为我特地准备两个170cm的身高,这个身高男女各一个数据,我想看看EM如何处理。之前我是用K均值聚类算法的思维来看这个问题,没想到EM给我来了一个“模糊数学”的处理技巧,把这个问题巧妙化解了。
  
  数据170对应男、女人数都是0.5,因为有两个170,所以,男人和女人每组仍然能分配一个,这正好恢复了男女数据没混和以前的样子。
  
  接下来没啥悬念了,重复迭代上面的过程,直到 μ1 μ2 收敛为止。如果 Mi Fi 最终确定了,相当于把抽样数据区分开了,求分布的其他参数也变得毫无悬念了。

  EM方法,作为十大机器学习经典算法之一,真的太伟大了!