问题
假设男、女身高都服从正态分布,我们通过抽样调查,利用最大似然估计,很容易估计出男、女群体的身高平均值。
如果出现了意外,我们把抽样信息中男女的标记给弄丢了,男女身高数据混在了一起,那么还有没有办法把男女身高的平均值分别求出来呢?
为便于理解,我们给出抽样数据:
男人身高(cm):170,180,180,190
女人身高(cm):150,160,160,170
数据混在一起后,列表如下:
x(身高) | M(男人数量) | F(女人数量) |
---|---|---|
150 | 0 | 1 |
160 | 0 | 1 |
160 | 0 | 1 |
170 | 0 | 1 |
170 | 1 | 0 |
180 | 1 | 0 |
180 | 1 | 0 |
190 | 1 | 0 |
当然,表中的M 、F列是身高对应的人数,在男女身高数据弄混以后就变成未知数了,我把它们列出来是为了方便理解后面的计算方法。
EM求解方法
假设男、女身高均值分别为
根据这个初值,我们来重新估计每个
接下来,我们要更新
这里可以把
看到这里,我服气得简直要跪了。因为我特地准备两个170cm的身高,这个身高男女各一个数据,我想看看EM如何处理。之前我是用K均值聚类算法的思维来看这个问题,没想到EM给我来了一个“模糊数学”的处理技巧,把这个问题巧妙化解了。
数据170对应男、女人数都是0.5,因为有两个170,所以,男人和女人每组仍然能分配一个,这正好恢复了男女数据没混和以前的样子。
接下来没啥悬念了,重复迭代上面的过程,直到
EM方法,作为十大机器学习经典算法之一,真的太伟大了!