GMM简单解释

1.GMM(guassian mixture model)

　　混合高斯模型，顾名思义，就是用多个带有权重的高斯密度函数来描述数据的分布情况。理论上来说，高斯分量越多，极值点越多，混合高斯密度函数可以逼近任意概率密度函数，刻画模型越精确，需要的训练数据也就越多。

2.GMM

模型初始化：

　　即模型参数的初始化，一般采用kmeans或者LBG算法。

模型初始化值对模型后期的收敛有极大影响，特别是训练模型的数据太少或者不充分时，现象尤其突出，会造成模型不收敛，甚至训练参数出现NAN。

　　解决办法：1.一方面扩大误差范围，这样会造成训练好的模型区分度不好。

　　　　　　　2.LGB算法或者Kmeans减小胞腔数目或者或者分段数。

3.推荐限制最小方差，避免出现完全不收敛，出现NAN情况(因为方差最小，根据概率密度公式可知，概率出现无穷大，再次迭代时，会出现NAN。从另一个角度解释：某几个高斯训练迭代越滚越大，以至于某些高斯分量或者说是小数据分布区越来越窄，方差越来越小，逼近0，导致出现NAN)。

模型训练：

模型训练一般采用 EM算法。

模型识别：

识别就是利用训练好的模型参数，将待识别数据(特征)与各个高斯模型做概率匹配，若A类概率最高，则判别为A类。

3.GMM应用

(1)GMM聚类

就像VQ聚类、Kmeans、LBG聚类一样。

(2)GMM分类

同样地，VQ、Kmeans、LBG也能进行分类，不同的是，GMM是软判决，前三种是硬性判决。

聚类与分类的区别：聚类可以说是训练模型的过程，用训练好的参数，刻画训练数据分布。

分类可以说是识别数据的过程，判断数据属于哪个模型(前提是模型已经训练好)。