在M步中,固定分布\(P(\mathbf{Z}|\mathbf{X},\boldsymbol{\theta}^{old})\),选择新的\(\boldsymbol{\theta}^{new}\)来极大化\(L(q,\boldsymbol{\theta})\) 。同时由于\(P(\mathbf{Z}|\mathbf{X},\boldsymbol{\theta}^{old}) \neq P(\mathbf{Z}|\mathbf{X},\boldsymbol{\theta}^{new})\),所以\(\mathbb{KL}(P(\mathbf{Z}|\mathbf{X},\boldsymbol{\theta}^{old}) || P(\mathbf{Z}|\mathbf{X},\boldsymbol{\theta}^{new})) > 0\),导致\(lnP(\mathbf{X}|\boldsymbol{\theta})\)提升的幅度会大于\(L(q,\boldsymbol{\theta})\)提升的幅度,如图:
因此在EM算法的迭代过程中,通过交替固定\(\boldsymbol{\theta}\) 和 \(P(\mathbf{Z}|\mathbf{X},\boldsymbol{\theta}^{old})\)来提升下界\(L(q,\boldsymbol{\theta})\) ,进而提升对数似然函数\(L(\boldsymbol{\theta})\) ,从而在隐变量存在的情况下实现了极大似然估计。在下一篇中将探讨EM算法的具体应用。
Reference:
Christopher M. Bishop. Pattern Recognition and Machine Learning
李航. 《统计学习方法》
CS838. The EM Algorithm