インテル® DAAL プログラミング・ガイド
次元 p の n 特徴ベクトルのセット X、x1= (x11,…,x1p), ..., xn= (xn1,…,xnp) で、データが不完全か、欠測値があるときに、根本的な分散のパラメーターの最尤推定を見つけます。
X をパラメーター θ に応じて対数尤度 l(θ; X) になる観測値とします。Xm を潜在値または欠測値とすると、T=(X, Xm) は対数尤度 l0 (θ; X) の完全なデータです。一般的な形式の問題を解くアルゴリズムは、次の EM アルゴリズム ([Dempster77]、[Hastie2009]) です。
ガウス混合モデル (GMM) は、以下のように表現される kd 次元多変量ガウス分布の混合モデルです。
ここで、Σki = 1αi = 1 および αi ≥ 0。
p( x|θi ) は、パラメーター θi = (mi , Σi) の確率密度関数です。ここで、mi は平均値ベクトル、Σi は分散共分散行列です。d 次元多変量ガウス分布の確率密度関数は、次のように定義されます。
zij = I{xi belongs to j mixture component} を指示関数、θ=(α1, ..., αk ; θ1, ..., θk) とします。
次のように重みを定義します。
i=1, ..., n で j=1, …, k。
GMM の EM アルゴリズムには以下のステップが含まれます。