Алгоритам очекивања-максимизације

У статистици, алгоритам максимизације очекиване веродостојности (EM - енгл. Expectation-maximization) је итеративна процедура за процену параметара на основу критеријума максималне веродостојности (МЛ - енгл. Maximum Likelihood) или оцене апостериорног максимума (МАП - енгл. Maximum a posteriori), код којих су присутне вредности посматраних величина које имају особину θ која се не може измерити, или се не може директно измерити (латентне променљиве).

ЕМ алгоритам наизменично примењује "корак Е" у којем се генерише функција очекиване вредности логаритма веродостојности израчунату коришћењем тренутне процене параметара, и "корак М", у којем се израчунавају параметри за које функције генерисана у кораку Е узима максималну вредност. Параметри добијени у кораку М се потом користе за одређивање расподеле латентних варијабли за следећи корак Е.

Историјат уреди

Име ЕМ алгоритма и начин функционисања, дато је у раду из 1977. године, који су написали Артур Демпстер, Нан Лаирд и Доналд Рубин.^[1] Њихов рад је генерализовао методу и скицирао анализу конвергенције за ширу класу проблема. Без обзира на раније проналаске, њихова иновативна метода се прославила у јавности и њивов рад окатегорисан као брилијантан. Рад Демпстер-Лаирд-Рубин је основао ЕМ метод као веома важан део статистичке анализе.^[2]^[3]^[4]

Увод уреди

ЕМ алгоритам се користи за проналажење параметра максималне веродостојности статистичког модела у случајевима код којих се једначине не могу решити директно. Обично ови модели поред непознатих параметара и познатих резултата мерења укључују и латентне променљиве. То значи да, или недостају неке од мерених вредности, или се модел може формулисати једноставније претпостављајући постојање додатних неизмерених вредности посматраних величина.

Проналажење решења максималне веродостојности захтева узимање извода функције вероватноће по свим непознатим вредностима. Код статистичих модела са латентним променљивима ово обично није могуће. Уместо тога, резултат је скуп међусобно повезаних једначина у којој решење за параметре захтева познавање вредности латентних променљивих и обратно, али замена једног скупа једначина у други доводи до нерешивих једначина. ЕМ алгоритам полази од запажања да се ова два сета једначина могу решити нумерички. То се може извести тако што се изаберу произвољне вредности за један од два скупа непознатих, затим се те произвољне вредности употребе за процену другог скупа, а затим помоћу ових нових вредности нађе боља процена првог скупа. Процедура се наставља итеративно док резултујуће вредности не конвергирају ка фиксним тачкама. Није очигледно да се овим алгоритмом може доћи до решења у општем случају, али се може доказати да је могуће у конкретним случајевима. При томе се извод веродостојности може привести произвољно близу нули, што значи да је пронађена тачка или локални максимум или седласта тачка. Није гарантовано да ће пронађени максимум бити глобални максимум. У неким случајевима функција веродостојности има сингуларитете који обично представљају максимуме без смислене интерпретације у контексту у којем се алгоритам примењује.

Опис алгоритма уреди

Дати статистички модел који се састоји од скупа $\mathbf {X}$ посматраних података, скуп непримећених латентних података или вредности које недостају $\mathbf {Z}$ и вектр непознатих параметара ${\boldsymbol {\theta }}$ , заједно са функцијом веродостојности $L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})$ , процена максималне веродостојности (МЛЕ - енгл. Maximum likelihood estimate) од непознатих параметара одређује маргиналне веродостојности посматраних података

L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} |{\boldsymbol {\theta }})=\sum _{\mathbf {Z} }p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})

Међутим, ово је често нерешиво (нпр. Ако се деси да број вредности расте експоненцијално што је секвенца дужа, онда ће тачан прорачун суме бити изузетно тежак).

ЕМ алгоритам покушава да пронађе МЛЕ од граничне веродостојности итеративном применом следећа два корака:

Корак очекивања (Е корак): Израчунава очекивану вредност лог веродостојности функције вероватноће, у погледу на условну расподелу

\mathbf {Z}

датим

\mathbf {X}

под тренутном проценом параметара

{\boldsymbol {\theta }}^{(t)}

:

Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)}}\left[\log L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )\right]\,

Корак максимизације (М корак): Проналази параметар који максимизује следеће:

{\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})\,

Типични модели на које се примењује ЕМ:

Посматране тачке података $\mathbf {X}$ могу бити дискретне (узимајући вредности из коначног или пребројиво бесконачног скупа) или непрекидне (узмањући вредности из непребројиво бесконачног скупа). Могу, у ставри, бити и вектор опсевације повезан са сваком тачком података.
Вредности које недостају (латентне варијабле) $\mathbf {Z}$ су дискретне, извучене из фиксног броја вредности, а постоји једна латентна променљива по посматраној тачки података.
Параметри су непрекидни, и има две врсте: Параметри који су повезани са свим тачкама података, и параметара повезаним са одређеном вредношћу латентне варијабле.

Међутим, могуће је да се ЕМ примени и на друге врсте модела. Ако знамо вредности параметара ${\boldsymbol {\theta }}$ , обично се може наћи вредност латентних варијабли $\mathbf {Z}$ повећавањем лог-веродостојности по свим могућим вредностима $\mathbf {Z}$ , или једноставно итеративно преко $\mathbf {Z}$ или преко алгоритма, као што је Витерби алгоритам за скривене Маркове моделе. Насупрот томе, ако знамо вредности латентних варијабли $\mathbf {Z}$ , можемо наћи процену параметрара ${\boldsymbol {\theta }}$ прилично лако, једноставним груписањем посматране тачке података на основу вредности придружене латенте варијабле и просека вредности, или нека функција вредности, од тачака у свакој групи. Ово сугерише итеративни алгоритам, у случају када су ${\boldsymbol {\theta }}$ и $\mathbf {Z}$ непознати:

Прво, иницијализујте параметре ${\boldsymbol {\theta }}$ неким случајним вредностима.
Израчунај најбољу вредност за $\mathbf {Z}$ помоћу ових вредности параметара.
Затим, користите ове израчунате вредности $\mathbf {Z}$ да израчунате бољу процену параметара ${\boldsymbol {\theta }}$ . Параметри повезани са одређеном вредношћу $\mathbf {Z}$ ће користити само оне тачке података код којих придружене латентне варијабле имају ту вредност.
Вршите итерацију корака 2 и 3 до конвергенције.

Управо описан алгоритам монотоно прилази локаном минимуму функције, а најчешће се назива хард ЕМ. K-mean алгоритам је пример ове класе алгоритма.

Својства уреди

Говорећи о Е кораку, мало је погрешан. Оно што се рачуна у првом кораку су фиксни параметри зависни од података функције Q. Када су параметри Q познати, потпуно су одређени и увећани у другом М кораку ЕМ алогритма.

Иако ЕМ итерација повећава број посматраних података (тј. маргинали) функције веродостојности, не постоји гаранција да низ конвергира ка процени максималне веродостојности (МЛЕ). За бимодалне дистрибуције, ово значи да ЕМ алгоритам може конвергирати до локалног максимума посматраних података функције веродостојности, зависећи од почетних вредности. Постоји низ хеуристичких или метахеуристичких приступа за "бежање" локалним максимумима, као што су насумични рестарт (кренувши од неколико различитих случајних почетних процена θ^{(t)), или применом алгоритма симулације жарења.}

ЕМ је нарочито користан када је веродостојност у породици експоненцијалних алгоритама: Е корак постаје збир очекивања довољне статистике, а М корак подразумева максимизовање линеарне функције. У том случају обично је могуће извести исправке у затвореној форми за сваки корак, користећи Сундберг формулу (Објавио Ралф Сундберг користећи необјављене резултате Пер Мартин–Лофа и Андерс Мартин-Лофа).

ЕМ метода је модификована за израчунавање максималне апостериорне процене (МАП), са Бајесовом статистиком, у оригиналном раду Демпстер, Лаирд и Рубин.

Постоје и друге методе за проналажење максималне веродостојности, једна од метода је варијација Гаус-Њутновог алгоритма, а постоје и још неке. За разлику од ЕМ, такве методе обично захтевају процену првог или другог деривата функције веродостојности.

Доказ коректности уреди

ЕМ алгоритам ради на побољшању $Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})$ , а не побољшава директно $\log p(\mathbf {X} |{\boldsymbol {\theta }})$ . Овде смо показали да побољшања првог подразумева побољшање последњг. За било које $\mathbf {Z}$ са не нултом вероватноћом $p(\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }})$ , можемо записати

\log p(\mathbf {X} |{\boldsymbol {\theta }})=\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})-\log p(\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }})\,.

Узимамо очекивање над вредностима $\mathbf {Z}$ множењем обе стране са $p(\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})$ . Сабирањем и (или интегрисањем) преко $\mathbf {Z}$ . Лева страна је константа очекивања, па добијамо:

{\begin{aligned}\log p(\mathbf {X} |{\boldsymbol {\theta }})&=\sum _{\mathbf {Z} }p(\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {X} ,\mathbf {Z} |{\boldsymbol {\theta }})-\sum _{\mathbf {Z} }p(\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }}^{(t)})\log p(\mathbf {Z} |\mathbf {X} ,{\boldsymbol {\theta }})\\&=Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})\,,\end{aligned}}

где је $H({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})$ одређен негирањем суме коју је заменио. Ова последња једначина важи за било коју вредност ${\boldsymbol {\theta }}$ , uključujući ${\boldsymbol {\theta }}={\boldsymbol {\theta }}^{(t)}$ ,

\log p(\mathbf {X} |{\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})\,,

и одузимањем ове последње једначине са оном из претходне, добијамо

\log p(\mathbf {X} |{\boldsymbol {\theta }})-\log p(\mathbf {X} |{\boldsymbol {\theta }}^{(t)})=Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})+H({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})-H({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})\,,

Међутим, Гисова неједнакост нам говори да $H({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})\geq H({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})$ , па можемо закључити да

\log p(\mathbf {X} |{\boldsymbol {\theta }})-\log p(\mathbf {X} |{\boldsymbol {\theta }}^{(t)})\geq Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})-Q({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})\,.

Другим речима, бирајући ${\boldsymbol {\theta }}$ да унапредимо $Q({\boldsymbol {\theta }}|{\boldsymbol {\theta }}^{(t)})$ изван $Q({\boldsymbol {\theta }}^{(t)}|{\boldsymbol {\theta }}^{(t)})$ ће унапредити $\log p(\mathbf {X} |{\boldsymbol {\theta }})$ preko $\log p(\mathbf {X} |{\boldsymbol {\theta }}^{(t)})$ најмање толико.

Апликације уреди

Под неким околностима, врло је згодно гледати на ЕМ алгоритам као два наизменична корака максимизирања. Размотримо функцију:

F(q,\theta )=\operatorname {E} _{q}[\log L(\theta ;x,Z)]+H(q)=-D_{\mathrm {KL} }{\big (}q{\big \|}p_{Z|X}(\cdot |x;\theta ){\big )}+\log L(\theta ;x)

где је q произвољна расподела вероватноћа над непосматраним подацима z, p_Z|X(· |x;θ) је условна расподела непосматраних података где су дати посматрани подаци x, H је ентропија и D_KL је Кулбак-Лајблер дивергенција.

Онда се кораци ЕМ алгоритма могу посматрати као:

Корак очекивања: Изабери q да максимизујеш F:

q^{(t)}=\operatorname {*} {arg\,max}_{q}\ F(q,\theta ^{(t)})

Корак максимизације: Изабери θ да максимизујеш F:

\theta ^{(t+1)}=\operatorname {*} {arg\,max}_{\theta }\ F(q^{(t)},\theta )

Пример уреди

Гаусова расподела уреди

Анимација која демонстрира ЕМ алгоритам користећи модел двокомпонентне Гаусове расподеле над подацима гејзира Стари Верни. Алгоритам иде од насумичне иницијализације до конвергенције.

Нека је x = (x₁,x₂,…,x_n) пример од n независних опсервација из расподеле две мултиваријационе нормалне расподеле димензије d, и нека је z=(z₁,z₂,…,z_n) латентна варијабла којом се одређује компонента из које потиче посматрање.

X_{i}|(Z_{i}=1)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{1},\Sigma _{1})

i

X_{i}|(Z_{i}=2)\sim {\mathcal {N}}_{d}({\boldsymbol {\mu }}_{2},\Sigma _{2})

где је

$\operatorname {P} (Z_{i}=1)=\tau _{1}\,$ i $\operatorname {P} (Z_{i}=2)=\tau _{2}=1-\tau _{1}$

Циљ је да се процене непознати параметари који представљају “мешање” вредности између Гаусових и начини и коваријансе сваког.

\theta ={\big (}{\boldsymbol {\tau }},{\boldsymbol {\mu }}_{1},{\boldsymbol {\mu }}_{2},\Sigma _{1},\Sigma _{2}{\big )}

где је функција веродостојности:

L(\theta ;\mathbf {x} ,\mathbf {z} )=P(\mathbf {x} ,\mathbf {z} \vert \theta )=\prod _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j)\ \tau _{j}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j},\Sigma _{j})

где је $\mathbb {I}$ индикатор функције, а f је расподела вероватноће од више варијанта. Ово може бити преписано фамилији експоненцијалних форми:

L(\theta ;\mathbf {x} ,\mathbf {z} )=\exp \left\{\sum _{i=1}^{n}\sum _{j=1}^{2}\mathbb {I} (z_{i}=j){\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\right\}.

Да би се видела последња једнакост, имајте на уму да за свако i сви индикатори $\mathbb {I} (z_{i}=j)$ су једнаки нули, осим једног који је једнак један. Унутрашња сума се на тај начин смањује на један члан.

Корак Е уреди

Тренутна процена параметара θ^(t) условна расподела Z_i је детерминисана са Бајесовом теоремом, да буде пропорционалне висине од нормалне расподеле вероватноће, са тежином τ:

T_{j,i}^{(t)}:=\operatorname {P} (Z_{i}=j|X_{i}=\mathbf {x} _{i};\theta ^{(t)})={\frac {\tau _{j}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{j}^{(t)},\Sigma _{j}^{(t)})}{\tau _{1}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{1}^{(t)},\Sigma _{1}^{(t)})+\tau _{2}^{(t)}\ f(\mathbf {x} _{i};{\boldsymbol {\mu }}_{2}^{(t)},\Sigma _{2}^{(t)})}}

.

Резултат Е корака у функцији:

{\begin{aligned}Q(\theta |\theta ^{(t)})&=\operatorname {E} [\log L(\theta ;\mathbf {x} ,\mathbf {Z} )]\\&=\sum _{i=1}^{n}\sum _{j=1}^{2}T_{j,i}^{(t)}{\big [}\log \tau _{j}-{\tfrac {1}{2}}\log |\Sigma _{j}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})^{\top }\Sigma _{j}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{j})-{\tfrac {d}{2}}\log(2\pi ){\big ]}\end{aligned}}

Да бисмо видели последњу једнакост, имајте на уму да смо сумирањем по свим могућим вредностима од z где је вероватноћа сваког z производ $\prod _{i=1}^{n}T_{j,i}^{(t)}$ . Сада погледајмо коефицијенте сваког члана унутар суме за. $L(\theta ;\mathbf {x} ,\mathbf {z} )$ . Биће два члана $T_{1,i}^{(t)}(\sum _{j=1,2}\prod _{k\neq i}T_{j,k}^{(t)})$ and $T_{2,i}^{(t)}(\sum _{j=1,2}\prod _{k\neq i}T_{j,k}^{(t)})$ . Будући да термин у загради маргинализује по свим могућим случајевима кад $k\neq i$ , је једнако 1. Тако су коефицијенти сваког члана $T_{1,i}^{(t)}$ и $T_{2,i}^{(t)}$ који теже једнакости.

Корак М уреди

Квадратни облик Q(θ|θ^(t)) значи да одређивање максималне вредности θ је релативно једноставно. Имајте на уму да τ, (μ₁,Σ₁) и (μ₂,Σ₂) могу бити све маскимизовано независно једни од других, јер се сви они појављују у одвојеним линеарним члановима. За почетак, узмимо у обзир τ, које има ограничење τ₁ + τ₂=1:

{\begin{aligned}{\boldsymbol {\tau }}^{(t+1)}&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ Q(\theta |\theta ^{(t)})\\&={\underset {\boldsymbol {\tau }}{\operatorname {arg\,max} }}\ \left\{\left[\sum _{i=1}^{n}T_{1,i}^{(t)}\right]\log \tau _{1}+\left[\sum _{i=1}^{n}T_{2,i}^{(t)}\right]\log \tau _{2}\right\}\end{aligned}}

Ово има исти облик као МЛЕ за биномну расподелу, тако да:

\tau _{j}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{j,i}^{(t)}}{\sum _{i=1}^{n}(T_{1,i}^{(t)}+T_{2,i}^{(t)})}}={\frac {1}{n}}\sum _{i=1}^{n}T_{j,i}^{(t)}

У наредним проценама (μ₁,Σ₁):

{\begin{aligned}({\boldsymbol {\mu }}_{1}^{(t+1)},\Sigma _{1}^{(t+1)})&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\ Q(\theta |\theta ^{(t)})\\&={\underset {{\boldsymbol {\mu }}_{1},\Sigma _{1}}{\operatorname {arg\,max} }}\ \sum _{i=1}^{n}T_{1,i}^{(t)}\left\{-{\tfrac {1}{2}}\log |\Sigma _{1}|-{\tfrac {1}{2}}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})^{\top }\Sigma _{1}^{-1}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1})\right\}\end{aligned}}

Ово има исту форму као и тежак МЛЕ за нормалну расподелу, тако да

{\boldsymbol {\mu }}_{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

and

\Sigma _{1}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{1,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{1}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{1,i}^{(t)}}}

и, преко симетрије:

{\boldsymbol {\mu }}_{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}\mathbf {x} _{i}}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}

and

\Sigma _{2}^{(t+1)}={\frac {\sum _{i=1}^{n}T_{2,i}^{(t)}(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})(\mathbf {x} _{i}-{\boldsymbol {\mu }}_{2}^{(t+1)})^{\top }}{\sum _{i=1}^{n}T_{2,i}^{(t)}}}

.

Референце уреди

^ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). „Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society, Series B. 39 (1): 1—38. JSTOR 2984875. MR 0501537.
^ Sundberg, Rolf (1974). „Maximum likelihood theory for incomplete data from an exponential family”. Scandinavian Journal of Statistics. 1 (2): 49—58. JSTOR 4615553. MR 381110.
^ Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
^ Sundberg, Rolf (1976). „An iterative method for solution of the likelihood equations for incomplete data from exponential families”. Communications in Statistics – Simulation and Computation. 5 (1): 55—64. MR 443190. doi:10.1080/03610917608812007.

Литература уреди

Robert Hogg, Joseph McKean and Allen Craig. Introduction to Mathematical Statistics. pp. 359-364. Upper Saddle River, NJ: Pearson Prentice Hall, 2005.
The on-line textbook: Information Theory, Inference, and Learning Algorithms, by David J.C. MacKay includes simple examples of the EM algorithm such as clustering using the soft k-means algorithm, and emphasizes the variational view of the EM algorithm, as described in Chapter 33.7 of version 7.2 (fourth edition).
Theory and Use of the EM Method by M. R. Gupta and Y. Chen is a well-written short book on EM, including detailed derivation of EM for GMMs, HMMs, and Dirichlet.
Bilmes, Jeff. „A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models”. CiteSeerX 10.1.1.28.613  , includes a simplified derivation of the EM equations for Gaussian Mixtures and Gaussian Mixture Hidden Markov Models.
Variational Algorithms for Approximate Bayesian Inference, by M. J. Beal includes comparisons of EM to Variational Bayesian EM and derivations of several models including Variational Bayesian HMMs (chapters).
Dellaert, Frank. „The Expectation Maximization Algorithm”. CiteSeerX 10.1.1.9.9735  , gives an easier explanation of EM algorithm in terms of lowerbound maximization.
The Expectation Maximization Algorithm: A short tutorial, A self-contained derivation of the EM Algorithm by Sean Borman.
The EM Algorithm, by Xiaojin Zhu.
Roche, Alexis (2011). „EM algorithm and variants: an informal tutorial”. arXiv:1105.1476  .
Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. ISBN 978-0-387-31073-2.
Einicke, G.A. (2012). Smoothing, Filtering and Prediction: Estimating the Past, Present and Future. Rijeka, Croatia: Intech. ISBN 978-953-307-752-9.

Спољашње везе уреди

Various 1D, 2D and 3D demonstrations of EM together with Mixture Modeling are provided as part of the paired SOCR activities and applets. These applets and activities show empirically the properties of the EM algorithm for parameter estimation in diverse settings.
Class hierarchy in C++ (GPL) including Gaussian Mixtures
Fast and clean C implementation of the Expectation Maximization (EM) algorithm for estimating Gaussian Mixture Models (GMMs).

[1] Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). „Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society, Series B. 39 (1): 1—38. JSTOR 2984875. MR 0501537.

[Sundberg1974-2] Sundberg, Rolf (1974). „Maximum likelihood theory for incomplete data from an exponential family”. Scandinavian Journal of Statistics. 1 (2): 49—58. JSTOR 4615553. MR 381110.

[Sundberg1971-3] Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.

[Sundberg1976-4] Sundberg, Rolf (1976). „An iterative method for solution of the likelihood equations for incomplete data from exponential families”. Communications in Statistics – Simulation and Computation. 5 (1): 55—64. MR 443190. doi:10.1080/03610917608812007.

[1]

[2]

[3]

[4]