Algoritam očekivanja-maksimizacije

U statistici, algoritam maksimizacije očekivane verodostojnosti (EM - engl. Expectation-maximization) je iterativna procedura za procenu parametara na osnovu kriterijuma maksimalne verodostojnosti (ML - engl. Maximum Likelihood) ili ocene aposteriornog maksimuma (MAP - engl. Maximum a posteriori), kod kojih su prisutne vrednosti posmatranih veličina koje imaju osobinu θ koja se ne može izmeriti, ili se ne može direktno izmeriti (latentne promenljive).

EM algoritam naizmenično primenjuje "korak E" u kojem se generiše funkcija očekivane vrednosti logaritma verodostojnosti izračunatu korišćenjem trenutne procene parametara, i "korak M", u kojem se izračunavaju parametri za koje funkcije generisana u koraku E uzima maksimalnu vrednost. Parametri dobijeni u koraku M se potom koriste za određivanje raspodele latentnih varijabli za sledeći korak E.

Istorijat uredi

Ime EM algoritma i način funkcionisanja, dato je u radu iz 1977. godine, koji su napisali Artur Dempster, Nan Laird i Donald Rubin.[1] Njihov rad je generalizovao metodu i skicirao analizu konvergencije za širu klasu problema. Bez obzira na ranije pronalaske, njihova inovativna metoda se proslavila u javnosti i njivov rad okategorisan kao brilijantan. Rad Dempster-Laird-Rubin je osnovao EM metod kao veoma važan deo statističke analize.[2][3][4]

Uvod uredi

EM algoritam se koristi za pronalaženje parametra maksimalne verodostojnosti statističkog modela u slučajevima kod kojih se jednačine ne mogu rešiti direktno. Obično ovi modeli pored nepoznatih parametara i poznatih rezultata merenja uključuju i latentne promenljive. To znači da, ili nedostaju neke od merenih vrednosti, ili se model može formulisati jednostavnije pretpostavljajući postojanje dodatnih neizmerenih vrednosti posmatranih veličina.

Pronalaženje rešenja maksimalne verodostojnosti zahteva uzimanje izvoda funkcije verovatnoće po svim nepoznatim vrednostima. Kod statističih modela sa latentnim promenljivima ovo obično nije moguće. Umesto toga, rezultat je skup međusobno povezanih jednačina u kojoj rešenje za parametre zahteva poznavanje vrednosti latentnih promenljivih i obratno, ali zamena jednog skupa jednačina u drugi dovodi do nerešivih jednačina. EM algoritam polazi od zapažanja da se ova dva seta jednačina mogu rešiti numerički. To se može izvesti tako što se izaberu proizvoljne vrednosti za jedan od dva skupa nepoznatih, zatim se te proizvoljne vrednosti upotrebe za procenu drugog skupa, a zatim pomoću ovih novih vrednosti nađe bolja procena prvog skupa. Procedura se nastavlja iterativno dok rezultujuće vrednosti ne konvergiraju ka fiksnim tačkama. Nije očigledno da se ovim algoritmom može doći do rešenja u opštem slučaju, ali se može dokazati da je moguće u konkretnim slučajevima. Pri tome se izvod verodostojnosti može privesti proizvoljno blizu nuli, što znači da je pronađena tačka ili lokalni maksimum ili sedlasta tačka. Nije garantovano da će pronađeni maksimum biti globalni maksimum. U nekim slučajevima funkcija verodostojnosti ima singularitete koji obično predstavljaju maksimume bez smislene interpretacije u kontekstu u kojem se algoritam primenjuje.

Opis algoritma uredi

Dati statistički model koji se sastoji od skupa   posmatranih podataka, skup neprimećenih latentnih podataka ili vrednosti koje nedostaju   i vektr nepoznatih parametara  , zajedno sa funkcijom verodostojnosti  , procena maksimalne verodostojnosti (MLE - engl. Maximum likelihood estimate) od nepoznatih parametara određuje marginalne verodostojnosti posmatranih podataka

 

Međutim, ovo je često nerešivo (npr. Ako se desi da broj vrednosti raste eksponencijalno što je sekvenca duža, onda će tačan proračun sume biti izuzetno težak).

EM algoritam pokušava da pronađe MLE od granične verodostojnosti iterativnom primenom sledeća dva koraka:

Korak očekivanja (E korak): Izračunava očekivanu vrednost log verodostojnosti funkcije verovatnoće, u pogledu na uslovnu raspodelu   datim   pod trenutnom procenom parametara  :
 
Korak maksimizacije (M korak): Pronalazi parametar koji maksimizuje sledeće:
 

Tipični modeli na koje se primenjuje EM:

  1. Posmatrane tačke podataka   mogu biti diskretne (uzimajući vrednosti iz konačnog ili prebrojivo beskonačnog skupa) ili neprekidne (uzmanjući vrednosti iz neprebrojivo beskonačnog skupa). Mogu, u stavri, biti i vektor opsevacije povezan sa svakom tačkom podataka.
  2. Vrednosti koje nedostaju (latentne varijable)   su diskretne, izvučene iz fiksnog broja vrednosti, a postoji jedna latentna promenljiva po posmatranoj tački podataka.
  3. Parametri su neprekidni, i ima dve vrste: Parametri koji su povezani sa svim tačkama podataka, i parametara povezanim sa određenom vrednošću latentne varijable.

Međutim, moguće je da se EM primeni i na druge vrste modela. Ako znamo vrednosti parametara  , obično se može naći vrednost latentnih varijabli   povećavanjem log-verodostojnosti po svim mogućim vrednostima  , ili jednostavno iterativno preko   ili preko algoritma, kao što je Viterbi algoritam za skrivene Markove modele. Nasuprot tome, ako znamo vrednosti latentnih varijabli  , možemo naći procenu parametrara   prilično lako, jednostavnim grupisanjem posmatrane tačke podataka na osnovu vrednosti pridružene latente varijable i proseka vrednosti, ili neka funkcija vrednosti, od tačaka u svakoj grupi. Ovo sugeriše iterativni algoritam, u slučaju kada su   i  nepoznati:

  1. Prvo, inicijalizujte parametre   nekim slučajnim vrednostima.
  2. Izračunaj najbolju vrednost za   pomoću ovih vrednosti parametara.
  3. Zatim, koristite ove izračunate vrednosti   da izračunate bolju procenu parametara  . Parametri povezani sa određenom vrednošću   će koristiti samo one tačke podataka kod kojih pridružene latentne varijable imaju tu vrednost.
  4. Vršite iteraciju koraka 2 i 3 do konvergencije.

Upravo opisan algoritam monotono prilazi lokanom minimumu funkcije, a najčešće se naziva hard EM. K-mean algoritam je primer ove klase algoritma.

Svojstva uredi

Govoreći o E koraku, malo je pogrešan. Ono što se računa u prvom koraku su fiksni parametri zavisni od podataka funkcije Q. Kada su parametri Q poznati, potpuno su određeni i uvećani u drugom M koraku EM alogritma. 

Iako EM iteracija povećava broj posmatranih podataka (tj. marginali) funkcije verodostojnosti, ne postoji garancija da niz konvergira ka proceni maksimalne verodostojnosti (MLE). Za bimodalne distribucije, ovo znači da EM algoritam može konvergirati do lokalnog maksimuma posmatranih podataka funkcije verodostojnosti, zaviseći od početnih vrednosti. Postoji niz heurističkih ili metaheurističkih pristupa za "bežanje" lokalnim maksimumima, kao što su nasumični restart (krenuvši od nekoliko različitih slučajnih početnih procena θ(t)), ili primenom algoritma simulacije žarenja.

EM je naročito koristan kada je verodostojnost u porodici eksponencijalnih algoritama: E korak postaje zbir očekivanja dovoljne statistike, a M korak podrazumeva maksimizovanje linearne funkcije. U tom slučaju obično je moguće izvesti ispravke u zatvorenoj formi za svaki korak, koristeći Sundberg formulu (Objavio Ralf Sundberg koristeći neobjavljene rezultate Per Martin–Lofa i Anders Martin-Lofa).

EM metoda je modifikovana za izračunavanje maksimalne aposteriorne procene (MAP), sa Bajesovom statistikom, u originalnom radu Dempster, Laird i Rubin.

Postoje i druge metode za pronalaženje maksimalne verodostojnosti, jedna od metoda je varijacija Gaus-Njutnovog algoritma, a postoje i još neke. Za razliku od EM, takve metode obično zahtevaju procenu prvog ili drugog derivata funkcije verodostojnosti.

Dokaz korektnosti uredi

EM algoritam radi na poboljšanju  , a ne poboljšava direktno  . Ovde smo pokazali da poboljšanja prvog podrazumeva poboljšanje poslednjg. Za bilo koje   sa ne nultom verovatnoćom  , možemo zapisati

 

Uzimamo očekivanje nad vrednostima   množenjem obe strane sa  . Sabiranjem i (ili integrisanjem) preko  . Leva strana je konstanta očekivanja, pa dobijamo:

 

gde je   određen negiranjem sume koju je zamenio. Ova poslednja jednačina važi za bilo koju vrednost  , uključujući  ,

 

i oduzimanjem ove poslednje jednačine sa onom iz prethodne, dobijamo

 

Međutim, Gisova nejednakost nam govori da  , pa možemo zaključiti da

 

Drugim rečima, birajući   da unapredimo   izvan   će unaprediti   preko   najmanje toliko.

Aplikacije uredi

Pod nekim okolnostima, vrlo je zgodno gledati na EM algoritam kao dva naizmenična koraka maksimiziranja. Razmotrimo funkciju:

 

gde je q proizvoljna raspodela verovatnoća nad neposmatranim podacima z, pZ|X(· |x;θ) je uslovna raspodela neposmatranih podataka gde su dati posmatrani podaci x, H je entropija i DKL je Kulbak-Lajbler divergencija.

Onda se koraci EM algoritma mogu posmatrati kao:

Korak očekivanja: Izaberi q da maksimizuješ F:
 
Korak maksimizacije: Izaberi θ da maksimizuješ F:
 

Primer uredi

Gausova raspodela uredi

 
Animacija koja demonstrira EM algoritam koristeći model dvokomponentne Gausove raspodele nad podacima gejzira Stari Verni. Algoritam ide od nasumične inicijalizacije do konvergencije.

Neka je x = (x1,x2,…,xn) primer od n nezavisnih opservacija iz raspodele dve multivarijacione normalne raspodele dimenzije d, i neka je z=(z1,z2,…,zn) latentna varijabla kojom se određuje komponenta iz koje potiče posmatranje.

  i  

gde je

  i  

Cilj je da se procene nepoznati parametari koji predstavljaju “mešanje” vrednosti između Gausovih i načini i kovarijanse svakog.

 

gde je funkcija verodostojnosti:

 

gde je   indikator funkcije, a f je raspodela verovatnoće od više varijanta. Ovo može biti prepisano familiji eksponencijalnih formi:

 

Da bi se videla poslednja jednakost, imajte na umu da za svako i svi indikatori   su jednaki nuli, osim jednog koji je jednak jedan. Unutrašnja suma se na taj način smanjuje na jedan član.

Korak E uredi

Trenutna procena parametara θ(t) uslovna raspodela Zi je determinisana sa Bajesovom teoremom, da bude proporcionalne visine od normalne raspodele verovatnoće, sa težinom τ:

 .

Rezultat E koraka u funkciji:

 

Da bismo videli poslednju jednakost, imajte na umu da smo sumiranjem po svim mogućim vrednostima od z gde je verovatnoća svakog z proizvod  . Sada pogledajmo koeficijente svakog člana unutar sume za. . Biće dva člana   and  . Budući da termin u zagradi marginalizuje po svim mogućim slučajevima kad  , je jednako 1. Tako su koeficijenti svakog člana   i   koji teže jednakosti.

Korak M uredi

Kvadratni oblik Q(θ|θ(t)) znači da određivanje maksimalne vrednosti θ je relativno jednostavno. Imajte na umu da τ, (μ1,Σ1) i (μ2,Σ2) mogu biti sve maskimizovano nezavisno jedni od drugih, jer se svi oni pojavljuju u odvojenim linearnim članovima. Za početak, uzmimo u obzir τ, koje ima ograničenje τ1 + τ2=1:

 

Ovo ima isti oblik kao MLE za binomnu raspodelu, tako da:

 

U narednim procenama (μ1,Σ1):

 

Ovo ima istu formu kao i težak MLE za normalnu raspodelu, tako da

  and  

i, preko simetrije:

  and  .

Reference uredi

  1. ^ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). „Maximum Likelihood from Incomplete Data via the EM Algorithm”. Journal of the Royal Statistical Society, Series B. 39 (1): 1—38. JSTOR 2984875. MR 0501537. 
  2. ^ Sundberg, Rolf (1974). „Maximum likelihood theory for incomplete data from an exponential family”. Scandinavian Journal of Statistics. 1 (2): 49—58. JSTOR 4615553. MR 381110. 
  3. ^ Rolf Sundberg. 1971. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. Dissertation, Institute for Mathematical Statistics, Stockholm University.
  4. ^ Sundberg, Rolf (1976). „An iterative method for solution of the likelihood equations for incomplete data from exponential families”. Communications in Statistics – Simulation and Computation. 5 (1): 55—64. MR 443190. doi:10.1080/03610917608812007. 

Literatura uredi

Spoljašnje veze uredi