EM-ALGORITMUS HIÁNYOS ADATRENDSZEREKRE

Átírás

1 Süvítenek napjank, a forró sortüzek valamt mnden nap elmulasztunk. Robotolunk lélekszakadva, jóttevőn, s valamt mnden tettben elmulasztunk... (Vác Mhály: Valam nncs sehol) EM-ALGORITMUS HIÁNYOS ADATRENDSZEREKRE 976. december 8-án Londonban, a Krály Statsztka Társaság ülésén érdekes előadás hangzott el. Egy olyan algortmust smertettek, amelyet különböző formákban a paraméterek maxmum lkelhood becslésére már régóta használtak, azonban lyen általános formában még soha nem fogalmazták meg. Az algortmus eredet leírása konvergencabzonyítással és példákkal []-ben található. Az ún. EM-algortmus célja az, hogy becslést adjon a háttéreloszlás valamely θ paraméterére hányos adatokból. A paraméter maxmum lkelhood becslése még teljes adatrendszerből s bonyolult, sokszor nem s adható explct megoldás. Gyakran hányos s az adatrendszer. Az smertetendő algortmus khasználva ezt a körülményt, megpróbálja rekonstruáln a hányzó adatokat, mközben a paraméterre s egyre jobb becslést ad. Ez a kétféle törekvés egy terácó következő két alaplépésében valósul meg:. E-lépés: a paraméter korább becslése alapján rekonstruáljuk a hányzó adatokat feltételes várható érték képzéssel (E: Expectaton ); 2. M-lépés: az lyen módon kegészített teljes adatrendszerből meghatározzuk a lkelhood-fv. maxmumhelyét θ-ban (M: Maxmzaton ). A paraméter így nyert közelítésével újra kezdjük az E-lépést. Tág feltételek mellett Dempster, Lard és Rubn [] bebzonyították az algortmus konvergencáját. Az algortmus nem csupán akkor alkalmazható, amkor bzonyos változók mérése nem állnak rendelkezésünkre, hanem cenzorát adatok vagy keverékfelbontás esetén s. Még általánosabban, az adatrendszert úgy s teknthetjük hányosnak, hogy látens változók vagy egy rejtett modell húzódk meg mögötte (pl. Baum Welch algortmus rejtett Markov-modellekre). Ilyenkor a modell paraméterenek becslése a feladat. Néha csupán technka okokból egészítjük k adatrendszerünket, mert a kegészítettben könnyebben végre tudjuk hajtan az ML-becslést (l. a következő példa). Tételek vszont garantálják, hogy az terácó az eredet (hányos) lkelhoodot maxmalzálja. A hvatkozott ckk jelölésevel: legyen X a teljes, Y pedg a hányos mntatér, amelyek között tehát létezk egy X Y, x y(x) megfeleltetés. Jelölje f(x θ) ll. g(y θ) a megfelelő eloszlások együttes sűrűség- ll. vsz.- függvényét, azaz a lkelhood-függvényt, amely a θ akár többdmenzós paramétertől függ (tt

2 az abszolút folytonos esetet tekntjük). Közöttük a g(y θ) = f(x θ) dx () X (y) összefüggés közvetít (dszkrét eloszlásoknál az helyett értendő), ahol X (y) = {x : y(x) = y}. Célunk a g(y θ) hányos lkelhood függvény maxmalzálása θ-ban az y megfgyelés alapján. Egy konkrét példa Tekntsünk egy genetka példát (l. Rao [5], 5.5.g. fejezet)! (AB ab) genotípusú hímek és ugyanlyen genotípusú nőstények keresztezéséből származó 97 utód fenotípusa négyféle lehet: AB, Ab, ab és ab. A modell szernt az utódok polnomáls eloszlás szernt tartoznak a négy fenotípus valamelykéhez, az osztályok valószínűsége rendre: π, 4 4 π, 4 4 π és 4π; tt π a modell paramétere (Rao példájában π = ( θ) 2, ahol θ az ún. rekombnácós hányados). A megfgyelt (hányos) adatok: y = (y, y 2, y 3, y 4 ) = (25, 8, 20, 34). Itt y tulajdonképpen egy 4 alternatívájú ndkátorváltozó összegstatsztkája, mely polnomáls eloszlást követ. A lkelhood függvény tehát g(y π) = (y + y 2 + y 3 + y 4 )! ( y!y 2!y 3!y 4! π)y ( 4 4 π)y 2 ( 4 4 π)y 3 ( 4 π)y 4. A feladat g maxmalzása π-ben. Ecélból egy olyan algebra egyenletet kell megoldan, amnek számos gyöke van, közülük csak kettőt lehet explct módon megadn. A feladat természetesen numerkusan vszonylag egyszerűen megoldható, az alábbakban smertetett eljárás az EM algortmus egy jól követhető llusztrácója. A fent adatrendszert technka okokból hányosnak tekntjük, amely a valód, 5 csoportból álló adatrendszerből úgy keletkezett, hogy az első 2 csoport összevonódott. A teljes adatrendszer tehát: x = (x, x 2, x 3, x 4, x 5 ), ahol y = x + x 2, y 2 = x 3, y 3 = x 4, y 4 = x 5. x nem más, mnt egy 5 alternatívájú ndkátorváltozó összegstatsztkája, melyre felírt polnomáls lkelhood: ahol f(x π) = (x + x 2 + x 3 + x 4 + x 5 )! p x x!x 2!x 3!x 4!x 5! px 2 2 px 3 3 px 4 4 px 5 5, p = 2, p 2 = 4 π, p 3 = p 4 = 4 4 π, p 5 = 4 π. A fent ntegrálnak dszkrétben megfelelő összeg: g(y π) = f(x π). x +x 2 =y, x 0, x 2 0 egész, x 3 =y 2, x 4 =y 3, x 5 =y 4

3 Ezután kezdődjék az terácó valamely π (0) kezdőértékkel! Tegyük fel, hogy az m-edk lépés után már megvan a π (m) közelítés. Az m + -edk lépés a következő két lépéseből fog álln:. E-lépés: az y megfgyelés alapján rekonstruáljuk az x adatrendszert azaz meghatározzuk x és x 2 y = 25 és π = π (m) mellett feltételes várható értéket. ( Mvel x, lletve ) 2 x 2 a fent feltélek mellett x 3, x 4 és x 5 értékétől függetlenül Bn 25 lletve ( π(m) Bn π (m) 25 eloszlású, ezért ) π(m) x (m) = és x (m) 4 π(m) 2 = 25 4 π(m) π(m) 2. M-lépés: az lyen módon kegészített (x (m), x (m) 2, 8, 20, 34) teljes adatrendszerből meghatározzuk π maxmum lkelhood becslését, és ezt π (m+) -gyel jelöljük. Ecélból vonjuk össze maxmalzálandó f(x π) lkelhood függvény π (m) -től nem függő tényezőt egyetlen konstansba: ( ) (m) x f(x π) = const 4 π ( 4 ) π. Ezt a kfejezést 4 x(m) nal megszorozva a a maxmalzálandó függvény az alább alakot ölt: f(x π) = const (π) x(m) ( π) 8+20, am a Bernoull eloszlás lkelhood függvénye, tehát a maxmumát a értéken vesz fel. π (m+) = x (m) x (m) Ezzel a π (m+) értékkel vsszatérünk az E-lépéshez. Az terácót π (0) = 0.5-el ndítva 2-3 lépés után π értéke 0.6 körül stablzálódott. Elmélet megfontolások Legyen statsztka mezőnk domnált, paraméteres, dentfkálható és regulárs (a Cramer Rao egyenlőtlenségnél tanult bederválhatóság feltételek teljesülnek). Tegyük fel, hogy mntánk exponencáls eloszláscsaládból származk, ahol természetes paraméterezést választunk, azaz a sűrűség/súly-függvény f(x θ) = c(θ) e k j= θ jt j (x) h(x) alakú, ahol a θ = (θ,..., θ k ) természetes paramétertől való függést feltételként jelöljük (nem ok nélkül, u. a Bayes módszeréhez hasonló meggondolásokat használunk). Tudjuk, hogy egy

4 X = (X,..., X n ) n-elemű mnta esetén t(x) = ( = t (X ),..., = t k(x )) elégséges, sőt amennyben a k-dmenzós paramétertér konvex és tartalmaz k-dmenzós téglát teljes s, így mnmáls elégséges statsztka, am ekvvalenca erejég egyértelmű. Tehát a realzáltakkal felírt lkelhood-függvény a következő alakú: f(x θ) = c n (θ) e k j= θ j = t j(x ) n = h(x ) = a(θ) eθ tt (x) b(x), ahol a vektorok sorvektorok, T a transzponálást jelöl és a(θ) = e θ tt (x) b(x) dx. (2) X Jelen esetben az terácó véggkövethető a t mnmáls elégséges statsztkán keresztül a következőképpen. Mután Y (a megfgyelt hányos adatrendszer) az X (a posztulált teljes adatrendszer) függvénye, X feltételes sűrűsége x-ben az Y = y feltétel mellett () fgyelembevételével k(x y, θ) = f(x θ) g(y θ) = a(θ y) eθ tt (x) b(x), (3) ahol a(θ y) = X (y) e θ tt (x) b(x) dx. (4) Azaz a feltétel nélkül és a feltételes lkelhood ugyanazzal a természetes paraméterrel és elégséges statsztkával írható fel, a különbség csak az, hogy különböző tereken X -en ll. X (y)-on vannak értelmezve, am a (2) ll. (4)-bel súlyfüggvényeken s látszk. Célunk az L(θ) := ln g(y θ) log-lkelhood függvény maxmalzálása θ-ban adott y mellett. (3) matt L(θ) = ln a(θ) + ln a(θ y). (5) A bederválhatóság feltételek matt Hasonlóan ln a(θ) = θ a(θ) X t(x) e θ tt (x) b(x) dx = E(t θ). (6) ln a(θ y) = t(x) e θ tt (x) b(x) dx = E(t y, θ). θ a(θ y) X (y) (Ez csak tömör jelölés: A vektor szernt derválás eredmenye a komponensek szernt parcáls derváltakból álló vektor.) Ezek segítségével (5) derváltja alakú, amnek zérushelyét keressük. L(θ) = E(t θ) + E(t y, θ) (7) θ Nézzük most a következő terácót, melyben már eljutottunk θ m-edk becsléség.

5 . E-lépés: a paraméter θ (m) értéke alapján becsüljük a teljes adatrendszer t elégséges statsztkáját a hányos adatrendszerből t (m) := E(t y, θ (m) ) (8) a feltételes eloszlás alapján (a példában ezek a bnomáls eloszlású változók becslése); 2. M-lépés: meghatározzuk θ (m+) -et, mnt a teljes mnta lkelhood-egyenletének megoldását, azaz ln f(x θ) = 0. θ Használva az exponencáls eloszláscsalád specáls alakját, ez nem más, mnt a egyenlet, azaz (6) fgyelembevételével az egyenlet megoldása lesz θ (m+). θ ln a(θ) + t(m) (x) = 0 (9) E(t θ) = t (m) (0) Amennyben az terácó θ -hoz konvergál, elég nagy m-re θ (m) = θ (m+) = θ, így (8) és (0) alapján E(t θ ) = E(t y, θ ) teljesül, azaz (7) zérushelyét kapjuk. Most még általánosabban belátjuk, hogy az terácó konvergál. Az általánosság egyrészt azt jelent, hogy nem csupán exponencáls eloszláscsaládra szorítkozunk, másrészt az M-lépés sem feltétlenül a teljes lkelhood maxmalzálását jelent, csak a célfüggvény növelését. Mvel nformácóelmélet fogalmakat használunk, a természetes alapú logartmus helyett 2 alapút használunk és log-gal jelöljük. Ez nem jelent az általánosság megszorítását, hszen a hányos lkelhhoodnak a θ argumentumban való maxmalzálása arg max szempontjából ekvvalens a lkelhood függvény bármely -nél nagyobb alapú logartmusának a maxmalzálásával. Így a továbbakban L(θ) = log g(y θ) lesz a maxmalzálandó log-lkelhood függvény. Tetszőleges θ, θ párra vezessük be a Q(θ θ ) = E(log f(x θ) y, θ ) = függvényt. Ezzel az terácó θ (m) θ (m+) fázsa: X (y) log f(x θ)k(x y, θ ) dx (). E-lépés: kszámoljuk a Q(θ θ (m) ) függvényt a ()-bel feltételes várható érték képzéssel (exponencáls eloszláscsaládnál elég volt az elégséges statsztka feltételes várható értékét venn);

6 2. M-lépés: maxmalzáljuk a Q(θ θ (m) ) függvényt θ-ban. Legyen θ (m+) := arg max Q(θ θ (m) ) és tegyük fel, hogy θ (m+) Θ. Exponencáls eloszláscsaládnál ez a (9) egyenlet megoldását jelent. Most belátjuk, hogy az algortmus következő relaxácója s konvergál: az M-lépésben Q(θ θ (m) )-et nem feltétlenül maxmalzáljuk θ-ban, hanem csak növeljük értékét az előző terácóbelhez képest. Azaz θ (m+) olyan, hogy Vezessük be a H(θ θ ) = E(log k(x y, θ) y, θ ) = jelölést. Lemma. Q(θ (m+) θ (m) ) Q(θ (m) θ (m) ). (2) X (y) H(θ θ ) H(θ θ ) log k(x y, θ)k(x y, θ ) dx (3) (Megje- és egyenlőség pontosan akkor áll fenn, ha k(x y, θ) = k(x y, θ ) majdnem bztosan. gyezzük, hogy H(θ θ) a k(x y, θ) eloszlás entrópája.) Bzonyítás. Alkalmazzuk a Jensen-egyenlőtlenséget, melynek értelmében tetszőleges h konvex függvényre és első momentummal rendelkező ξ valószínűség változóra E(h(ξ)) h(e(ξ)). Ematt az f eloszlás relatív entrópája a g eloszlásra f log f g 0, u. alkalmazzuk a Jensenegyenlőtlenséget a h(x) = log(x) konvex függvényre és az f eloszlás szernt várható értékre: f log f g = E( log g f ) log(e( g g f )) = log f = log = 0. (4) f Mvel H(θ θ ) H(θ θ ) = X (y) log k(x y, θ ) k(x y, θ) k(x y, θ ) dx, nem más, mnt a k(x y, θ ) eloszlás relatív entrópája a k(x y, θ) eloszlásra nézve, így a lemma értelmében nem-negatív. Az ntegrál pontosan akkor 0, ha a nem-negatív ntegrandus majdnem bztosan 0, azaz a logartmálandó hányados majdnem bztosan. Defnícó. A θ (m+) = M(θ (m) ) terácó általánosított EM-algottmust (GEM) defnál, ha Q(M(θ) θ) Q(θ θ), θ Θ. Tehát (2) fennállásakor GEM algortmusunk van. Tétel. Tetszőleges GEM algortmusra L(M(θ)) L(θ), θ Θ,

7 ahol egyenlőség pontosan akkor áll fenn, ha k(x y, M(θ)) = k(x y, θ) és Q(M(θ) θ) = Q(θ θ) majdnem bztosan teljesülnek. Bzonyítás. Először s Q(θ θ ) H(θ θ ) = E(log(f(x θ) log(k(x y, θ) y, θ ) = E(log(g(y θ)) y, θ ) = log(g(y θ)) = L(θ), mvel log(g(y θ)) mérhető y-ra. Ezután L(M(θ)) L(θ) = [Q(M(θ) θ) Q(θ θ)] + [H(θ θ) H(M(θ) θ)] 0, mvel az első []-ben álló mennység nem-negatív a GEM defnícója matt, a másodkban álló pedg a lemma matt. Ha a lkelhood-függvény korlátos, akkor a GEM mvel mnden terácós lépésben növel (nem csökkent) a lkelhood-függvény értékét konvergál, és exponencáls eloszláscsaládnál láttuk, hogy a fxpont a lkelhood-egyenlet megoldását adja. A lkelhood-függvényre tett tovább folytonosság és dfferencálhatóság feltételek, továbbá a paramétertér konvextása esetén belátható, hogy az terácó a lkelhood-függvény egy lokáls maxmumhelyéhez konvergál Θ-ban, am egyértelműség esetén globáls maxmumhely s. [] ckkben mondják k ehhez a pontos feltételeket. Ha lyen feltételek nncsenek, [4]-ben példákat mutatnak egyéb eshetőségekre (pl. nyeregpont). [6]-ban Csszár Imre bebzonyítja, hogy az EM-algertmus nem más, mnt egy alternálva mnmalzáló eljárás az I-dvergencára. A P és Q eloszlások I-dvergencája a (4)-bel relatív entrópa azzal a különbséggel, hogy tt a két eloszlás ugyanazon a véges tartón értelmezett dszkrét eloszlás: D(P Q) = P(a) log P(a) Q(a). a Az I-dvergenca nem szmmetrkus az argumantumaban, vszont az eukldesz távolsághoz hasonló tulajdonsága vannak. Ezeken alapul az az állítás, hogy az EM-algortmus során D(P Q 0 ) D(P Q ) D(P 2 Q ) D(P 2 Q 2 )..., ahol a Q 0 felvett kezdet eloszlásból kndulva Q, Q 2,... rekonstruálja a teljes mnta smeretlen eloszlását, míg P m = E Qm (x y) a teljes mnta hányosra vett feltételes várható értéke, amennyben a teljes mnta eloszlása Q m. A [6] jegyzetben bebzonyítják, hogy a fent eljárás konvergál az smeretlen valód Q eloszláshoz, mvel a nem-negatív I-dvergenca mnden lépésben csökken (nem növekszk). (Itt most általánosabban, nem a paramétert becslk, hanem magát az smeretlen eloszlást, azaz az EM algortmus nem-paraméteres verzóját kapjuk.) Adatbányászat alkalmazások Gyakor feladat a többdmenzós normáls eloszlás paraméterenek becslése hányos adatokból. Pl. adatrendszerünk pácenseken mért folytonos változók értéket tartalmazza (pl. testmagasság, testsúly, vérnyomás), de bzonyos pácensek bzonyos mért értéke hányoznak (nem vették fel vagy elvesztek).

8 . E-lépés: a paraméter valamely θ (m) értéke alapján becsüljük a hányzó adatokat feltételes várható érték képzéssel. 2. M-lépés: az így kegészített teljes adatrendszerben a jól smert módon maxmum lkelhood becslést hajtunk végre a paraméterekre (mntaátlag ll. emprkus kovarancamátrx). Azonban nem feltétlenül a mérések hányosak, lehet, hogy valamt meg sem néztünk, pl. efelejtettük, hogy a pácensek mely betegcsoportból valók, vagy éppenséggel most szeretnénk új dagnosztak csoportokat defnáln (a látens változó véges értékkészletű). Adatbányászatban nagy mntáknál előfordul, hogy a mntaelemek bár függetlenek, nem azonos eloszlásúak. Ilyenkor gyakran feltesszük, hogy nem homogén mntánk különböző (paraméterű, de azonos típusú) eloszlások keveréke, azaz a sűrűség/valószínűség-függvény véges sok különböző paraméterű sűrűség/valószínűség-függvény szuperpozcója. EM-algortmus normáls eloszlások keverékfelbontására Gyakran folytonos sokaságból származó mntánk emprkus sűrűséghsztogramja több kugró csúccsal rendelkezk; úgy néz k, mnt Gauss-görbék szuperpozcója. (Pl. folyók vízszntjének tetőzés értéke megfelelhetnek a tavasz és nyár elej árhullámnak; vagy a forgalomban levő részvénymennység a tőszdén nytás után és zárás előtt mutat egy-egy csúcsot, ezeket szeretnénk sok nap 8-9 órás adata alapján szátválasztan.) Ilyenkor keressük a komponensek paramétret és arányát. Az EM-algortmus szemléltetéséül egy [2]-bel példát smertetek két komponens szétválasztására. Háttéreloszlásunk változóját jelölje Y, amely az Y és Y 2 Gauss-eloszlásű változók keveréke, ahol a keverés arányt a Bernoull-eloszlású háttérváltozó jelöl. Amennyben a 0 értéket vesz fel, az első (Y által képvselt), amennyben az értéket vesz fel, a másodk (Y 2 által képvselt) Gauss-eloszlás van érvényben. Tehát modellünk a következő: Y = ( )Y + Y 2, ahol a modell paramétere: (µ j, σj 2 ) az j-edk Gauss-eloszlás paramétere (j =, 2) és π a látens Bernoull-változó paramétere ( az ertéket π valószínűséggel vesz fel, a 0 ertéket pedg π valószínűséggel). Azaz θ = (µ, σ, 2 µ 2, σ2, 2 π). Y sűrűségfüggvénye tehát g(y θ) = ( π)f (y) + πf 2 (y), ahol f j a (µ j, σj 2 ) paraméterű Gauss-sűrűség. Amennyben n-elemű független mntánk realzáltja az y,..., y n mért értékekből áll, a lkelhood-függvény g(y θ) = n g(y θ) = = n [( π)f (y ) + πf 2 (y )] =

9 alakú, melyet vagy melynek logartmusát maxmalzáln θ-ban bonyolult feladat. Ezért a következő terácót hajtjuk végre. (Összhangban az elmélet meggondolásokkal, tt s g a hányos mnta lkelhoodja. A teljes mnta lkelhoodja a két csoport kétféle lkelhoodjának a szorzata lenne, de ezt nem tudjuk felírn, mert nem smerjük az egyes mntaelemek csoportbatartozását.) 0. Incalzálás. A paraméterekhez kezdőértéket rendelünk: θ (0) = (µ (0), σ2 (0) (0), µ 2, σ2 2(0), π (0) ). (Pl. π (0) lehet /2, a két várható érték lehet két szélsőséges érték, a szórások mndegyke pedg az emprkus.) Tehát m := 0 és tegyük fel, hogy már eljutottunk a θ (m) = (µ (m), σ 2 (m) (m), µ 2, σ2(m) 2, π (m) ) teráltg. A következő lépésben E-M belső cklus jön:. E-lépés: kszámoljuk az egyes mntaelemek részarányát a kétféle eloszlásban, azaz az E( Y = y ) feltételes várható értéket, am Bernoull-eloszlása matt a P( = Y = y ) feltételes valószínűséggel egyezk meg és π (m+) -el jelöljük ( =,..., n). Mndezt a hányos adatrendszer és a paraméter kezdet eloszlása alapján tesszük a Bayes-tétel segítségével: π (m+) = π (m) f (m) 2 (y ) ( π (m) )f (m) (y ) + π (m) f (m) 2 (y ) ( =,..., n), ahol f (m) j jelöl a θ (m) paraméter alapján számolt j-edk Gauss-sűrűséget (j =, 2). 2. M-lépés: külön-külön maxmalzáljuk a teljes mntát jelentő kétféle Gauss lkelhoodot, amnek megoldása jól smert, csak tt a mntaelemeket részesedésük arányában számítjuk be a kétféle becslésbe: µ (m+) = = lletve ( π(m+) )y = ( π(m+) ), σ2 (m+) = = ( π(m+) )(y µ (m+) ) 2 = ( π(m+) ) ( =,..., n), µ (m+) 2 = = π(m+) y = π(m+), σ2 2 (m+) = = π(m+) (y µ (m+) 2 ) 2 = π(m+) ( =,..., n). A fent E-M lépés egy terácós lépést jelentett. Ezután legyen π (m+) := n n = π (m+) a Bernoull-paraméter első terácós becslése a mntaátlagával, m := m + és smételjük meg a fent. és 2. lépést. Elég sokszor smételve az eljárásbel θ (m) sorozat (m =, 2,... ) konvergáln fog, hacsak valam rossz ndítás matt nem ragad le rögtön az elején (pl. a két normáls paramétere megegyeznek és /2 /2 eséllyel választjuk őket). Könnyű elképzeln, hogyan bonthatnánk fel mntánkat kettőnél több, de adott számú normáls eloszlás keverékére (általában annyra, ahány púpú az emprkus sűrűséghsztogram).

10 EM-algortmus polnomáls eloszlások keverékfelbontására Megfgyelésenk tt két véges halmaz elempárjara vonatkoznak. Ks módosítással a [3]-bel algortmust smertetem, melyet ott látens osztályozás modellnek vagy együttes flterezésnek neveznek. A hányos mntatér X Y, ahol X = {x,..., x n }, Y = {y,..., y m } és az x, y j párokra együttes megfgyelésenk vannak egy n m-es kontngencatábla formájában, melynek eleme ν(x, y j ), ezek nem-negatív (nem feltétlenül, de általában) egész számok. Pl. szemszín hajszín esetén ν(x, y j ) az x -vel kódolt szem- és y j -vel kódolt hajszínű emberek gyakorsága a mntában; mozbajárók mozflmek esetén ν(x, y j ) azt jelöl, hogy x néző hányszor látta az y j flmet (gyakran 0 vagy ); nternetes adatoknál kulcsszó dokumentum, felhasználó dokumentum; bank adatoknál bank rendszerbe való fzka belépés d.-je accountra való belépés d.-je; pénzforgalm adatoknál lehetséges átutalók lehetséges kedvezményezettek. Utóbb esetben ν(x, y j ) jelöl az x által y j -nek átutalt összeg nagyságát (pl. ezer Ft-ban) vagy az x y j tranzakcó gyakorságát egy adott dőszakban. Itt X = Y a bank összes ügyfele, de a kontngencatábla általában ekkor sem szmmetrkus. Tehát a kontngencatábla adott, azonban a ν(x, y j ) számok rendszerét hányos adatrendszernek tekntjük, mert nem tartalmazza a kapcsolat/tranzakcó mögött szándékot, melyet látens változónak tekntünk. Ez egy dszkrét háttérváltozó a Z = {z,..., z k } értékkészlettel, k rögzített és jóval ksebb, mnt n vagy m. A szemszín hajszín példában adatrendszerünk lehet különböző típusú országok adatanak keveréke (pl. skandnáv, közép-európa, medterrán); mozbajárók mozflmek esetén a látens változó a flmnézés ll. flmek különböző fajtát jelölhet: pl. művész-, dokumentum-, kommersz flmek ll. lyen flmekre orentált nézők (maguk a nézők ll. flmek sem egységesek, bzonyos arányban tartalmazzák ezeket az orentácókat); a pénzforgalm példában látens változó lehet az átutalás szándéka (pl. család, üzlet vagy pénzmosás, ekkor k = 3). Célunk az, hogy ezen szándékok szernt szabdaljuk fel az egyes átutalásokat és kszűrjük a gyanús szándékokhoz legnkább köthető x, y j párokat. A [3] ckk példájában flmnézés szokásokat vzsgálnak. Modellünk a következő: p(x, y j ) = k p(x, y j z l ) π(z l ) = l= k p(x z l ) p(y j z l ) π(z l ), ahol a pánzforgalm páldával élve p(x, y j ) jelöl az x y j átutalás valószínűségét, π(z l ) a z l szándék a pror valószínűségét, és feltesszük, hogy adott szándék mellett p(x, y j z l ) = p(x z l ) p(y j z l ), am a két rányú pénzforgalom adott szándék mellett feltételes függetlenségét jelent. A modell paramétere a π(z l ) valószínűségek (l =,..., k) és a p(x z l ), p(y j z l ) feltételes valószínűségek ( =..., n; j =,..., m; l =,..., k). Ezeket θ-ban fogjuk össze. Célunk a következő hányos lkelhood maxmalzálása, mely polnomáls eloszlások keveréke: k π(z l ) c l l= n = j= l= m p(x, y j z l ) ν(x,y j z l ), ahol a feltételes cellavalószínűségek (melyek a modell szernt szorzat alakúak) ktevőjében a cellagyakorságok adott szándék mellett értéke áll (nem feltétlenül egész számok), c l pedg csak

11 l-től függő konstans (polnomáls együttható, vagy nem egész ktevők esetén Γ-függvényeket tartalmaz). Becsüljük a paramátereket az EM-algortmus segítségével! 0. Incalzálás. A paraméterekhez kezdőértéket rendelünk: π (0) (z l ), p (0) (x z l ), p (0) (y j z l ). t:=0, tegyük fel, hogy már kezünkben van a θ (t) terált.. E-lépés: kszámoljuk a hányzó szándék feltételes várható értékét a hányos adatrendszer alapján. Ezt a következő feltételes (a posteror) valószínűségek rendszere defnálja a Bayestétellel: p (t+) (z l x, y j ) = p (t) (x, y j z l ) π (t) (z l ) k l = p(t) (x, y j z l ) π (t) (z l ) = p (t) (x z l ) p (t) (y j z l ) π (t) (z l ) k l = p(t) (x z l )p (t) (y j z l ) π (t) (z l ). 2. M-lépés: külön-külön maxmalzáljuk a k db. polnomáls eloszlás paraméteret, azaz rögzített l esetén keressük a m n c l = j= ν(x,y j ) p (t+) (z l x,y j ) h p(x, y j z l ) l függvény maxmumát, ahol a feltételes cellavalószínűségek ktevőjében a cellagyakorságok adott szándék mellett értéke áll (Bayes-tétel a gyakorságokra), a nevezőben álló h l csak l-től függ (a számlálóbelek, j-re vett összege). A feltételes függetlenséget khasználva és átrendezve maxmalzáln akarjuk a c l n m {p(x z l ) p(y j z l )} ν(x,y j ) p (t+) (z l x,y j ) = j= kfejezést a p(x z l ), p(y j z l ) paraméterekben. Rögzített l-re (l =,... k) elég a szögletes zárójelben álló specáls polnomáls lkelhood maxmumát venn. A specaltás abban áll, hogy a kapcsos zárójelbe foglalt valószínűségek szorzat alakúak és a ktevőbe csonkolt gyakorságokkal dolgozunk. Átrendezve és smerve a klasszkus polnomáls lkelhood maxmumát, a paraméterekre a következő becslés adódk mnden l =,..., k esetén: h l p (t+) (x z l ) = m j= ν(x, y j ) p (t+) (z l x, y j ) m = j= ν(x, y j) p (t+) (z l x, y j ) ( =,..., n) lletve p (t+) (y j z l ) = = ν(x, y j ) p (t+) (z l x, y j ) m = j = ν(x, y j ) p (t+) (z l x, y j ) (j =,..., m). Ezután legyen π (t+) (z l ) := m = j= p(t+) (z l x, y j ) nm (l =,..., k)

12 a szándékok valószínűségének következő terácós becslése, t := t + és újra megtesszük az. 2. lépést. Ezt elég sokszor smételve a θ (t) sorozat konvergáln fog θ -hoz bármely értelmes kezdés esetén. (Értelmetlen kezdás, ha az a pror valószínűségeket egyenlőnek választjuk. Ekkor az első lépésben a margnáls valószínűségeket kapjuk, s ezeknél az terácó le s ragad.) Ezekután pl. a pénzforgalm példával élve ha valamely l-re π (z l ) kcs, de a p (x z l ), p (y j z l ) feltételes valószínűségek közt vannak szgnfkánsan nagyok, akkor ezek az x, y j párok gyanúsak, akárcsak a hozzájuk tartozó z l szándék. EM-algortmus gráfok klaszterezésére Nem tananyag, de megteknthető [7]-ben. Irodalom [] Dempster, A. P., Lard, N. M., Rubn, D. B., Maxmum lkelhood from ncomplete data va the EM algorthm, J. R. Statst. Soc. B 39 (977) -38. [2] Haste, T., Tbshran, R., Fredman, J., The Elements of Statstcal Learnng. Data Mnng, Inference, and Predcton. Sprnger, New York (200). [3] Hofmann, T., Puzcha, J., Latent class models for collaboratve flterng, n Proc. of IJCAI 99 [4] McLachlan, G. J., The EM Algorthm and Extensons, Wley, New York (997). [5] Rao, C. R., Lnear Statstcal Inference and Its Applcatons, Wley, New York (965, 973). [6] Csszár, I., Shelds, P., Informaton Theory and Statstcs: A Tutoral, In: Foundatons and Trends n Communcatons and Informaton Theory, Vol. Issue 4 (2004), Now Publshers, USA. [7] Bolla, M. marb/prezentaco/bolla-asmdapres.pdf