Street1931
Falk1975
Falk1975
Inferencia ADOTTAK:! generatív modell: például: DAG + prior(ok) + likelihood(ok) P(X 1,X 2,,X n ) megfigyelések: D = {X i = x i, X j = x j, }! KISZÁMOLANDÓK:! normalizáció a poszteriorhoz: P(D) marginálisok: P(X k D) legvalószínűbb magyarázat: arg max x P(x D)! poszterior szerinti várható érték számítás: f(x)p(x D)dx! IDŐ ESETÉN: ciklikus modell, Markov-lánc, stb.! KISZÁMOLANDÓ PÉLDÁUL: P(X t+1 D [0,t] ) prediktív valószínűség
P(F=true N=true) =? P(F=true,N=true) P(F,A,S,H,N) = P(F)P(A)P(S F,A)P(H S)P(N S) Változók számában exponenciálisan sok tag (2 3 ) Általános esetben az egzakt bayesiánus inferencia NP-nehéz probléma!
Az agy képes NP-nehéz problémákat megoldani?! Néhány fantazmagórikus elmélettől eltekintve (Penrose: az agy, mint kvantumszámítógép) nincs okunk feltételezni, hogy az agy komputációsan többre lenne képes, mint egy hatalmas számítógép. Vagyis P NP esetén az NP-nehéz problémák az agy számára is éppúgy számításigényesek. Ha egy NP-nehéz problémát meg tudunk oldani, mint például az utazó ügynök problémát látszólag, az csak két dolog miatt lehet: vagy közelítő a megoldásunk, vagy csak kicsi a probléma mérete (?)
Szokásos érv, hogy a bayesiánus inferencia NP-nehéz probléma, ezért közelítő módszerekre van szükség. Valójában a közelítő módszerek is lehetnek NPnehezek, a gyakorlatban való megoldhatóság általában abban rejlik, hogy az input nem tetszőleges, hanem egy szűk részhalmaza a lehetséges összesnek. Ettől függetlenül a gyors közelítő módszereknek van relevanciája.! Közelítő módszerek:! Laplace módszer: integrál közelítő formula, lényegében Gauss közelítések Variációs módszerek: egzakt módszer elhanyagolás/egyszerűsítés után Mintavételezés (Monte Carlo módszerek): integrálok átlaggal való helyettesítése, tetszőlegesen finomítható (konzisztens)
Mintavételezés
Néha így, néha úgy döntünk Néha ez, néha az a benyomásunk
Egy 60 éves ember várhatóan mennyi ideig fog még élni? Egy 100 milliós bevétellel induló film mennyit fog összesen keresni? Feltételezés: p(t ttotal) = 1/ttotal Az életkor priorja jó közelítéssel Gauss, a filmek bevétele nem. A bayesiánus becslés függ a priortól, Gauss esetén például az átlag körül nyilvánvalóan törés van, filmek esetében nem. Griffiths2006
Feltételezések:! optimális bayesiánus inferencia prior reprezentáció a teljes értelmezési tartományon likelihood: feltételezés arról, hogy a kísérletvezető hogyan generál jóslat: medián képzés! MIN2 heurisztikus modell: csupán két minta, irreleváns minták dobva maradék minták minimuma (legközelebbi érték) ha nincs releváns minta, akkor arányossá (g)! G&T-Bayesian modell:! ugyanannyi minta alapján prior pontbecslés (σ) és bayesiánus számítás
Mozer2008
Mozer2008
Kérdés, hogy a minták mennyire függetlenek? Ha az első minta a legjobb, akkor a második csak ront a becslésen? Kísérlet kvízkérdésekkel, internetes felmérés (428 alany). Megkérdezték ugyanazt másodszor is (azonnal és 3 hét múlva). A második becslés variábilisabb. A második becslést is figyelembe véve jobbak vagyunk, de 3 hetet várva nagyobb a hatás: megkérdezni saját magunkat még egyszer harmadannyit ér, mint megkérdezni valaki más véleményét. Mindez azt sugallja, hogy az ember mintát vesz egy eloszlásból, és nem determinisztikusan választ a meglévő tudásbázis alapján. Vul2008
Mennyire rossz néhány minta alapján meghozni a döntés? 2AFC: melyik akciónak (A1 vagy A2) nagyobb a várható hasznossága? Teljes poszterior alapján optimális mindig a nagyobb valószínűségűt választani. P(A* = A1) := p [0.5,1]. Ekkor p valószínűséggel lesz helyes a döntés. k=1 minta esetén probability matching stratégia van, több minta esetén viszont a gyakoribbat fogjuk választani: q = 1 - ΘCDF(k/2,p,k) valószínűséggel, ahol Θ a binomiális eloszlás kumulatív eloszlásfüggvénye. A döntés qp+(1-q)(1-p) valószínűséggel lesz jó.
p-re egyenletesen kiátlagolva 1:1000 "morális" döntéshez 25000 minta kell, de kevés minta is közel van az optimumhoz! Vul2014
Moreno-Bote2011
Normalizálás után:
Individulas
Buffon-féle tűprobléma (L<D) p = 2L/(πD)
Monte Carlo módszerek Stanislaw Ulam & Neumann János nevéhez köthetők (Los Alamos, II. világháború). 1947-ben Neumann a világ első számítógépén (ENIAC) futtat termonukleáris és hasadásos problémákat. MCMC cikk szerzői: A. Rosenbluth, M. Rosenbluth, A. Teller, E. Teller (1953). Később Hastings és tanítványa Peskun általánosították sok dimenzióra. Ezután lényegében 40 évnyi csend a számítási erőforrások hiánya miatt (ma MCMC-vel megoldott problémák kezelhetetlenek voltak az akkori számítástechnikai kapacitással). 90-es évek elején t ö b b n a p o s M C M C k o n f e re n c i a é s ú j l e n d ü l e t! Paradigmaváltás: zárt képletű megoldások helyett algoritmusokra és valós problémákra terelődött a hangsúly. Ma a top 10 algoritmusból az elsőként tartják számon!
1. probléma: mintavételezés P eloszlásból 2. probléma: valamely mennyiség P szerinti várható értéke (1-es megoldja)! MC módszerek:! cdf módszer! rejection sampling! importance sampling! particle! stb.! MCMC módszerek:! Gibbs! Metropolis! Hamiltoni! stb.
Sztochaszticitás forrása vagy inherensen sztochasztikus fizikai folyamat vagy valamilyen nem-lineáris kaoutikus leképezés! Példa: Lehmer vagy Park Miller egyenletes eloszlású pszeudo-random generátor: leképezés: x 16807 x nemlinearitás: 32-biten túli számokat hagyjuk kicsorogni (azért működik jól, mert 2 31-1 egy Mersenne-prím)
Inverz transzformáció:! cdf (cumulative distribution function) használata! Legyen p(x) a mintavételezni kívánt eloszlás, legyen F(x) ennek a kumulatív eloszlás függvénye, legyen F -1 ez utóbbi inverz függvénye. Ha u [0,1] egyenletes eloszlású, akkor x = F -1 (u) egy mintát generál. ahol meredek, ott p nagy, fix dx-hez du szélesebb Házi feladat: u [0,1] egyenletes eloszlású valószínűségi változó segítségével hogyan tudunk mintavételezni a p(x) = λe -λx exponenciális eloszlásból?
Hogyan mintavételezzünk egyenletesen egy körlapot? Megjegyzés: ha van egyenletes mintánk egy körlapon, akkor abbó lehet generálni normál eloszlást is (Box-Muller módszer): yi = xi (-2(ln(r 2 ))/r 2 ) 1/2
Rejection sampling "céllövölde" Adaptív rejection sampling: amikor nem fogadunk el egy mintát, akkor a burkoló eloszlást adaptív módon csökkentjük. Ha a mintavételezni kívánt eloszlás logaritmusa konkáv, akkor működik az alábbi módszer: a sűrűségfüggvény logaritmusát szakaszonként lináris függvénnyel közelítjük felülről, és az exponenciálisok lecsengését adaptív módon változtatjuk. Exponenciálishoz mintát generálni ráadásul könnyű.
Rejection sampling hátránya sok dimenzió esetén Példa: Legyen egy sokdimenziós normál eloszlásunk, a burkoló pedig legyen egy kicsit szélesebb normálatlan normál eloszlás azonos centrummal. Legyen csak 1% a különbség a szórásban. Tekinthetjük úgy, mintha a burkoló az eredeti minden irányban megnyújtott változata volna, vagyis a térfogata az eredetinek (1.01) D -szerese, ahol D a dimenzió. D = 1000 esetén például csak minden húszezredik mintát fogunk elfogadni!
Kondicionálisok mintavételezése (Likelihood weighting) Ha mintát tudunk venni a teljes eloszlásból (grafikus modellben például előre haladva a fán), akkor kidobva azokat, ahol nem teljesül a feltétel, mintát kapunk a kondicionálisból. Ez sok fölösleges mintát jelenthet. Mi lenne, ha eleve forszíroznánk a szükséges változók rögzítését? Ezzel sajnos torzítunk. A helyes megoldás, ha súlyozzuk a mintánkat a likelihood-ok szerint. Vagyis amely változókat rögzítünk, azoknak a likelihood-jait (az adott mintában már legenerált szülőkre kondicionálva) összeszorozzuk, és ez lesz a minta súlya!
Mielőtt tovább lépnénk nézzünk egy bonyolultabb példát: Mixture of Gaussians F1 és F2 a hangokra jellemző frekvencia maximumok
Ismeretlenek: Gauss centrumok: η 1,η 2,,η K Gauss szórások: σ 1,σ 2,,σ K keverési súlyok: π 1,π 2,,π K adatpontok hovatartozása: c 1,c 2,,c N,ahol c i {1,2,,K} Adat: D = {x 1,x 2,,x N } Modell: normál eloszlások szuperpozíciója p(x i Θ,c) likelihood Gauss η m és σ m paraméterekkel, ahol m=c i p(c i Θ) = π i, Σ π i = 1 Feladat: p(θ,c D) poszterior számítása Bayes-tétel: számláló számítható: Π i {1,2,,N} p(x i Θ,c)p(c Θ)p(Θ) nevező reménytelen: P(D) = Σ c dη dσ dπ Normalizációhoz minden hipotézisre integrálni kéne!
Legtöbb érdekes kérdés megfogalmazható várható érték számítással, csak jól kell megválasztani a kívánt átlagolandó mennyiséget, azaz f függvényt: Monte Carlo közelítő integrál: Gaussian mixture példa: ha annak a valószínűsége érdekel minket, hogy az i. és j. adat egy klaszterhez tartozik-e, akkor f := δkronecker(ci,cj)
Importance sampling Milyen q(x) eloszlást válasszunk? Legyen minimális a becslés varianciája! Házi feladat: Jensen-egyenlőtlenséget kihasználva Az a fontos régió, ahol p(x) és f(x) is nagy! Variációk: adaptív; normalizálatlan eloszlások kezelése,
Gibbs Korrelált minták: a következő minta függ az előzőtől. Mindig csak egy változót mintavételezünk, a többit fixen tartjuk. Az egyváltozós poszterior normalizációja 1D-integrálást igényel: tehát az n-dimenziós integrált lecseréljü n darab 1-dimenziósra.
Megjegyzés: a kondicionálisok 1-dimenziósak, ezért általában effektív a Gibbs mintavételezés a rejection sampling segítségével! Grafikus modell: elegendő a Markov-takaróra kondicionálni! térben elosztott, de időben szekvenciális algoritmus (nem paralellizálható)! További hátrány: nagyon lassú tud lenni, mert egyszerre csak egy változó mentén lépünk, így erőss korrelációk esetén nehezen távolodunk el az aktuális állapottól.
MCMC: Metropolis-algoritmus elegendő P*(x) kiértékelése normalizáció nélkül függő minták: Q(xkövetkező xelőző) = Q(xelőző xkövetkező) például lehet a perturbáció Gauss: N(xkövetkező ; xelőző,σ 2 ) 1. új pont generálása xt+1 ~ Q(xt+1;xt) 2. elfogadási arány a = min(1,p*(xt+1)/p*(xt)) 3. egyébként xkövetkező = xelőző Állítás: xt aszimptotikus eloszlása P(x) lesz!
Metropolis-Hastings Általánosítás: Q nem kell szimmetrikus legyen elfogadási arány: a = min(1,p*(x t+1 )Q(x t ;x t+1 )/P*(x t )Q(x t+1 ;x t ))! Megjegyzés: Gibbs egy speciális fajtája Q(x ;x) = p(x i x -i )δ Kronecker (x -i,x -i ) Megmutatható, hogy az elfogadási ráta 100% (házi feladat)! Gibbs-ben nincsen szabad paraméter, míg általánosságban az MCMCben Q-nak vannak szabad paraméterei, amiket tuningolni szükséges.
Emlékeztető: Markov lánc részletes egyesúlya Ha az állapottérben való véletlen bolyongás átmeneti p(s s ) valószínűsége valamely π(s) valószínűségi mértékre eleget tesz az alábbi egyenletnek minden s és s állapotra: π(s) p(s s ) = π(s ) p(s s) Állítás: ekkor π(s) stacionárius, azaz π(s) = Σs π(s ) p(s s) Bizonyítás: Σs [π(s) p(s s )] = Σs [π(s ) p(s s)] Σs [π(s) p(s s )] = π(s) Σs [p(s s )] = π(s)
Megjegyzések: Véletlen bolyongás nagyon lassúvá teszi független mintához szükséges lépésszám (L max / ) 2 Ha Q szűk eloszlás, akkor kicsit lépünk ( ), ha nagy, akkor viszont könnyen elutasítunk (főleg sok dimenzióban) optimum eloszlás legkisebb karakterisztikus távolsága Nem tudjuk, hogy mikor áll be az aszimptotikus egyensúly! Mindegyikre van megoldás: Hamiltonian sampling (diffúzió csökkentése) slice sampling (inszenzitív a lépés nagyságára) exact sampling (hol álljunk meg?)!
HMC P(x) érdekel minket, írjuk fel P(x) = exp(-e pot (x)/t)/z alakban, T := 1. Vezessünk be új független konjugált p változókat, közös eloszlás függvény: P(x,p) = exp(-h(x,p))/z, ahol H(x,p) = E pot (x) + E kin (p), ahol E kin (p) := p 2 /(2m) kvadratikus Gauss Lépések:! 1. új p momentum választása x-től függetlenül P(p) normál eloszlásból 2. (x,p)-ből Hamilton dinamika szerinti fejlesztés (dx/dt=p, dp/dt = - E pot / x) (lehet térfogattartó közelítő módszer, paraméterek lépésköz és lépésszám) 3. elfogadási arány: min(1,exp(-h(x,p )+H(x,p))) S z e m l é l e t e s e n : p t e r m o d i n a m i k a i h ő f ü rd ő m i n t á j á r a s e g í t a sztochaszticitásban, míg a Hamilton-dinamika segít grádiens mentén mozogni. Megjegyzések: P(x) nem kell normalizálva legyen, viszont a nem zérus helyeken egyszer deriválható kell legyen!
Érdekeség: MCMC emberekkel, mint szimulátorokkal Legyen x a jelenlegi állapot és x* a lehetséges új állapot. Ha a p(x x*) = p(x* x), akkor lehet használni az ún. Baker-féle elfogadási függvényt, ahol π a céleloszlás. Sanborn2014
Feladat: két objektumot mutatnak (x1 és x2), és el kell dönteni, hogy a kettő közül melyik tartozik/származik egy c kategóriából. Bayesiánus: két hipotézis között kell dönteni, x1 származik p(x c) eloszlásból és x2 valamilyen alternatív g(x)-ből (h1), vagy fordítva (h2). Feltételezések: p(h1) = p(h2) és g(x1) g(x2), például g egyenletes Sanborn2014
Legyen x1 egy MCMC lehetséges új x* állapota x2 pedig az aktuális állapot. Ha az emberek probability matching szerint választanak a hipotézisek közül, akkor x* elfogadási valószínűsége az alábbi, ahol a céleloszlás p(x c). A probability matching-től eltérő stratégia paraméterezhető: Sanborn2014
Óceáni halak egyenletes, tenyésztett halak Gauss eloszlással. Betanítás azonos arányban egyesével mutatott képekkel és visszajelzéssel. MCMC kísérletben két halat mutatnak, és a tenyészett a kérdés, de valójában az MCMC aktuális és lehetséges következő állapotát mutatják, mely utóbbit az aktuális állapot körüli Gauss eloszlásból választanak. Megcsinálták ugyanezt tanítás nélkül már létező kategóriákkal
Összefoglalás: mintavételezés előnyei Algoritmikusan:! gépi tanulásban a legsikeresebb módszer általános módszer finomítható és konzisztens Kevés számú minta:! gyorsabb döntés (idő) könnyebb a döntés a lehetőségek közül (Rakow2008: rövidtávú memóri kapacitás korrelál a használt minták számával) tapasztalat és elmélet szerint is elegendő (nagy dimenzióredukció esetén kevés is elég) ökológiai környezetben flexibilisebb stratégia Neurálisan implementálható: ezzel foglalkozunk még később