Inferencia valószínűségi modellekben

Hasonló dokumentumok
KÖZELÍTŐ INFERENCIA II.

KÖZELÍTŐ INFERENCIA II.

Least Squares becslés

Kauzális modellek. Randall Munroe

Probabilisztikus modellek II: Inferencia. Nagy Dávid

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Látórendszer modellezése

Probabilisztikus modellek. Nagy Dávid

Modellkiválasztás és struktúrák tanulása

A maximum likelihood becslésről

Mesterséges Intelligencia I.

Normális eloszlás tesztje

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

Probabilisztikus modellek. Nagy Dávid

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Likelihood, deviancia, Akaike-féle információs kritérium

6. Előadás. Vereb György, DE OEC BSI, október 12.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Lineáris regressziós modellek 1

Diszkréten mintavételezett függvények

Funkcionális konnektivitás vizsgálata fmri adatok alapján

Probabilisztikus modellek. Nagy Dávid

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Principal Component Analysis

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Regressziós vizsgálatok

Inferencia. ADOTTAK:! generatív modell: például: DAG + prior(ok) + likelihood(ok) P(X 1,X 2,,X n ) megfigyelések: D = {X i = x i, X j = x j, }

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Szepesvári Csaba ápr. 11

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Line aris f uggv enyilleszt es m arcius 19.

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Matematikai geodéziai számítások 6.

Abszolút folytonos valószín ségi változó (4. el adás)

Mesterséges Intelligencia MI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Adatelemzési eljárások az idegrendszer kutatásban Somogyvári Zoltán

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatbányászati szemelvények MapReduce környezetben

egyetemi jegyzet Meskó Balázs

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Adatmodellez es, f uggv enyilleszt es m arcius 12.

Ipari matematika 2. gyakorlófeladatok

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Matematikai geodéziai számítások 6.

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Valószínűségi modellek

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Gépi tanulás a gyakorlatban. Lineáris regresszió

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Többváltozós lineáris regressziós modell feltételeinek

Matematikai statisztika szorgalmi feladatok

Nem-lineáris programozási feladatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Kísérlettervezés alapfogalmak

Probabilisztikus modellek. Nagy Dávid

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Konjugált gradiens módszer

Bayesi tanulás. Kooperáció és gépi tanulás laboratórium (VIMIMB02) március 12. Elméleti alapok. Bayesi lineáris regresszió

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

IBNR számítási módszerek áttekintése

Loss Distribution Approach

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Közösség detektálás gráfokban

Több valószínűségi változó együttes eloszlása, korreláció

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Statisztika elméleti összefoglaló

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Mérési hibák

Mérési struktúrák

A Föld középpontja felé szabadon eső test sebessége növekszik, azaz, a

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Kísérlettervezés alapfogalmak

Probabilisztikus modellek V: Struktúra tanulás. Nagy Dávid

Biológiai rendszerek modellellenőrzése bayesi megközelítésben

Valószín ségi döntéstámogató rendszerek

Való szí nű sé gi va ltózó, sű rű sé gfű ggvé ny, élószla sfű ggvé ny

Az idegrendszeri memória modelljei

n n (n n ), lim ln(2 + 3e x ) x 3 + 2x 2e x e x + 1, sin x 1 cos x, lim e x2 1 + x 2 lim sin x 1 )

Gazdasági matematika II. vizsgadolgozat megoldása, június 10

A szimplex algoritmus

Statisztikai módszerek a skálafüggetlen hálózatok

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

A KLT (Kanade Lucas Tomasi) Feature Tracker Működése (jellegzetes pontok választása és követése)

Nemlineáris programozás 2.

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Hidden Markov Model. March 12, 2013

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Monte Carlo módszerek a statisztikus fizikában. Az Ising modell. 8. előadás

Átírás:

Statisztikai tanulás az idegrendszerben, 2016. Inferencia valószínűségi modellekben Bányai Mihály banyai.mihaly@wigner.mta.hu http://golab.wigner.mta.hu/people/mihaly-banyai/

Inferencia valószínűségi modellekben Közelítő inferencia Algoritmusok pontbecslésekhez Inferencia az agyban

Inferencia valószínűségi modellekben Közelítő inferencia Algoritmusok pontbecslésekhez Inferencia az agyban

Generatív modellek Mi a valószínűségi modell? Neh Intell Miért érdekes számunkra a valószínűségszámítás? ZH Felv. ZH

Mit jelentenek a nyilak? Generatív irányban a függetlenség a kauzalitás intuíciója

Megfigyelt és rejtett változók bizonyos változókról rendelkezünk adatokkal jelölés: sötét kör a többi csak a jelenség struktúrájáról alkotott feltételezéseinket reprezentálja látens, rejtett változók: üres kör P (o h) h1 o h2 Mire lehetünk kíváncsiak poszterior eloszlás a látensek fölött marginális poszteriorok a prediktív eloszlás: a megfigyelt változók marginális eloszlása P (h o) = P (o h)p (h) P (o)

Bayes-i inferencia A generatív valószínűségi modell egy hipotézis (vagy hipotéziscsalád) formalizációja Ha hiszünk a Cox- és/vagy dutch book jellegű érvelésben, akkor a nem közvetlenül megfigyelt mennyiségekről rendelkezésünkre álló információ konzisztens karakterizációja a poszterior eloszlás a hipotézistesztelés más formái heurisztikák, vagy speciális feltételezéshalmazok beépítései a (sokszor implicit) generatív modellekbe

Az inferencia nehézségei Zárt alakban nem megadható eloszlások integrálok, marginalizáció szorzatalakok Bayes tétel sokmegfigyelésen történő alkalmazásából

Inferencia valószínűségi modellekben Közelítő inferencia Algoritmusok pontbecslésekhez Inferencia az agyban

Poszterior közelítő becslése Sztochasztikus mintákat veszünk belőle véletlenszámgenerátorra van szükség a minták számától függ a pontosság Determinisztikus egyszerűbben kezelhető eloszlásokkal közelítjük nem használunk véletlenszámokat a közelítő eloszlás formájától függ a pontosság

Sztochasztikus becslés A poszterior eloszlást az abból vett mintákkal ábrázoljuk Aszimptotikusan egzakt Könnyen implementálható Számításigényes lehet A következő órán bővebben

Determinisztikus közelítés - variációs módszerek A kérdés, hogy mennyi információt dobunk el a poszteriorból? Gyakran a függőségek teszik nehézzé az inferenciát -> faktorizált közelítés: p(h1,h2 o) p(h1 o) p(h2 o) Jól kezelhető parametrikus eloszlásokkal is közelíthetünk bonyolultabbakkal, pl többkomponensű keverékeloszlások egyszerábbekkel, pl Gauss (Laplace-közelítés) Egyetlen jellemző értéken kívül mindent eldobunk -> delta eloszlással közelítünk -> pontbecslés

Probabilisztikus programozási nyelvek Deklaratív nyelvek (mint pl. a PROLOG) A generatív modellt és a megfigyeléseket kell specifikálni Látens változók poszterior eloszlására vonatkozó inferencia nyelvi elemként használható Ismertebb példák: BUGS, Church, Stan

Paraméterek mint valószínűségi változók a valószínűségi modelben specifikálnom kell a változók prior és kondicionális eloszlásait ezek gyakran parametrikus eloszláscsaládok példányai lesznek, pl. Gauss, Poisson, stb μh Ch ezek paraméterei szintén látens változók, amennyiben nem fixálom az értéküket teljesen μq a változó prior eloszlásának ismét lesznek paraméterei -> hierarchikus modell n q Cq valahol meg kell állnom vagy olyan priort választok, amiben nincs paraméter, illetve ami mégis, azt nem illesztem az adatra, hanem a világ konstans tulajdonságának tételezem fel az általam választott értékét x

Pontbecslések Az inferencia általában a poszterior keresése ha nem kell a teljes poszterior, csak egy pontbecslés, akkor szélsőértékkeresséssé redukálhatom ha nincs prior: maximum likelihood Hogyan változik pontbecslésnél a prediktív eloszlás bizonytalansága? p(µ q,c q X) p(x µ q,c q )p(µ q,c q ) μq n q Cq p(μq X) konstans x argmax p(μq X) μq μq

Maximum likelihood tanulás Általában több mérésünk van a megfigyelt változókról, amiket függetlennek tekintünk NY A likelihood faktorizálódik p(x ) = p(x n ) n=1 A log-likelihood maximumát keressük NX numerikusan stabilabb ln p(x ) = ln p(x n ) n=1 exponenciális formájú eloszlásoknál egyszerűbb Ki kell integrálni a látens változókat (várható érték) p(x ) = Z 1 1 p(x Z, )p(z )dz

Mikor hasznosak a pontbecslések? Ha jellemző a becsült pont értéke a poszterior alakjára unimodális szimmetriája a pontbecslés természetével egyező

Példa - lineáris regresszió x a Nincs rejtett változó a paramétereken kívül b y N σ Gauss maximum likelihood = négyzetes hiba polinomokra változtatás nélkül kiterjeszthető p(y x, a, b, )=N(y; ax + b, ) NX ln p(y X, a, b, ) [(ax n + b) y n ] 2 n=1

Példa - PCA p(x y) =N (x; Ay, I) y p(y) =N (y;0,i) a PCA egy bázistranszformáció, ahol a legnagyobb szórás irányába szeretnénk beforgatni a tengelyeket Α x N σ maximum likelhood megoldás az A keverőmátrix elemeire fix szórás mellett ekvivalens a megfigyelések kovarianciamátrixának sajátvektorkeresési problémájával

Amikor a pontbecslés is nehéz Általában itt is igaz, hogy vannak olyan láttens változók amelyek felett marginalizálni akarunk, aminek lehet, hogy nincs zárt alakja vagy az argmax nem fejezhető ki zárt alakban

Keverékmodellek p(z) =Mult(z; ) p(x z) =N (x; µ z, z )

Inferencia valószínűségi modellekben Közelítő inferencia Algoritmusok pontbecslésekhez Inferencia az agyban

Algoritmikus becslés ha a pontbecslés nem adható meg egzaktul, megfogalmazhatjuk optimalizációs problémaként, amelyben a hibafüggvény pl. a negatív log-likelihood a becslőalgoritmusok nem (csak) a valószínűségszámítás szabályait használják sokszor nagyon hatékonyak az iteratív algoritmusok, akár zárt formájú megoldásoknál is gyorsabbak lehetnek nagy dimenziójú modellekre viszont sokszor nem tudjuk levezetni, hogy mennyire pontosan találják meg a globális maximumot

Gradiens-módszer használjuk ki azt az információt, hogy adott pontban merre emelkedik a célfüggvény (vagy csökken a hibafüggvény), pl likelihood t+1 = t + " @ @ ln p(x t) lokális szélsőértéket talál a tanulási ratât megfelelően be kell állítani kiterjesztések második derivált, Hessian-based módszerek lendületet is definiálhatunk a paramétertérbeli mozgáshoz

K-means klaszterezés Klaszterközéppontokat keresünk Kiválasztjuk a klaszterek számát Véletlenszerűen inicializáljuk a középpontokat Hozzárendeljük a megfigyeléseket a legközelebbi klaszterközépponthoz Elmozgatjuk a klaszterközéppontokat úgy, hogy a négyzetes távolság a legkisebb legyen a hozzárendelt pontoktól Addig ismételjük, amíg átsorolás történik Mi az ekvivalens valószínűségi modell?

Expectation Maximization Általánosítsuk a k-means ötletét complete-data likelihood: mintha minden változó megfigyelt lenne p(x, Z ) Az algoritmus kétfajta lépést váltogat E: megbecsüljük a látens változók poszterior eloszlását a paramétereket fixen tartva p(z X, t ) M: megbecsüljük a paraméterek értékét az becsült poszterior alapján a CDL logarimusának vesszük a poszterior feletti várható értékét, és ezt maximalizáljuk a likelihood helyett t+1 = argmax Z 1 1 p(z X, t ) ln p(x, Z )dz

EM keverékmodellre E: mi a poszterior valószínűsége, hogy egy adott pontot egy adott komponens generált a jelenleg becsült paraméterekkel a komponensek pontokért viselt felelőssége M: a felelőségekkel súlyozott pontokra mi lenne a legjobb mean és kovariancia keverési együtthatók: a felelősségek összegének aránya a pontok számához

Általánosított EM Mi van, ha nem tudjuk zárt alakban megadni az M- lépésben keresett szélsőértéket? gradiens módszer Mi van, ha nem tudjuk zárt alakban megadni a CDLL poszterior szerinti várható értékét? mintavételezés a poszteriorból, az integrál közelítése véges számú minta feletti átlaggal

Honnan tudjuk, hogy az algoritmus eredménye hasznos? Konvergencia likelihoodban paraméterek értékeiben Az illesztett modell predikciói beválnak Honnan tudjuk, hogy jól választottuk meg az olyan hiperparamétereket, mint pl. a komponensek száma?

Inferencia valószínűségi modellekben Közelítő inferencia Algoritmusok pontbecslésekhez Inferencia az agyban

Hogyan tehetünk predikciókat az illesztett modellel? A jövőre a prediktív eloszlásból A látens változók értékeire a poszteriorból Ha agykérgi tanulórendszer modelljét alkotjuk, akkor el kell döntenünk, hogy a paraméterillesztési algoritmust biofizikai folyamatok predikciójára akarjuk használni vagy az algoritmust csak arra használjuk, hogy eljussunk egy optimális modellig, és csak azt feltételezzük, hogy az agy is megteszi ezt valahogy, de nem feltétlenül így

Iteratív becslés az agyban - viselkedési szinten

Iteratív becslés az agyban - fiziológiai szinten

ICA Olshausen-Field modell: természetes képek független komponensei pontbecslés, kombinálva a maximum likelihood és a sparsity kritériumokat y log-poszterior = kvadratikus log-likelihood + sparse prior Egyszerre optimalizáljuk az adatra illeszkedést és a látens aktivációk ritkaságát Α x N σ Grandiens-módszerrel lépkedünk az így konstruált hibafüggvényen p(x y) =N (x; Ay, I) N sparsity

Házi feladat Töltsd le a tárgyhonlapról az em_hf.txt file-t Az adatokra illessz 3-komponensű Gaussian Mixture modellt Eredményedet illusztráld