Bizonytalanságok melletti következtetés Mesterséges Intelligencia I. Valószínűségi alapfogalmak (ismétlés) A, B,C események esetén a priori valószínűség: feltételes (a posteiori) valószínűség: Bayes-formula 1 A és B függetlenek A és B függetlenek A és B feltételesen függetlenek A és B feltételesen függetlenek P A P A B = P A B P B P B A P A P A B = P B P A B =P A P B P A B =P A P A B C =P A C P B C P A B C =P A C Naiv Bayes módszer Adottak: A={A 1, A 2,..., A n } V ={C 1, C 2,...,C m } E { A 1 A 2 A n V } attribútumok halmaza osztály-címkék halmaza példahalmaz Kérdés, hogy egy X = x 1, x 2,..., x n tulajdonság-vektorral leírt objektum, ahol x i A i,1 i n, (valószínűleg) melyik C ' osztályba tartozik? Módszer: n C ' =argmax C {V } P V =C P A i =x i V =C i =1 A módszer feltételezi, hogy az egyes attribútum-párok feltételesen függetlenek, innen a naiv elnevezés. 1 Nem tévesztendő össze a Bayes-tétellel, ahol a P(B) valószínűséget a teljes valószínűség tétele adja meg
Példa A={A 1, A 2, A 3, A 4 } A 1 = {S,O,R }: időjárás (S: napos, O: felhős, R: esős) A 2 = {H,M,C }: hőmérséklet (H: magas, M: közepes, C: hűvös) A 3 = {H, N }: páratartalom (H: magas, N: normális) A 4 = {T, F }: szél (T: szél van, F: nincs szél) C = {Y, N }: érdemes-e a teniszpályára menni (Y: igen, N: nem) Kérdés: X = S,C, H,S mellett érdemes-e kimenni teniszezni? Adatbázis A 1 A 2 A 3 A 4 C 1 S H H F N 2 S H H T N 3 O H H F Y 4 R M H F Y 5 R C N F Y 6 R C N T Y 7 O C N T N 8 S M H F Y 9 S C N F N 10 R M N F Y 11 S M N T Y 12 O M H T Y 13 O H N F Y 14 R M H T N Számítások P Y = 9 14 P N = 5 14 P S Y = 2 9 P S N = 3 5 P C Y = 3 9 P C N = 1 5 P H Y = 3 9 P H N = 4 5 P T Y = 3 9 P T N = 3 5
Végül, P Y P S Y P C Y P H Y P T Y = 9 14 2 9 3 9 3 9 3 9 = 1 189 =0.005 P N P S N P C N P H N P T N = 5 14 3 5 1 5 4 5 3 5 = 18 875 =0.02 azaz C ' =N, hiszen ahhoz tartozik a nagyobb valószínűség, így nem érdemes kimenni teniszezni. m-estimate of probability Előfordulhatnak 0 értékek a feltételes valószínűségekben, amely torzítja az eredményt: P A i =x i Y =v =0 Ha tudjuk, hogy az előbbi értéknek közelítőleg mennyinek kellene lennie, akkor a következő becslés adódhat: P A i =x i Y =v { X, y E : A i=x i,y =v} p i,m m { X, y E : Y =v} m ahol p i, m a közelítő érték, m egy megfelelően nagy konstans. Ha nincs ilyen közelítő érték, akkor a becslés: P A i =x i Y =v { X, y E : A i =x i,y =v} 1 { X, y E : Y =v} {X i lehetséges értékeinek száma Y =v}
Valószínűségi háló a gráf csomópontjai (csúcsai) valószínűségi változók a csomópontokat irányított, élekkel kötjük össze feltételes valószínűségeket rendelünk a csúcsokhoz valószínűségi tábla ( szülők hatása ) körmentes a gráf Pearl példája riasztó beszerelése jelzi a földrengést is két szomszéd: Mária és János, akik telefonálnak, ha szól a riasztó de a riasztó nem tökéletes János nem mindig tudja a riasztót a telefontól megkülönböztetni Mária fülhallgatóval hallgat zenét A fennálló függőségeket feltételes valószínűségi táblával adjuk meg János és Mária nem érzékelik a földrengést és a betörőt, csak a riasztást (egymást sem!) így bizonyos kapcsolatok elhanyagolhatók, azaz csak a tényleges függőségben levők számítanak! Hálózat Betörés Földrengés Riasztás János telefonál Mária telefonál FVT Betörés Földrengés P(Riasztás Betörés, Földrengés) Igaz Igaz Igaz 0.95 Igaz Hamis 0.95 Hamis Igaz 0.29 Hamis Hamis 0.001
a táblákat minden csomóponthoz meg kell adni a szülő nélküli csomópontokra ez csak az a priori valószínűségeket jelenti P(Betörés)=P(B)=0.001 P(Földrengés)=P(F)=0.002 P(Riasztás)=P(R) (fenti táblázat) R P(János telefonál)=p(j) Igaz R P(Mária telefonál)=p(m) Igaz Igaz 0.9 Hamis 0.05 Igaz 0.7 Hamis 0.01 Kiszámítás módja Együttes valószínűségi eloszlásfüggvény P x 1, x 2,, x n = i=1 n P x i Szülők X i Konkrét példára: P J,M,R, B, F = P J R P M R P R B, F P B P F =0.9 0.7 0.001 0.999 0.998=0.000628 Nagyon kicsi a valószínűsége tehát annak, hogy János is és Mária is telefonált, volt is riasztás, de nem volt sem földrengés, sem betörés. Hálók építése befolyásoló tényezők, vagyis a változók meghatározása sorrend kijelölése amíg van érintetlen változó vegyünk egy ilyet, adjuk a csúcsokhoz határozzuk meg a szüleit adjuk meg a feltételes valószínűségek tábláját
Hálók tulajdonságai Mária telefonál János telefonál Riasztás Betörés Földrengés Más struktúra esetén más hatásmechanizmusok munkálnak determinisztikus csomópontok (nincs zaj) Példa: vagy USA, vagy Kanada, vagy Mexikó - Észak-Amerika nemdeterminisztikus csomópontok (zajos) Példa: megfázás, influenza, malária láz ahol csak egy igaz van, ott nincs zaj, ahol több igaz van, ott már van zaj Következtetés valószínűségi hálókban Milyen jellegű lekérdezések lehetnek? diagnosztikai következtetés hatásról okra következtetünk riasztásos példa esetében P (B J) azaz, ha adott, hogy János telefonált, akkor kiszámítható, hogy betörés volt-e okozati következtetés okról hatásra következtetünk riasztásos példa esetében P(J B ) okok közötti összefüggés kevert Következtetés többszörösen összekötött hálókban A hálók kezelésére alkalmas algoritmusok összevonó eljárás átalakítják a hálót egy gráffá a nem megfelelő csomópontokat összevonva
feltételezéses eljárás átalakításnál a változók értékét rögzítik, majd kiértékelik a gráfot minden lehetséges értékkombinációra. (szétbontjuk és csinálunk 2 hálót) szimulációs eljárás (sztohasztikus) tárgytartomány nagyon nagy számú, konkrét modelljét generálják le Felhős Felhős Locsolás Esik Locsolás + Esik Vizes pázsit Vizes pázsit Összevonó eljárás