Itellges adatelemzés ea. vázlat. rész A tematka.ea. a tárgy tematkájáak áttektése. Egy mtaélda M-S adatok elemzése (A)..ea. HF-ok jellegéek megbeszélése, a HF témák választásához szemotok 3.ea. Statsztka róbák 4.ea. Statsztka róbák (folyt) 5. ea. Statsztka róbák (folyt) 6.ea. Leárs regresszós eljárások 7.ea. Bayes leárs regresszós módszerek 8.ea. Osztályozás 9.ea. Leárs osztályozás eljárások 0.ea. Leárs osztályozás eljárások folytatás.ea. Kerel módszerek.ea. Kerel módszerek (folyt), SVM. A tárgy tematkájáak kalakításáál feltételeztük, hogy a klasszkus adatelemző módszereket és a tauló redszerek alajat mdek smer. (Háttérayagkét szolgálhat l. az Altrchter : Neuráls hálózatok c. köyv). Statsztka róbák A statsztka róbák célja hogy egy vagy több statsztka sokaság, mtakészlet eloszlásával kacsolatba hotézseket állítso fel és eze hotézseket elleőrzze. A hotézsek általába voatkozhatak a sokaság eloszlására, smert eloszlás feltételezésével az eloszlás smeretle araméterere, két vagy több sokaság eloszlásak hasolóságára (az eloszlások aramétereek egyezésére vagy külöbözőségére), két vagy több mtakészlet függetleségére, stb. A tárgy keretébe csak az alafogalmakat és éháy egyszerű statsztka róbát tárgyaluk. Ezek és tovább eljárások a bőséges rodalomba megtalálhatók: l. [], [], [3]. A statsztka róbák gyakorlat alkalmazását jól segítk a külöböző statsztka rogramcsomagok. Ezek közül éháy fotosabb: SSS [4], Statstca [5], [6], WEKA [7], MALAB [8], RadMer [9], KNIME [0] és újabba az ge tezíve fejlődő R []. A statsztka róbák sorá a mtakészletből ú. róbastatsztkát csáluk, melyek alajá eldöthető, hogy a fet tíusú kérdésekre mlye válasz adható. A róbastatsztka eloszlása smert megfelelő feltevések teljesülése eseté így az eloszlás alajá meg lehet határoz, hogy a feltevés (hotézs) mlye valószíűséggel fogadható el, vagy el kell-e vetük. A statsztka róbák sorá az eljárás: - felállítuk egy ullhotézst és azt elleőrzzük, hogy ez a hotézs megfelelő megbízhatósággal teljesül-e. - ehhez smerük kell vagy meg kell határozuk a róbastatsztka eloszlását (sűrűségfüggvéyét) és eek alajá meghatározható, hogy m aak a valószíűsége, hogy a róbastatsztka alátámasztja a hotézsüket. A sűrűségfüggvéy alajá megadható az ú. elfogadás tartomáy.
- az elfogadás tartomáyba esés valószíűsége -, tehát aak valószíűsége, hogy H 0 hotézst elfogadjuk -. A róbát jellemz értéke, mely általába kcs. kus értékek: =0,05; 0,0; 0,00. Statsztka hotézsek: araméteres (smert az eloszlás) emaraméteres (az eloszlás em smert) ovább csoortosítása a statsztka róbákak: lleszkedésvzsgálat tt a kérdés, hogy a mtakészlet eloszlása a H 0 hotézsek megfelelő-e araméteres lleszkedésvzsgálatok: u, t, F róbák emaraméteres lleszkedésvzsgálat χ teszt függetleségvzsgálat tt két vagy több mtakészlet függetleségét vzsgáljuk. A legfotosabb róba a χ teszt homogetásvzsgálat tt két vagy több mtakészlet eloszlásáak azoosságát elleőrzzük. Fotosabb homogetásróbák:wlcoo-róba, Kolmogorov-Szmrov-róba, A hotézstesztekél fotos fogalmak még az elsőfajú és másodfajú hbák, melyek a róba alajá hozott hbás dötések lehetőséget veszk számba. Egy hotézstesztelésél a dötések az alábbak lehetek: elfogadjuk Ha a H 0 hotézst H 0 feáll helyes dötés elsőfajú hba H 0 em áll fe másodfajú hba helyes dötés elutasítjuk. araméteres lleszkedésvzsgálatok Feltevés: smert a mtakészlet eloszlása, de az eloszlás aramétere() em smert(ek)... Az u-róba Az egymtás u-róba: ormáls eloszlású függetle mták vaak, ahol smert a szórás 0>0, de em smert a várható érték, µ. A H 0 hotézs: µ=µ 0, vagys a mtakészletük eloszlása H 0: N 0, 0 A róbastatsztka az -elemű mtakészlet átlaga. Ekkor Stadardzálás utá u(,,..., ) 0 N 0, 0 =N 0 0,
A teszt elvégzéséhez két küszöbértéket kell meghatároz, de a szmmetra matt elegedő egy s u. Így a stadard ormáls eloszlás eloszlásfüggvéye alajá: ( u ) u akkor szgfkaca- Az elfogadás tartomáy határa: K ()= u ; K ()=u ; vagys ha szte elfogadjuk a H 0 hotézst. u A kétmtás u-róba: adott két függetle Gauss mtakészlet,,..., és y, y,..., ym ahol smert >0 és >0, de a két várhatóérték µ és µ smeretle. A H 0 hotézs szert µ = µ A róbastatsztka a két mtaátlag külöbsége. Ha a mták Gauss eloszlásúak, akkor az átlaguk s az és az átlagok külöbsége s az. A róbastatsztka stadardzálás utá: tehát, ha y m m N 0, ym m akkor - szgfkacaszte elfogadjuk a H 0 hotézst, vagys, hogy a két várhatóérték megegyezk... A t-róba Egymtás t-róba A t-róba ayba tér el az u-róbáktól, hogy tt a szórást sem smerjük. Egyébkét most s Gauss eloszlású valószíűség változó értékeből áll a mtakészlet. Adott,,, Gauss eloszlású mtakészlet smeretle >0 szórással és µ várható értékkel. u A H 0 hotézs: µ=µ 0, vagys a mtakészletük eloszlása H 0: N 0, A róbastsztka-jelölt a stadardzált átlag lehete: u(,,..., ) 0 N 0, de a szórás smeretéek háyába mégsem lehet. Helyette a stadardzálásál a szórás becslését haszáljuk, ahol a szórás becslésére a korrgált taasztalat szórást alkalmazzuk: s 0. Így a róbastatsztka (,,..., ) t s A szórás becslése matt ez a róbastatsztka már em Gauss, haem (-) szabadságfokú Studet eloszlású valószíűség változó. Az elfogadás tartomáy határat eek az eloszlásak a táblázata alajá határozhatjuk meg. A szgfkaca-szthez tartozó t küszöbérték alajá. Ha t <t, vagys, ha ( t <t )=- akkor szgfkaca-szte fogadjuk el a H 0 hotézst, egyébkét vessük el. Kétmtás t-róba
Va két árosított mtakészletük:,,..., és y, y,..., y >0 és >0 smeretleek és µ és µ s smeretle. A H 0 hotézs szert µ = µ róbastatsztka lehete megt a z = -y átlagáak stadardzált változata: z N ; ; z N 0; és stadardzálás utá z N 0; árosítva:, y, y, y Mvel a szórásokat most sem smerjük helyettük az emrkus szórásokkal lehet stadardzál: Ekkor a F-róba ANOVA. Regresszós eljárások Regresszós feladat: mtakészlet egyes csoortja { } és {d } (=,,,) között kacsolat y =y( )=f( ) függvéykacsolat meghatározása vagy közelítése, ahol általába a d értékek az y értékek zajos megfgyelése: d d( ) y( )+. A regresszós feladat rosszul defált feladat. A véges számú mtaotra végtele külöböző függvéy lleszthető. Valamlye ráyú elfogultságra (bas) va szükség, hogy a lehetőségek közül bzoyos tíusú megoldásokat referáljuk. Modell választás (struktúra, based modell), modell araméterek meghatározása, modell- hagolás valamlye krtérum, hbafüggvéy alajá. Hbafüggvéy (veszteségfüggvéy, loss fucto), eredő hba, kockázat, rsk. A veszteségek a teljes mtakészletre vett várható értéke: meghatározásához szükség lee a mtaotok sűrűség- v. eloszlásfüggvéyére.. Leárs regresszó Feltételezzük, hogy -k és y -k között leárs a kacsolat: y() w b. Általáosított leárs kacsolat eseté előbb egy emleárs lekéezés ( ), majd a leárs kacsolat y( ) w ( ) b jö. A feladat a w aramétervektor meghatározása (becslése). Megoldás lehetőségek: least squares (LS) becslés: csak a mtaotok állak redelkezésre, a veszteségfüggvéy a égyzetes hba
az egyes megfgyelések hbá eltérő súlyozással s fgyelembe vehetők: súlyozott LS becslés a megfgyelés zaj valószíűség jellemzése smert: lkelhood függvéy felírható: mamum lkelhood (ML) becslés a keresett aramétervektor s valószíűség változó, melyek ror eloszlása (sűrűségfüggvéye) smert: Bayes becslés. LS-becslés: Négyzetes hba alkalmazásakor az LS megoldás a C( w) ε ( w) ε( w) ( d Xw) ( d Xw ) hbafüggvéy mmumát bztosítja, ahol X a bemeet vektorokból, mt sorvektorokból kéezett bemeet mátr és d a d megfgyelésekből kéezett oszlovektor (=,, ). A cél a meghatározása. Elvégezve a szélsőérték-keresést, a - megoldás ( w X X) X d. LS wls Regularzált LS becslés: A hbafüggvéy a regularzácós taggal bővül (járulékos feltétel belefogal- mazása): C( w) ε ( w) ε( w)+ w w, ahol λ a regularzácós együttható, vagy a umerkus stabltás elkerülése érdekébe. A megoldás: w ( X XI) X - d LS Súlyozott LS becslés: a C( w) ε ( w) ε( w) ( d Xw) Q( d Xw ) hbafüggvéy mmumát - bztosítja, ahol Q a súlyozó mátr. A megoldás: ( w X QX) X Qd. Az általáosított megoldásál X helyére mdehol Φ kerül. QLS Regularzált súlyozott LS becslés: - wqls ( X QX I) X Qd Mamum lkelhood becslés: A megfgyelés zajról feltesszük: N 0, A zajos megfgyelés ( ) ( )+ w d d y. szté Gauss eloszlású: N y( w, ), elemű megfgyeléskészlet eseté, a megfgyelések feltételes sűrűségfüggvéye, ha a mták függetleek: d X, w, y(, w), = N, amt lkelhood függvéyek s evezek. Szokásos jelölés még, ezzel a lkelhood függvéy d X, w, = ( w, ) N (, w ), d y A mamum lkelhood becslés a lkelhood függvéy mamumához tartozó araméter. A lkelhood függvéy helyett aak logartmusára végezzük el a szélsőérték-kerésést: A log-lkelhood függvéy:
L l d, w, = l e d ( w l( ) l l( ) l d w ( d w ( A szélsőérték-keresés Gauss megfgyelés zaj eseté az LS becslés eredméyével azoos eredméyre vezet. w ML ( ) - Φ Φ Φ d Az ML becslésél a megfgyelés zaj szórására s adható becslés d ( ML ML w. ML Mamum lkelhood becslés korrelált zajmták mellett: Ha a zajmták korreláltak, akkor kcst módosul az ML becslés. A feltételek: E{}=0, cov[]=σ és a megfgyelések most s d Φw A megfgyelés Gauss zaj sűrűségfüggvéye: = e / Σ Σ / A megfgyelések feltételes sűrűségfüggvéye, a lkelhood függvéy: d Φ, w, Σ = e / d Φw Σ d Φw Σ / A log-lkelhood függvéy és eek alajá az ML becslő: L= l d Φ, w, Σ =... w ( Φ Σ Φ) Φ Σ d - ML amt szokás Gauss-Markov (GM) becslőek s hív. Láthatóa a GM becslő súlyozott LS becslő, ha a súlymátr a zaj kovaracamátráak verze. Az ML és GM becslők (mvel a zaj valószíűség változó) maguk s valószíűség változók, meghatározható a várható értékük és a varacájuk (kovaraca mátruk). - GM E E w ( Φ Φ) Φ d w0 ha d Φw0 és var w ML Φ Φ és var w GM Φ Σ Φ
Bayes leárs regresszó 3. Osztályozás leárs modellek alajá. A feladat mtaotok két osztályba sorolása azzal a megkötéssel, hogy az elválasztó felület leárs. A feladat általáosabb megfogalmazásakor az elválasztó felületet em a bemeet térbe, haem a jellemzőtérbe értelmezzük, így a leárs elválasztófelület a ( ) térbe értedő. Az osztályozó modell eek megfelelőe az y() w b lletve az M y( ) w ( ) w ( ) lekéezéssel írható le. Ez utóbb esetbe a bas értéket w 0-két értelmezzük, úgy hogy ( ) (M+)-dmezós, és ( ). Az osztályozó kostrukcója most s az 0, d taítóot-készlet alajá törték. A leárs osztályozók között a következő megközelítéseket kell megemlíte. A ercetro, mely a ercetro tauló eljárással leársa szearálható mták egy lehetséges elválasztó felületéek véges taító léésbe való megtalálását bztosítja. Részletese ld. az NNköv 3. fejezetébe. Legksebb égyzetes hbájú megoldás. Ez olya leárs osztályozót jelet, melyél az osztályozó téyleges válasza és a kívát válaszok között égyzetes eltérés összegéek mmumát bztosító megoldást keressük. Négyzetes hba alkalmazásakor az LS megoldás a C( w) ε ( w) ε( w) ( d Xw) ( d Xw ) hbafüggvéy mmumát bztosítja. A cél tehát a meghatározása. Elvégezve a szélsőértékkeresést, a megoldás wls 0 - w ( X X) X d. Ez a megoldás formalag megegyezk a leárs LS regresszós robléma megoldásával azzal a külöbséggel, hogy most d d, d,..., d olya megfgyelésvektor, melyek eleme 0 vagy értéket vehetek fel 0, d. A égyzetes hbafüggvéy alkalmazása a klógó adatok hatását felagyítja, ezért az LS osztályozó a klógó adatokra (outlers) agyo érzékey. Fsher dszkrmás A Fsher dszkrmás a többdmezós adatok olya egydmezós vetületét keres, mely vetület meté a szearálás a lehető legköyebbe megtehető. A vetület y() w, a vetítés edg a megfelelő w ráyba törték. Ha a két osztályba tartozó mtaotok átlaga m lletve m, akkor a legjobb szearálást úgy bztosítjuk, ha a mtaotok osztályok között és osztályo belül átlagos égyzetes eltéréseek aráya a lehető legagyobb.
Jelölje ezt a meységet J w jellemz (betwee classes), míg w S b w w w S w, melybe classes). A szélsőérték-keresés eredméye S b a két osztály között égyzetes eltérést Sw a mtaotok osztályo belül szóródására jellemző (wth w Sw m m. Valószíűség értelmezés Az osztályozás valószíűség értelmezése (Bayes megközelítés) sorá a kdulás feltételez az egyes osztályok előfordulását jellemző a ror valószíűségek smeretét. Egy kétosztályos osztályozás roblémáál a két osztály legye C és C. Az a ror valószíűségek eek megfelelőe C és C C. A megfgyelések felhaszálását követőe az egyes osztályok a osteror valószíűsége a Bayestétel segítségével felírhatók: C C C C C C C l C C a e( a) C C, ahol. A osteror tehát az a kfejezés logsztkus szgmod függvéye. Az osztályozás feladat megoldása ebbe a megközelítésbe a feltételes sűrűségfüggvéyek smeretét géyl. Feltételezve, hogy és C C azoos Σ kovaraca-mátrú és μ, lletve μ várható értékű Gauss eloszlás, a sűrűségfüggvéy alakja a következő (feltételezve, hogy a bemeet N-dmezós): C = e =, N / / μ Σ μ Σ ezzel felírva a -t, am az együttes valószíűségek háyadosáak logartmusa C a l C l C l C C μ Σ μ μ Σ μ l C elvégezve a műveleteket látható, hogy az -be másodfokú tag a közös Σ matt kesk, így - be leárs összefüggést kauk. aw w 0, ahol w Σ μ μ és w 0 μ Σ μ μ Σ μ l A megoldás tehát a Gauss sűrűségfüggvéyek aramétere μ μ és Σ, valamt a rorok és C C becslése útjá yerhető. Ez a közvetett vagy drekt módszer. Ezek meghatározása ML eljárással lehetséges, ha felírjuk a lkelhood függvéyt. A megfgyelések feltételes sűrűségfüggvéye, ha a feltétel a araméterek értéke ( megfgyelés alajá): d d Xd, C, μ, μ, Σ = C N μ, Σ C N μ, Σ C C
A lkelhood függvéy egatív logartmusát kéezve a szélsőérték-kereső roblémát külö -re és a Gauss eloszlás araméterere. Ebből az ML-becslés: fogalmazhatjuk meg C C d, μ d hasolóa, μ d, míg a kovaracamátr az egyes osztályokra voatkozó taasztalat kovaracamátrokat eredméyező S és S ML-becslés alajá: S μ μ C és S μ μ C, továbbá S S S Σ Ez a megközelítés tehát a leárs kacsolat aw w0 araméteret közvetve a Gauss sűrűségfüggvéy és a rorok mtaotokból való becslése útjá határozza meg. Logsztkus regresszó Lehetséges a leárs kacsolat aramétervektorát közvetleül s meghatároz az adatokból. A közvetle vagy drekt módszer a következő léésekből áll. A drekt módszer, melyél egy súlyozott leárs kacsolatra ható szgmod függvéy utá kauk eredméyt. Ezt az eljárást logsztkus regresszóak s szokták evez, aak elleére, hogy em regresszóról, haem osztályozásról va szó. Itt s a C C C C C C C e( a) -ből duluk k. Ez tehát aak valószíűsége, hogy adott bemeet a C osztályba tartozk. Mvel ez a súlyvektor emleárs függvéye, tt lesz egy ks ehézség. Aaltkus eredméyt em kauk, haem teratív megoldásuk lesz csak. Írjuk fel a lkelhood függvéyt: d X d w, = y y d ahol a w -től való függés y -o keresztül valósul meg. Vegyük eek s a egatív logartmusát, amt hbafüggvéyek tekthetük:
w l X, d w= d l y d l y L Eek a lkelhood függvéyek a derválása útjá kajuk a súlyvektor ML becslését a közvetle úto. A ehézség, hogy most emleárs a kacsolat. Ezért a részletek khagyásával. L L y a w y a w w y d X y d. Megjegyezzük, hogy ez a kfejezés em tartalmazza a szgmod derváltját, mert a lkelhood függvéy valójába egy kereszt etróa krtérumfüggvéyek felel meg, és a derválásál a szgmod dervált kesk és csak a hba marad meg. IRLS: Most egy olya teratív eljárás következk, mely segítségével a szélsőérték hatékoy megtalálása lehetséges. Ez az Iteratív Újrasúlyozott Legksebb Négyzetes hbájú (Iteratve Reweghted Least Squares, IRLS) eljárás. A grades alaú teratív eljárás a következő új rég w w H w, ahol H a Hesse mátr, a hbafelület másodk derváltjaból kéezett mátr (a másodfokú felület feltételezésével ez a leghatékoyabb grades alaú eljárás). A Hesse mátr égyzetes hbafelületél Ezzel elvégezve az teratív eljárást: H w X X új rég rég rég rég w w X X w w X X X Xw d w X X X Xw X d, am égyzetes hbafelületél trválsa egy léésbe kadja az LS megoldást. A emleárs kacsolat matt tt em lesz égyzetes a hbafelület, ezért egylééses megoldás sem lesz. A Hesse mátr a szgmod függvéy matt: H w X RX, ahol R y ( y ), a szgmod dervált. Az teratív eljárás eek megfelelőe új rég rég rég w w X RX w w X RX X Xw d ahol rég w X RX X Rz rég z Xw R y d. Ez jól láthatóa egy súlyozott LS becslés, ahol a súlymátr R. Szembe azoba a klasszkus súlyozott LS becsléssel, tt em f az R súlymátr, haem függ w -től, tehát mde újabb w értékél újra meg kell határoz. A súlymátr tehát mde terácós léésbe frssítedő. Az összes eredméy értelemszerűe alkalmazható a jellemzőtérbe s. Ebbe az esetbe mde helyére ( ), X helyére edg Φ kerül, egyébkét mde változatlaul érvéyes.
Logsztkus regresszó Bayes megközelítésbe A logsztkus regresszó Bayes megközelítésbe s tárgyalható. Ebbe az esetbe a osteror meghatározására s szükség va, mely aaltkusa em lehetséges. Ezért csak közelítő módszerek alkalmazásával lehet eredméyre jut. A közelítés léyege, hogy a em Gauss sűrűségfüggvéyt Gauss-szal közelítjük a Lalace aromácót alkalmazva. Irodalom [] rékoa A.: Valószíűségelmélet, Műszak Köyvkadó, 980. [] Vcze I. Matematka statsztka ar alkalmazásokkal, Műszak Köyvkadó, 980. [3] Kecskeméthy- SSS