Intelligens adatelemzés ea. vázlat 1. rész

Hasonló dokumentumok
Matematikai statisztika

Hipotéziselmélet. Statisztikai próbák I. Statisztikai próbák II. Informatikai Tudományok Doktori Iskola

? közgazdasági statisztika

Megállapítható változók elemzése Függetlenségvizsgálat, illeszkedésvizsgálat, homogenitásvizsgálat

A paramétereket kísérletileg meghatározott yi értékekre támaszkodva becsülik. Ha n darab kisérletet (megfigyelést, mérést) végeznek, n darab

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

? közgazdasági statisztika

Matematikai statisztika elıadás III. éves elemzı szakosoknak. Zempléni András 9. elıadásból (részlet)

Regresszió és korreláció

Ismérvek közötti kapcsolatok szorosságának vizsgálata. 1. Egy kis ismétlés: mérési skálák (Hunyadi-Vita: Statisztika I o)

Statisztika. Eloszlásjellemzők

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

Regresszió és korreláció

Változók függőségi viszonyainak vizsgálata

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Least Squares becslés

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

BIOMATEMATIKA ELŐADÁS

A heteroszkedaszticitásról egyszerûbben

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

A pályázat címe: Rugalmas-képlékeny tartószerkezetek topológiai optimalizálásának néhány különleges feladata

GEOFIZIKA / 4. GRAVITÁCIÓS ANOMÁLIÁK PREDIKCIÓJA, ANALITIKAI FOLYTATÁSOK MÓDSZERE, GRAVITÁCIÓS ANOMÁLIATEREK SZŰRÉSE

Tartalomjegyzék. 4.3 Alkalmazás: sorozatgyártású tűgörgő átmérőjének jellemzése

STATISZTIKA II. kötet

Azonos névleges értékű, hitelesített súlyokból alkotott csoportok együttes mérési bizonytalansága

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Statisztika 1. zárthelyi dolgozat március 21.

Adatfeldolgozás, adatértékelés. Dr. Szűcs Péter, Dr. Madarász Tamás Miskolci Egyetem, Hidrogeológiai Mérnökgeológiai Tanszék

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

AZ OPTIMÁLIS MINTANAGYSÁG A KAPCSOLÓDÓ KÖLTSÉGEK ÉS BEVÉTELEK RELÁCIÓJÁBAN

Regresszió. Fő cél: jóslás Történhet:

) ( s 2 2. ^t = (n x 1)s n (s x+s y ) x +(n y 1)s y n x+n y. +n y 2 n x. n y df = n x + n y 2. n x. s x. + s 2. df = d kritikus.

Statisztika 1. zárthelyi dolgozat március 18.

6. feladatsor. Statisztika december 6. és 8.

A Secretary problem. Optimális választás megtalálása.

A matematikai statisztika elemei

1. A radioaktivitás statisztikus jellege

Feladatok és megoldások a 11. heti gyakorlathoz

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A MATEMATIKAI STATISZTIKA ELEMEI

Intelligens elosztott rendszerek

FELADATOK MÉRÉSELMÉLET tárgykörben. 1. Egy műszer osztálypontossága 2.5, a végkitérése 300 V. Mekkora a mérés abszolút hibája?

Mérési adatok feldolgozása Méréselmélet PE_MIK MI_BSc, VI_BSc 1

Geostatisztika c. tárgy a BSc földrajz alapszak hallgatóinak

A felhasznált térfogalmak: lineáris tér (vektortér), normált tér, Banach tér, euklideszi-tér, Hilbert tér. legjobban közelítõ elem, azaz v u

Miért pont úgy kombinálja kétfokozatú legkisebb négyzetek módszere (2SLS) az instrumentumokat, ahogy?

Bevezetés a hipotézis vizsgálatba. Hipotézisvizsgálatok. Próbák leírása. Kétoldali és egyoldali hipotézisek. Illeszkedésvizsgálatok

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

KOMBINATORIKA ELŐADÁS osztatlan matematikatanár hallgatók számára. Szita formula J = S \R,

Izsák János. ELTE TTK Állatrendszertani és Ökológiai Tanszék. Kézirat

A maximum likelihood becslésről

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

7. MÉRÉSEK KIÉRTÉKELÉSE FÜGGVÉNYILLESZTÉSSEL

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

2. Az együttműködő villamosenergia-rendszer teljesítmény-egyensúlya

2. METROLÓGIA ÉS HIBASZÁMíTÁS

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Geostatisztika. Dr. Szabó Norbert Péter. BSc műszaki földtudományi alapszak hallgatóinak

Geostatisztika I. Dr. Szabó Norbert Péter. BSc geográfus alapszak hallgatóinak

Zavar (confounding): akkor lép fel egy kísérletben, ha a kísérletet végző nem tudja megkülönböztetni az egyes faktorokat.

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

Statisztika I. 4. előadás. Előadó: Dr. Ertsey Imre

Statisztika segédlet*

Méréselmélet PE_MIK MI_BSc, VI_BSc 1

( a b)( c d) 2 ab2 cd 2 abcd 2 Egyenlőség akkor és csak akkor áll fenn

Miskolci Egyetem Gépészmérnöki és Informatikai Kar Alkalmazott Informatikai Tanszék

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

Ellenben az alábbi táblázat egére, nem additív, hiszen különbségek: =4.6 és =3,3; azaz a B típus jobban bírja az éhezést.

Járattípusok. Kapcsolatok szerint: Sugaras, ingajárat: Vonaljárat: Körjárat:

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

Tulajdonságok. Teljes eseményrendszer. Valószínőségi változók függetlensége. Példák, szimulációk

EGY FÁZISÚ TÖBBKOMPONENS RENDSZEREK: AZ ELEGYEK KÉPZDÉSE

MINTAVÉTEL A MARKETINGKUTATÁSBAN, KÜLÖNÖS TEKINTETTEL A DIVIZÍV ÉS AZ AGGLOMERATÍV RÉTEGZÉSRE

Méréselmélet: 5. előadás,

Ha n darab standard normális eloszlású változót négyzetesen összegzünk, akkor kapjuk a χ 2 - eloszlást: N

1. előadás: Bevezetés. Irodalom. Számonkérés. A valószínűségszámítás és a statisztika tárgya. Cél

Korreláció- és regressziószámítás

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Backtrack módszer (1.49)

A peremeloszlások. Valószínőségszámítás elıadás III. alk. matematikus szak. Példa. Valószínőségi vektorváltozók eloszlásfüggvénye.

Statisztikai hipotézisvizsgálatok

I. Valószínűségelméleti és matematikai statisztikai alapok

Sztochasztikus tartalékolás és a tartalék függése a kifutási háromszög időperiódusától

Információs rendszerek elméleti alapjai. Információelmélet

Eddig megismert eloszlások Jelölése Eloszlása EX D 2 X P(X = 1) = p Ind(p) P(X = 0) = 1 p. Leíró és matematikai statisztika

Ökonometria. /Elméleti jegyzet/

Tapasztalati eloszlás. Kumulált gyakorisági sorok. Példa. Értékösszegsor. Grafikus ábrázolás

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

3.1. A Poisson-eloszlás

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

A Sturm-módszer és alkalmazása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Átírás:

Itellges adatelemzés ea. vázlat. rész A tematka.ea. a tárgy tematkájáak áttektése. Egy mtaélda M-S adatok elemzése (A)..ea. HF-ok jellegéek megbeszélése, a HF témák választásához szemotok 3.ea. Statsztka róbák 4.ea. Statsztka róbák (folyt) 5. ea. Statsztka róbák (folyt) 6.ea. Leárs regresszós eljárások 7.ea. Bayes leárs regresszós módszerek 8.ea. Osztályozás 9.ea. Leárs osztályozás eljárások 0.ea. Leárs osztályozás eljárások folytatás.ea. Kerel módszerek.ea. Kerel módszerek (folyt), SVM. A tárgy tematkájáak kalakításáál feltételeztük, hogy a klasszkus adatelemző módszereket és a tauló redszerek alajat mdek smer. (Háttérayagkét szolgálhat l. az Altrchter : Neuráls hálózatok c. köyv). Statsztka róbák A statsztka róbák célja hogy egy vagy több statsztka sokaság, mtakészlet eloszlásával kacsolatba hotézseket állítso fel és eze hotézseket elleőrzze. A hotézsek általába voatkozhatak a sokaság eloszlására, smert eloszlás feltételezésével az eloszlás smeretle araméterere, két vagy több sokaság eloszlásak hasolóságára (az eloszlások aramétereek egyezésére vagy külöbözőségére), két vagy több mtakészlet függetleségére, stb. A tárgy keretébe csak az alafogalmakat és éháy egyszerű statsztka róbát tárgyaluk. Ezek és tovább eljárások a bőséges rodalomba megtalálhatók: l. [], [], [3]. A statsztka róbák gyakorlat alkalmazását jól segítk a külöböző statsztka rogramcsomagok. Ezek közül éháy fotosabb: SSS [4], Statstca [5], [6], WEKA [7], MALAB [8], RadMer [9], KNIME [0] és újabba az ge tezíve fejlődő R []. A statsztka róbák sorá a mtakészletből ú. róbastatsztkát csáluk, melyek alajá eldöthető, hogy a fet tíusú kérdésekre mlye válasz adható. A róbastatsztka eloszlása smert megfelelő feltevések teljesülése eseté így az eloszlás alajá meg lehet határoz, hogy a feltevés (hotézs) mlye valószíűséggel fogadható el, vagy el kell-e vetük. A statsztka róbák sorá az eljárás: - felállítuk egy ullhotézst és azt elleőrzzük, hogy ez a hotézs megfelelő megbízhatósággal teljesül-e. - ehhez smerük kell vagy meg kell határozuk a róbastatsztka eloszlását (sűrűségfüggvéyét) és eek alajá meghatározható, hogy m aak a valószíűsége, hogy a róbastatsztka alátámasztja a hotézsüket. A sűrűségfüggvéy alajá megadható az ú. elfogadás tartomáy.

- az elfogadás tartomáyba esés valószíűsége -, tehát aak valószíűsége, hogy H 0 hotézst elfogadjuk -. A róbát jellemz értéke, mely általába kcs. kus értékek: =0,05; 0,0; 0,00. Statsztka hotézsek: araméteres (smert az eloszlás) emaraméteres (az eloszlás em smert) ovább csoortosítása a statsztka róbákak: lleszkedésvzsgálat tt a kérdés, hogy a mtakészlet eloszlása a H 0 hotézsek megfelelő-e araméteres lleszkedésvzsgálatok: u, t, F róbák emaraméteres lleszkedésvzsgálat χ teszt függetleségvzsgálat tt két vagy több mtakészlet függetleségét vzsgáljuk. A legfotosabb róba a χ teszt homogetásvzsgálat tt két vagy több mtakészlet eloszlásáak azoosságát elleőrzzük. Fotosabb homogetásróbák:wlcoo-róba, Kolmogorov-Szmrov-róba, A hotézstesztekél fotos fogalmak még az elsőfajú és másodfajú hbák, melyek a róba alajá hozott hbás dötések lehetőséget veszk számba. Egy hotézstesztelésél a dötések az alábbak lehetek: elfogadjuk Ha a H 0 hotézst H 0 feáll helyes dötés elsőfajú hba H 0 em áll fe másodfajú hba helyes dötés elutasítjuk. araméteres lleszkedésvzsgálatok Feltevés: smert a mtakészlet eloszlása, de az eloszlás aramétere() em smert(ek)... Az u-róba Az egymtás u-róba: ormáls eloszlású függetle mták vaak, ahol smert a szórás 0>0, de em smert a várható érték, µ. A H 0 hotézs: µ=µ 0, vagys a mtakészletük eloszlása H 0: N 0, 0 A róbastatsztka az -elemű mtakészlet átlaga. Ekkor Stadardzálás utá u(,,..., ) 0 N 0, 0 =N 0 0,

A teszt elvégzéséhez két küszöbértéket kell meghatároz, de a szmmetra matt elegedő egy s u. Így a stadard ormáls eloszlás eloszlásfüggvéye alajá: ( u ) u akkor szgfkaca- Az elfogadás tartomáy határa: K ()= u ; K ()=u ; vagys ha szte elfogadjuk a H 0 hotézst. u A kétmtás u-róba: adott két függetle Gauss mtakészlet,,..., és y, y,..., ym ahol smert >0 és >0, de a két várhatóérték µ és µ smeretle. A H 0 hotézs szert µ = µ A róbastatsztka a két mtaátlag külöbsége. Ha a mták Gauss eloszlásúak, akkor az átlaguk s az és az átlagok külöbsége s az. A róbastatsztka stadardzálás utá: tehát, ha y m m N 0, ym m akkor - szgfkacaszte elfogadjuk a H 0 hotézst, vagys, hogy a két várhatóérték megegyezk... A t-róba Egymtás t-róba A t-róba ayba tér el az u-róbáktól, hogy tt a szórást sem smerjük. Egyébkét most s Gauss eloszlású valószíűség változó értékeből áll a mtakészlet. Adott,,, Gauss eloszlású mtakészlet smeretle >0 szórással és µ várható értékkel. u A H 0 hotézs: µ=µ 0, vagys a mtakészletük eloszlása H 0: N 0, A róbastsztka-jelölt a stadardzált átlag lehete: u(,,..., ) 0 N 0, de a szórás smeretéek háyába mégsem lehet. Helyette a stadardzálásál a szórás becslését haszáljuk, ahol a szórás becslésére a korrgált taasztalat szórást alkalmazzuk: s 0. Így a róbastatsztka (,,..., ) t s A szórás becslése matt ez a róbastatsztka már em Gauss, haem (-) szabadságfokú Studet eloszlású valószíűség változó. Az elfogadás tartomáy határat eek az eloszlásak a táblázata alajá határozhatjuk meg. A szgfkaca-szthez tartozó t küszöbérték alajá. Ha t <t, vagys, ha ( t <t )=- akkor szgfkaca-szte fogadjuk el a H 0 hotézst, egyébkét vessük el. Kétmtás t-róba

Va két árosított mtakészletük:,,..., és y, y,..., y >0 és >0 smeretleek és µ és µ s smeretle. A H 0 hotézs szert µ = µ róbastatsztka lehete megt a z = -y átlagáak stadardzált változata: z N ; ; z N 0; és stadardzálás utá z N 0; árosítva:, y, y, y Mvel a szórásokat most sem smerjük helyettük az emrkus szórásokkal lehet stadardzál: Ekkor a F-róba ANOVA. Regresszós eljárások Regresszós feladat: mtakészlet egyes csoortja { } és {d } (=,,,) között kacsolat y =y( )=f( ) függvéykacsolat meghatározása vagy közelítése, ahol általába a d értékek az y értékek zajos megfgyelése: d d( ) y( )+. A regresszós feladat rosszul defált feladat. A véges számú mtaotra végtele külöböző függvéy lleszthető. Valamlye ráyú elfogultságra (bas) va szükség, hogy a lehetőségek közül bzoyos tíusú megoldásokat referáljuk. Modell választás (struktúra, based modell), modell araméterek meghatározása, modell- hagolás valamlye krtérum, hbafüggvéy alajá. Hbafüggvéy (veszteségfüggvéy, loss fucto), eredő hba, kockázat, rsk. A veszteségek a teljes mtakészletre vett várható értéke: meghatározásához szükség lee a mtaotok sűrűség- v. eloszlásfüggvéyére.. Leárs regresszó Feltételezzük, hogy -k és y -k között leárs a kacsolat: y() w b. Általáosított leárs kacsolat eseté előbb egy emleárs lekéezés ( ), majd a leárs kacsolat y( ) w ( ) b jö. A feladat a w aramétervektor meghatározása (becslése). Megoldás lehetőségek: least squares (LS) becslés: csak a mtaotok állak redelkezésre, a veszteségfüggvéy a égyzetes hba

az egyes megfgyelések hbá eltérő súlyozással s fgyelembe vehetők: súlyozott LS becslés a megfgyelés zaj valószíűség jellemzése smert: lkelhood függvéy felírható: mamum lkelhood (ML) becslés a keresett aramétervektor s valószíűség változó, melyek ror eloszlása (sűrűségfüggvéye) smert: Bayes becslés. LS-becslés: Négyzetes hba alkalmazásakor az LS megoldás a C( w) ε ( w) ε( w) ( d Xw) ( d Xw ) hbafüggvéy mmumát bztosítja, ahol X a bemeet vektorokból, mt sorvektorokból kéezett bemeet mátr és d a d megfgyelésekből kéezett oszlovektor (=,, ). A cél a meghatározása. Elvégezve a szélsőérték-keresést, a - megoldás ( w X X) X d. LS wls Regularzált LS becslés: A hbafüggvéy a regularzácós taggal bővül (járulékos feltétel belefogal- mazása): C( w) ε ( w) ε( w)+ w w, ahol λ a regularzácós együttható, vagy a umerkus stabltás elkerülése érdekébe. A megoldás: w ( X XI) X - d LS Súlyozott LS becslés: a C( w) ε ( w) ε( w) ( d Xw) Q( d Xw ) hbafüggvéy mmumát - bztosítja, ahol Q a súlyozó mátr. A megoldás: ( w X QX) X Qd. Az általáosított megoldásál X helyére mdehol Φ kerül. QLS Regularzált súlyozott LS becslés: - wqls ( X QX I) X Qd Mamum lkelhood becslés: A megfgyelés zajról feltesszük: N 0, A zajos megfgyelés ( ) ( )+ w d d y. szté Gauss eloszlású: N y( w, ), elemű megfgyeléskészlet eseté, a megfgyelések feltételes sűrűségfüggvéye, ha a mták függetleek: d X, w, y(, w), = N, amt lkelhood függvéyek s evezek. Szokásos jelölés még, ezzel a lkelhood függvéy d X, w, = ( w, ) N (, w ), d y A mamum lkelhood becslés a lkelhood függvéy mamumához tartozó araméter. A lkelhood függvéy helyett aak logartmusára végezzük el a szélsőérték-kerésést: A log-lkelhood függvéy:

L l d, w, = l e d ( w l( ) l l( ) l d w ( d w ( A szélsőérték-keresés Gauss megfgyelés zaj eseté az LS becslés eredméyével azoos eredméyre vezet. w ML ( ) - Φ Φ Φ d Az ML becslésél a megfgyelés zaj szórására s adható becslés d ( ML ML w. ML Mamum lkelhood becslés korrelált zajmták mellett: Ha a zajmták korreláltak, akkor kcst módosul az ML becslés. A feltételek: E{}=0, cov[]=σ és a megfgyelések most s d Φw A megfgyelés Gauss zaj sűrűségfüggvéye: = e / Σ Σ / A megfgyelések feltételes sűrűségfüggvéye, a lkelhood függvéy: d Φ, w, Σ = e / d Φw Σ d Φw Σ / A log-lkelhood függvéy és eek alajá az ML becslő: L= l d Φ, w, Σ =... w ( Φ Σ Φ) Φ Σ d - ML amt szokás Gauss-Markov (GM) becslőek s hív. Láthatóa a GM becslő súlyozott LS becslő, ha a súlymátr a zaj kovaracamátráak verze. Az ML és GM becslők (mvel a zaj valószíűség változó) maguk s valószíűség változók, meghatározható a várható értékük és a varacájuk (kovaraca mátruk). - GM E E w ( Φ Φ) Φ d w0 ha d Φw0 és var w ML Φ Φ és var w GM Φ Σ Φ

Bayes leárs regresszó 3. Osztályozás leárs modellek alajá. A feladat mtaotok két osztályba sorolása azzal a megkötéssel, hogy az elválasztó felület leárs. A feladat általáosabb megfogalmazásakor az elválasztó felületet em a bemeet térbe, haem a jellemzőtérbe értelmezzük, így a leárs elválasztófelület a ( ) térbe értedő. Az osztályozó modell eek megfelelőe az y() w b lletve az M y( ) w ( ) w ( ) lekéezéssel írható le. Ez utóbb esetbe a bas értéket w 0-két értelmezzük, úgy hogy ( ) (M+)-dmezós, és ( ). Az osztályozó kostrukcója most s az 0, d taítóot-készlet alajá törték. A leárs osztályozók között a következő megközelítéseket kell megemlíte. A ercetro, mely a ercetro tauló eljárással leársa szearálható mták egy lehetséges elválasztó felületéek véges taító léésbe való megtalálását bztosítja. Részletese ld. az NNköv 3. fejezetébe. Legksebb égyzetes hbájú megoldás. Ez olya leárs osztályozót jelet, melyél az osztályozó téyleges válasza és a kívát válaszok között égyzetes eltérés összegéek mmumát bztosító megoldást keressük. Négyzetes hba alkalmazásakor az LS megoldás a C( w) ε ( w) ε( w) ( d Xw) ( d Xw ) hbafüggvéy mmumát bztosítja. A cél tehát a meghatározása. Elvégezve a szélsőértékkeresést, a megoldás wls 0 - w ( X X) X d. Ez a megoldás formalag megegyezk a leárs LS regresszós robléma megoldásával azzal a külöbséggel, hogy most d d, d,..., d olya megfgyelésvektor, melyek eleme 0 vagy értéket vehetek fel 0, d. A égyzetes hbafüggvéy alkalmazása a klógó adatok hatását felagyítja, ezért az LS osztályozó a klógó adatokra (outlers) agyo érzékey. Fsher dszkrmás A Fsher dszkrmás a többdmezós adatok olya egydmezós vetületét keres, mely vetület meté a szearálás a lehető legköyebbe megtehető. A vetület y() w, a vetítés edg a megfelelő w ráyba törték. Ha a két osztályba tartozó mtaotok átlaga m lletve m, akkor a legjobb szearálást úgy bztosítjuk, ha a mtaotok osztályok között és osztályo belül átlagos égyzetes eltéréseek aráya a lehető legagyobb.

Jelölje ezt a meységet J w jellemz (betwee classes), míg w S b w w w S w, melybe classes). A szélsőérték-keresés eredméye S b a két osztály között égyzetes eltérést Sw a mtaotok osztályo belül szóródására jellemző (wth w Sw m m. Valószíűség értelmezés Az osztályozás valószíűség értelmezése (Bayes megközelítés) sorá a kdulás feltételez az egyes osztályok előfordulását jellemző a ror valószíűségek smeretét. Egy kétosztályos osztályozás roblémáál a két osztály legye C és C. Az a ror valószíűségek eek megfelelőe C és C C. A megfgyelések felhaszálását követőe az egyes osztályok a osteror valószíűsége a Bayestétel segítségével felírhatók: C C C C C C C l C C a e( a) C C, ahol. A osteror tehát az a kfejezés logsztkus szgmod függvéye. Az osztályozás feladat megoldása ebbe a megközelítésbe a feltételes sűrűségfüggvéyek smeretét géyl. Feltételezve, hogy és C C azoos Σ kovaraca-mátrú és μ, lletve μ várható értékű Gauss eloszlás, a sűrűségfüggvéy alakja a következő (feltételezve, hogy a bemeet N-dmezós): C = e =, N / / μ Σ μ Σ ezzel felírva a -t, am az együttes valószíűségek háyadosáak logartmusa C a l C l C l C C μ Σ μ μ Σ μ l C elvégezve a műveleteket látható, hogy az -be másodfokú tag a közös Σ matt kesk, így - be leárs összefüggést kauk. aw w 0, ahol w Σ μ μ és w 0 μ Σ μ μ Σ μ l A megoldás tehát a Gauss sűrűségfüggvéyek aramétere μ μ és Σ, valamt a rorok és C C becslése útjá yerhető. Ez a közvetett vagy drekt módszer. Ezek meghatározása ML eljárással lehetséges, ha felírjuk a lkelhood függvéyt. A megfgyelések feltételes sűrűségfüggvéye, ha a feltétel a araméterek értéke ( megfgyelés alajá): d d Xd, C, μ, μ, Σ = C N μ, Σ C N μ, Σ C C

A lkelhood függvéy egatív logartmusát kéezve a szélsőérték-kereső roblémát külö -re és a Gauss eloszlás araméterere. Ebből az ML-becslés: fogalmazhatjuk meg C C d, μ d hasolóa, μ d, míg a kovaracamátr az egyes osztályokra voatkozó taasztalat kovaracamátrokat eredméyező S és S ML-becslés alajá: S μ μ C és S μ μ C, továbbá S S S Σ Ez a megközelítés tehát a leárs kacsolat aw w0 araméteret közvetve a Gauss sűrűségfüggvéy és a rorok mtaotokból való becslése útjá határozza meg. Logsztkus regresszó Lehetséges a leárs kacsolat aramétervektorát közvetleül s meghatároz az adatokból. A közvetle vagy drekt módszer a következő léésekből áll. A drekt módszer, melyél egy súlyozott leárs kacsolatra ható szgmod függvéy utá kauk eredméyt. Ezt az eljárást logsztkus regresszóak s szokták evez, aak elleére, hogy em regresszóról, haem osztályozásról va szó. Itt s a C C C C C C C e( a) -ből duluk k. Ez tehát aak valószíűsége, hogy adott bemeet a C osztályba tartozk. Mvel ez a súlyvektor emleárs függvéye, tt lesz egy ks ehézség. Aaltkus eredméyt em kauk, haem teratív megoldásuk lesz csak. Írjuk fel a lkelhood függvéyt: d X d w, = y y d ahol a w -től való függés y -o keresztül valósul meg. Vegyük eek s a egatív logartmusát, amt hbafüggvéyek tekthetük:

w l X, d w= d l y d l y L Eek a lkelhood függvéyek a derválása útjá kajuk a súlyvektor ML becslését a közvetle úto. A ehézség, hogy most emleárs a kacsolat. Ezért a részletek khagyásával. L L y a w y a w w y d X y d. Megjegyezzük, hogy ez a kfejezés em tartalmazza a szgmod derváltját, mert a lkelhood függvéy valójába egy kereszt etróa krtérumfüggvéyek felel meg, és a derválásál a szgmod dervált kesk és csak a hba marad meg. IRLS: Most egy olya teratív eljárás következk, mely segítségével a szélsőérték hatékoy megtalálása lehetséges. Ez az Iteratív Újrasúlyozott Legksebb Négyzetes hbájú (Iteratve Reweghted Least Squares, IRLS) eljárás. A grades alaú teratív eljárás a következő új rég w w H w, ahol H a Hesse mátr, a hbafelület másodk derváltjaból kéezett mátr (a másodfokú felület feltételezésével ez a leghatékoyabb grades alaú eljárás). A Hesse mátr égyzetes hbafelületél Ezzel elvégezve az teratív eljárást: H w X X új rég rég rég rég w w X X w w X X X Xw d w X X X Xw X d, am égyzetes hbafelületél trválsa egy léésbe kadja az LS megoldást. A emleárs kacsolat matt tt em lesz égyzetes a hbafelület, ezért egylééses megoldás sem lesz. A Hesse mátr a szgmod függvéy matt: H w X RX, ahol R y ( y ), a szgmod dervált. Az teratív eljárás eek megfelelőe új rég rég rég w w X RX w w X RX X Xw d ahol rég w X RX X Rz rég z Xw R y d. Ez jól láthatóa egy súlyozott LS becslés, ahol a súlymátr R. Szembe azoba a klasszkus súlyozott LS becsléssel, tt em f az R súlymátr, haem függ w -től, tehát mde újabb w értékél újra meg kell határoz. A súlymátr tehát mde terácós léésbe frssítedő. Az összes eredméy értelemszerűe alkalmazható a jellemzőtérbe s. Ebbe az esetbe mde helyére ( ), X helyére edg Φ kerül, egyébkét mde változatlaul érvéyes.

Logsztkus regresszó Bayes megközelítésbe A logsztkus regresszó Bayes megközelítésbe s tárgyalható. Ebbe az esetbe a osteror meghatározására s szükség va, mely aaltkusa em lehetséges. Ezért csak közelítő módszerek alkalmazásával lehet eredméyre jut. A közelítés léyege, hogy a em Gauss sűrűségfüggvéyt Gauss-szal közelítjük a Lalace aromácót alkalmazva. Irodalom [] rékoa A.: Valószíűségelmélet, Műszak Köyvkadó, 980. [] Vcze I. Matematka statsztka ar alkalmazásokkal, Műszak Köyvkadó, 980. [3] Kecskeméthy- SSS