Eredmények kiértékelése

Hasonló dokumentumok
1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

KÖVETKEZTETŐ STATISZTIKA

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Bevezetés a hipotézisvizsgálatokba

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Normális eloszlás tesztje

y ij = µ + α i + e ij

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Hipotézis vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Biostatisztika VIII. Mátyus László. 19 October

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Többváltozós lineáris regressziós modell feltételeinek

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

6. Előadás. Vereb György, DE OEC BSI, október 12.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Biomatematika 13. Varianciaanaĺızis (ANOVA)

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Kísérlettervezés alapfogalmak

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

A Statisztika alapjai

Mérési hibák

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Intelligens orvosi műszerek VIMIA023

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

egyetemi jegyzet Meskó Balázs

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Mintavételi eljárások

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Adatbányászati feladatgyűjtemény tehetséges hallgatók számára

A mérési eredmény megadása

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Normális eloszlás paramétereire vonatkozó próbák

Statisztika. Politológus képzés. Daróczi Gergely április 24. Politológia Tanszék

Hipotézis vizsgálatok

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 2 Orvosi biometria

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Statisztika Elıadások letölthetık a címrıl

Valószínűségszámítás összefoglaló

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

A konfidencia intervallum képlete: x± t( α /2, df )

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

A maximum likelihood becslésről

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

1/8. Iskolai jelentés. 10.évfolyam matematika

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Az első számjegyek Benford törvénye

[Biomatematika 2] Orvosi biometria

Túlélés analízis. Probléma:

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Korreláció és lineáris regresszió

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biomatematika 2 Orvosi biometria

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Elemszám becslés. Kaszaki József Ph.D. SZTE ÁOK Sebészeti Műtéttani Intézet

[Biomatematika 2] Orvosi biometria

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

KÖZELÍTŐ INFERENCIA II.

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

ALÁÍRÁS NÉLKÜL A TESZT ÉRVÉNYTELEN!

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Kísérlettervezés alapfogalmak

KÖZELÍTŐ INFERENCIA II.

A biostatisztika alapfogalmai, hipotézisvizsgálatok. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Informatikai Intézet

Készítette: Hadházi Dániel

Elemi statisztika fizikusoknak

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

STATISZTIKA. A Föld pályája a Nap körül. Philosophiae Naturalis Principia Mathematica (A természetfilozófia matematikai alapelvei, 1687)

Statisztika elméleti összefoglaló

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Logisztikus regresszió október 27.

Csima Judit április 9.

Átírás:

Eredmények kiértékelése Nagyméretű adathalmazok kezelése (2010/2011/2) Katus Kristóf, hallgató Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék 2011. március 18.

Tartalom Bevezetés Tanítás és tesztelés A teljesítmény predikálása Kereszt kiértékelés Adatbányászati módszerek összehasonlítása Valószínűségek predikálása A költségek számolása Numerikus predikció kiértékelése 1

Bevezetés A feladat Különböző módokon nyerhetünk ki összefüggéseket Melyiket használjuk az adott problémán? Szisztematikus módon akarjuk a módszereinket összehasonlítani Probléma? A tanító halmazon mért teljesítmény nem jó mérőszám Független teszt halmaz kell Jó esetben sok adat áll rendelkezésünkre Ált. szűrni kell őket a minőségi adat ritka Végén kevés használható adatunk lesz tanításhoz A szűréshez emberi (véges) erőforrás is kellhet Korlátozott mennyiségű adat esetén A használt módszerek összehasonlításához statisztikai tesztek kellenek a véletlen szerepe 2

Tanítás és tesztelés Osztályozási feladatoknál: hiba arány error rate A tanuló halmazon mért teljesítmény nem valószínű, hogy megfelelő mutatója a jövőbeli teljesítménynek Hiba arány a tanuló halmazon: visszahelyettesítési hiba resubstitution error Teszt halmaz A tanító halmaztól független adathalmaz Feltételezzük, hogy a tanító és a teszt halmaz is reprezentatív A teszt halmaz jellege eltérő lehet a tanító halmazénál Ld. credit risk problem Semmilyen módon nem használható fel az osztályozó létrehozására! 3

A validáló halmaz Néhány tanító eljárás két állomást igényel Különböző tanító sémákat szeretnénk összehasonlítani Így beszélhetünk: Tanító halmazról osztályozók felépítése Validáló halmazról paraméteroptimalizálás vagy egy osztályozó kiválasztása Teszt halmazról a végső, optimalizált módszer hibaarányának meghatározására Ezek a halmazok egymástól függetlenek kell, legyenek! A hibaarány kiszámítása után megtehetjük, hogy a teszt halmazt és a tanító halmazt újra egybeolvasztjuk egy új osztályozó felépítéséhez ezt fogjuk ténylegesen használni A paraméteroptimalizálás után a validáló halmaz is visszaolvasztható 4

Sok adat, kevés adat Sok adat esetén nincs probléma Nagy, független halmazok Ha a tanító és teszt halmaz reprezentatív, jó indikátor lesz a hibaarány a jövőbeli adatokra Minél nagyobb a tanító halmaz, annál jobb az osztályozó de Minél nagyobb a teszt halmaz, annál pontosabb a hibabecslés számszerűsíthető Kevés adat esetén probléma van Előállhat, ha pl. a tanító és teszt adatokat kézileg kell osztályoznunk Hogyan hozzuk ki a legtöbbet egy limitált adathalmazból? Holdout eljárás dilemma: tanításhoz, validáláshoz és teszteléshez is kellene külön külön sok adat 5

A teljesítmény predikálása Teszt halmazon 75% os sikerességi arányt ( success rate ) mérünk A jövőbeli adatokon ez mekkora lesz? 5%? 10%? Bernoulli folyamat pl. pénzfeldobás cinkelt érmével Igazi, de ismeretlen sikerességi arány: kísérletből sikeres A megfigyelt sikerességi arány: Konfidencia intervallum Pl. 750, 1000 és 80% konfidencia esetén 73,2% 76.7% Pl. 75, 100 és 80% konfidencia esetén 69,1% 80.1% Egy Bernoulli kísérlet esetén a sikerességi arány várható értéke: szórásnégyzete: 1 kísérlet esetén a várható érték nem módosul, a szórásnégyzete pedig 1 lesz 6

A konfidencia intervallum (1) esetén normális eloszlást kapunk Pr és normális eloszlás esetén a khez tartozó k megtalálhatóak táblázatba foglalva ( várható értéke 0) Pr t szokták megadni ( one tailed probability) 0 várható érték és 1 szórás mellett Táblázatból kiolvasható: Pr 1,65 1,65 90% 7

A konfidencia intervallum (2) Standardizált képzése: Pr 1 Adott esetén képezzük 1 2 t, és megkeressük a hozzá tartozó t A konfidencia intervallum alsó és felső határának meghatározása: 2 4 1 Feltételeztük, hogy közel normális eloszlással dolgoztunk a fenti levezetés csak nagy ekre igaz (pl. 100) 8

Kereszt kiértékelés Kevés az adat, holdout módszer ált. az adat egyharmadát tesztelésre, a maradékot tanításra használjuk Ha nincs szerencsénk, a tanításra használt minta nem reprezentatív ált. nem megállapítható Stratification és stratified holdout osztályok arányos reprezentálása Repeated holdout átlagos hibaarányt számolunk Kereszt kiértékelés Fix számú partíciót használ Pl. stratified 10 fold cross validation standard módszer Sem a rétegzésnek, sem a 10 részre való felosztásnak nem kell pontosnak lennie! Többszöri kereszt kiértékelés 9

Leave one out kereszt kiértékelés Annyi partícióra osztjuk fel a bemeneti halmazt, amennyi annak számossága ( ) Pro A lehető legtöbb adatot használjuk tanításra Determinisztikus nincs véletlen mintavételezés Ismételni nem szükséges ugyanazt kapjuk Kontra szer történik végrehajtás A teszt halmazban garantálja a nem rétegzett mintát ( nonstratified sample ) Pl. teljesen véletlen bemeneti adathalmazban kétfajta osztály egyenlő mértékben reprezentált 10

Bootstrap A tanító halmazt visszatevéses mintavételezéssel hozzuk létre 0,632 bootstrap elemű adathalmazt szer mintavételezünk visszatevéssel A maradékot a teszt halmaz fogja használni Annak a valószínűsége, hogy egy példányt egyáltalán nem választunk ki: 1 1 0,368 Ekkor a teszt halmazon mért hiba arány pesszimista becslést adna, ezért: e 0,632 e teszt példányok 0,368 e tanító példányok Többszöri ismétlés után kapjuk az átlagos hiba arányt Nagyon kis adathalmazok esetén az egyik legjobb módszer De pl. ld. előző példa, a végső hibaarányra a valós 50% helyett a következő optimista becslést kapnánk: 0,632 50% 0,368 0% 31,6% 11

Adatbányászati módszerek összehasonlítása Használjunk kereszt kiértékelést, válasszuk azt, amelyiken kisebb a becsült hiba arány. Elég? Vajon mennyire pontos a becslés? Jó mindig a kisebb hiba arányút választani? Student s t test: a kereszt kiértékelések során nyert mintahalmazok hibaarányának átlagát szeretnénk összehasonlítani két különböző tanítási séma esetén szignifikánsan eltér a két eredmény? Paired t test: ugyanazt a kereszt kiértékelési kísérletet használva az eredményeket párba tudjuk állítani Jelölések Egymás utáni 10 fold kereszt kiértékelések után kapott független minták halmaza az első tanítási módszer esetén:,,,, átlag: a második tanítási módszer esetén:,,,, átlag: Elegendő minta esetén normális eloszlású, legyen a valódi középérték 12

A Student eloszlás Ha ismernénk a szórásnégyzetet, standardizálás után meg tudnánk állapítani a konfidencia intervallumot Csak becsülni tudjuk a minták alapján:, így standardizáltja: Ez már nem mutat normális eloszlást Student eloszlást kaptunk 1 szabadsági fokkal A Student eloszlás konfidencia határai 9 szabadsági fok esetén: 13

Párosított próba Párosított minták esetén: és Null hipotézis: ha akkor 0, vagy legalábbis adott határon belül mozog Adott konfidencia szint mellett megnézzük, hogy a különbség meghaladja e a konfidencia határt (utóbbit 5% vagy 1% nak szokták választani) statisztika: Megj.: 1% esetén a 0,5% nak megfelelő értéket olvassuk ki a táblázatból ( twotailed test ) 14

Nem párosított próba Mi van akkor, amikor a megfigyelések nem állnak párban? Nem párosított próbát használunk Felt. és normális eloszlást mutat is szórásnégyzetének legjobb becslője és darab minta esetén: statisztikában ezt használjuk, szabadsági fok a két minta szabadsági fokának minimuma 15

Problémák véges méretű adathalmazok esetén Osszuk fel és az egyes partíciókon végezzünk kereszt kiértékelést, vagy használjuk fel újra az adatokat nem kapunk független adathalmazokat Korrigált újramintavételezett próba heurisztikán alapszik, gyakorlatban működőképesnek bizonyult A holdout módszert alkalmazzuk ismétléssel Különböző véletlen felosztások mellett: legyen a tanításhoz használt példányok száma legyen a teszteléshez használt példányok száma különbségeket a teszt halmazon számoljuk 1 10 fold kereszt kiértékelés esetén 10 ismétlés mellett: 100, 0,1 0,9 és 100 különbségen alapszik 16

Valószínűségek predikálása Eddig csak helyes és nem helyes osztályozásról beszéltünk Érdemes lehet megmondani, hogy mennyire vagyunk biztosak egy példány besorolásában 17

A négyzetes veszteség függvény Egy példány esetén különböző kimenetelünk van Adott példányhoz:,,, Egyetlen kimenetel:,,, (. komponens 1) Egy példányra: 1 2 Minimalizálás esetén a legjobb választás: Pr osztály, vagy becslés Legyenek a valódi valószínűségek,,,, így Pr osztály Ekkor: 2 2 1 18

Az információ veszteség függvény log Várható értéke: log log log Minimalizálható választással Szerencsejáték hasonlat Zero frequency problem 19

Melyik veszteség függvényt használjuk? A négyzetes veszteség függvény Nemcsak t, hanem a ket is figyelembe veszi Az információ veszteség függvény Csak től függ Bünteti, ha egy osztályhoz kis valószínűséget rendelünk 20

A rossz osztályozás költsége Néhány példa A különböző kimenetelek két osztályos predikció esetén: True Positive Rate False Positive Rate Overall Success Rate Error Rate 21

A konfúziós mátrix Több osztály esetén konfúziós mátrixot használunk Egy három osztályos predikció különböző kimenetelei (aktuális és várható): Kappa statisztika, itt pl. 140 82 200 82 49,2% 22

Költség érzékeny osztályozás Alapértelmezett költség mátrixok Összköltséget számolhatunk adott teszt halmazon adott modell mellett,, osztályok esetén legyenek,,, költség mátrix pedig (b) táblázat predikálása esetén a predikció költségének várható értéke: 0, 1, 1,, 1 23

Költség érzékeny tanulás Szeretnénk a költség mátrixot a tanulási folyamatba bevonni Két osztályos predikció esetén egyszerűen a példányok arányát változtatjuk a tanuló halmazban 24

A lift diagram (1) 25

A lift diagram (2) 26

A ROC görbe 27

ROC görbe két tanuló módszer esetén 28

Recall precision görbék az eredményül kapott releváns dokumentumok száma Recall az összes releváns dokumentum száma az eredményül kapott releváns dokumentumok száma Precision az eredményül kapott összes dokumentum 3 point average recall 11 point average recall F measure: 2 recall precision recall precision 2 TP 2 TP FP FN 29

A különböző mérési módszerek összehasonlítása Szenzitivitás, specificitás, szorzatuk: sensitivity specificity 1 TP TN TP FN FP TN 30

Költség görbék A hiba görbe A költség görbe Normalizált várható költség 1 Valószínűségi költségfüggvény 31

Numerikus predikció kiértékelése 32

Felhasznált irodalom Ian H. Witten & Eibe Frank: Data Mining Practical Machine Learning Tools and Techniques (Morgan Kaufmann, 2005) 33