Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Hasonló dokumentumok
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Gépi tanulás a gyakorlatban. Bevezetés

Likelihood, deviancia, Akaike-féle információs kritérium

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

[Biomatematika 2] Orvosi biometria

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Többváltozós lineáris regressziós modell feltételeinek

c adatpontok és az ismeretlen pont közötti kovariancia vektora

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Lineáris regressziós modellek 1

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Regressziós vizsgálatok

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Gépi tanulás a gyakorlatban. Lineáris regresszió

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

: az i -ik esélyhányados, i = 2, 3,..I

y ij = µ + α i + e ij

Mi az adat? Az adat elemi ismeret. Az adatokból információkat

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Számítógépes döntéstámogatás. Statisztikai elemzés

A maximum likelihood becslésről

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

6. Előadás. Vereb György, DE OEC BSI, október 12.

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Mérési hibák

Adatok statisztikai értékelésének főbb lehetőségei

Adatbányászati szemelvények MapReduce környezetben

Statisztikai módszerek a skálafüggetlen hálózatok

Mesterséges Intelligencia I.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Több valószínűségi változó együttes eloszlása, korreláció

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Logisztikus regresszió

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Online melléklet. Kertesi Gábor és Kézdi Gábor. c. tanulmányához

Asszociációs szabályok

[Biomatematika 2] Orvosi biometria

Least Squares becslés

Diszkréten mintavételezett függvények

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Adaptív dinamikus szegmentálás idősorok indexeléséhez

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Heckman modell. Szelekciós modellek alkalmazásai.

Gépi tanulás és Mintafelismerés

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Normális eloszlás tesztje

Valószínűségszámítás összefoglaló

1. gyakorlat. Mesterséges Intelligencia 2.

Korreláció és lineáris regresszió

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

[Biomatematika 2] Orvosi biometria

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Logisztikus regresszió

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

Logisztikus regresszió

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Minitab 16 újdonságai május 18

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Biostatisztika VIII. Mátyus László. 19 October

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Autoregresszív és mozgóátlag folyamatok

A Statisztika alapjai

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biomatematika 2 Orvosi biometria

Regresszió számítás az SPSSben

Funkcionális konnektivitás vizsgálata fmri adatok alapján

14 A Black-Scholes-Merton modell. Options, Futures, and Other Derivatives, 8th Edition, Copyright John C. Hull

A kockázat fogalma. A kockázat fogalma. Fejezetek a környezeti kockázatok menedzsmentjéből 2 Bezegh András

Hat Szigma Zöldöves Tanfolyam Tematikája

Statisztika elméleti összefoglaló

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

Mérési adatok illesztése, korreláció, regresszió

Többváltozós lineáris regresszió 3.

Nemparaméteres próbák

Segítség az outputok értelmezéséhez

[Biomatematika 2] Orvosi biometria

Logisztikus regresszió október 27.

Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév

Pontműveletek. Sergyán Szabolcs Óbudai Egyetem Neumann János Informatikai Kar február 20.

Idősorok elemzése. Salánki Ágnes

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Gyakorló feladatok a kétváltozós regresszióhoz 2. Nemlineáris regresszió

Átírás:

Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton

Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke alapján Egy megfigyelt entitás egy osztályba sorolása előző megfigyelések alapján Általában két fázisban épül fel az algoritmus: Modell készítése tanító pontok felhasználásával Modell alkalmazása új adatokra (ismeretlen attribútumokkal) Más szóval felügyelt tanulás (supervised learning) A felügyelet nélküli változata a Klaszterezés

Alkalmazási területek Adatbányászat Hitel alkalmasság elbírálása (vagy veszélyességi szint meghatározása) Viselkedés előrejelzése (megvesz / nem vesz meg) Szöveg elemzése E-mail forgalom (spam felismerés)

Osztályozó algoritmusok osztályozása Eager Lazy Folyamatosan építi a modellt rendelkezésére álló adatpontok alapján Csak azután dolgozik, miután megkapta az osztályozandó adatot Hogyan mérjük a pontosságot? A tanító adatok mellett készítsünk elő egy teszt adatsort is, amin ellenőrizhetjük a modellt

Eager (buzgó) algoritmusok Szabály alapú osztályozás Döntési fa Egy fa, csúcsaiban szabályokkal, levelei osztályokat reprezentálnak Naív Bayes módszer Bayes-hálózatok Statisztikai módszerek, megadják, hogy mi az esélye annak, hogy egy megfigyelt entitás az adott osztályba tartozik Support Vector Machine Az adatokat elhelyezi az n-dimenziós térben, majd megkeresi az osztályokat határoló hipersíkot

k legközelebbi szomszéd Lusta algoritmus Egy osztályozandó entitáshoz megkeresi a k leghasonlóbb ismert entitást Mi alapján? Távolság. Pl.: Euklideszi, Manhattan Az új entitás abba az osztályba fog tartozni, ami leggyakoribb a közeli szomszédjai között Fontos az adatok előfeldolgozása! A forintban vett jövedelem jóval nagyobb, mint a magasság Vagy súlyozhatjuk az egyes tulajdonságokat

k legközelebbi szomszéd (folyt.) Mi a helyzet a kategorikus attribútumokkal? Ha egyezik, legyen 1, egébként 0 Sok ismert entitás esetén tetszőleges ponthoz közel lesznek szomszédai, így egyre jobb becslést kapunk. Dimenzióátok! Emlékezz: A dimenzió növelésével drasztikusan csökken a pontok sűrűsége Ráadásul n ismert entitás mellett O(n) az algoritmus, tehát több ismerettel egyre lassabb A feladat jól párhuzamosítható A keresési tér felosztása (KD-fa)

k legközelebbi szomszéd (folyt.) Érzékeny az irreleváns attribútumokra Megoldást jelenthet Területi szakértelem Statisztikai tesztek

k legközelebbi szomszéd (folyt.) Osztályozás helyett használhatjuk egy ismeretlen, folytonos attribútum értékének megbecslésére is Nem a leggyakoribb attribútum értéket rendeljük hozzá, hanem a k legközelebbi szomszéd attribútumainak átlagát

Regressziós analízis Statisztikai módszer ismert és ismeretlen változók kapcsolatának megismerésére, előzetes megfigyelések alapján. Alkalmas folytonos változók értékének megjóslására, de használható osztályozásra is. Általában nem illeszkedik pontosan a megfigyelt adatokra, hanem egy olyan modellt próbál felállítani, ami valamilyen értelemben a legjobb a megfigyelések alapján.

Lineáris regresszió egyszerű lineáris modell Gyermekek teszteredménye, az édesanyjuk iskolai végzettségének függvényében A mom.hs egy indikátor változó

Lineáris regresszió egyszerű lineáris modell A lineáris regresszió más megközelítésben: Hogyan változik a kimeneti változó átlaga a bemeneti változó függvényében A bemeneti változó a megfigyelt pontok egy halmazát jelöli ki, akikhez a kimeneti változónak egy értéke tartozik A regressziós egyenes átmegy mind a két populáció (gyerekek teszteredményei, akiknek édesanyja végzett középiskolát, és akiknek nem) átlagán. Ezt a modellt becslésre használva azt kapjuk, hogy egy gyermek teszteredménye átlagosan 78, ha édesanyjuk nem végzett középiskolát 91, ha elvégezte a középiskolát

Lineáris regresszió egyszerű lineáris modell Folytonos bemeneti változóval Azon gyermekek teszteredményének átlaga, akiknek szülői IQ-ja 1 ponttal különbözik 0.6 ponttal tér el A modell megadja azon teszteredményeket is, akikhez 0,vagy negatív IQ-jú szülő tartozik ez nem túl hasznos

Lineáris regresszió több bemeneti változó A sötét foltok azon gyermekekhez tartoznak, akiknek anyja nem végzett középiskolát

Lineáris regresszió több bemeneti változó Próbáljuk meg az előző két számot kombinálni Ha az anyuka középiskolát végzett, várhatóan 6 ponttal magasabb lesz az átlagos teszteredmény Probléma: a két regressziós egyenes meredeksége ugyanolyan, pedig lehet, hogy a megfigyelésünk nem ezt sugallja

Lineáris regresszió bemenetek közötti kölcsönhatások Úgy gondoljuk, hogy az édesanya végzettsége és IQ-ja összefüggésben van, igazítsuk ehhez a modellt. Vegyük fel a következő változót: mom.hs * mom.iq

Lineáris regresszió bemenetek közötti kölcsönhatások A modell továbbra is lineáris. Három különböző változónk van mom.hs mom.iq mom.hs * mom.iq Ez a változó megváltoztatja az egyenes meredekségét attól függően, hogy az édesanya végzett-e középiskolát (Igazából négy változónk van, a konstans taghoz is tartozik egy, aminek értéke 1) A kölcsönhatások nagyon fontosak tudnak lenni

Lineáris regresszió bemenetek közötti kölcsönhatások Az otthon közelében található radon források hatása tüdőrák esélyére dohányzók, illetve nemdohányzók esetében

Jelölések y:kimeneti változó X: bemeneti változó, B: paraméter k különböző bemeneti változónk van, i a megfigyeléseket indexeli ε i : Az i-ik ponthoz adódó véletlen hiba Feltételezzük, hogy a hiba eloszlása normális, 0 várható értékkel és σ szórással β: A becslés (regressziós egyenes) együtthatói

Regressziós egyenes számítása Célunk az eltérések(residuals) négyzetösszegét minimalizálni Ezt b szerint deriválva, majd 0-val egyenlővé téve megkapjuk, hogy Ez az algoritmikus megközelítés. Mivel a modellünk lineáris, és a feltételezett hiba standard eloszlású (0, σ paraméterekkel). Ezt a becslést le lehet vezetni a maximum likelihood összefüggésből is. Feltételezzük, hogy több megfigyelésünk van, mint bemeneti paraméterünk

A lineáris regresszió jellemző számai A modellben található véletlen hiba miatt a becslés is bizonytalan Minden paraméterhez tartozik egy standard hiba. Az mondható, hogy ennek kétszeresén belül levő értékek konzisztensek a megfigyelésekkel

A lineáris regresszió jellemző számai Eltérések szórása A gyermekek teszteredményei esetén ez például 18, ami azt jelenti, hogy nagyjából 18 pontnyi pontossággal tudjuk előre jelezni az eredményeket az adatok alapján. Minél kisebb ez, annál jobban illeszkedik modellünk a megfigyelésekre. Ezt hívhatjuk a modellünk által megmagyarázott szórásnak. A megfigyeléseinkben található összes szórás - s. R 2 tehát a modellünk által megmagyarázott és az összes szórás aránya. Látható, hogy ez annál jobb, minél nagyobb, mivel a nagyobb érték azt jelenti, hogy a szórás egy nagyobb részét sikerült megmagyaráznunk.

A lineáris regresszió jellemző számai A teszteredményes példában R 2 = 22% Azonban nagyobb R 2 nem mindig eredményez jobb modellt. Demo: http://www.arachnoid.com/polysolve/

A regressziós modell feltételezései Helyesség Legfontosabb, hogy az adat helyes legyen, a szóban forgó kutatás keretén belül reprezentatívnak kell lennie. Az összes releváns bemenetet érdemes felhasználni modellben, és ellenőrizni kell, hogy megfelel-e az elvárásoknak Helyes következtetések levonása: Gyermekek teszteredményei nem feltétlenül tükrözik az intelligenciájukat Linearitás A modell a bemeneti változók egy lineáris függvénye Amennyiben a linearitás sérül, érdemes megpróbálkozni a változók transzformációjával

A regressziós modell feltételezései A hibák szórása Egymástól független Egyenlő nagyságú Ezt meg lehet vizsgálni, ha az eltéréseket ábrázoljuk a bemeneti változó függvényében A legjobb ellenőrzés, ha egy területi szakértő ellenőrzi a modellünket, vagy további megfigyelésekkel validálni tudjuk.

Bemenetek transzformációja Amennyiben az adatok nem illeszkednek az előbb említett feltételek mellett a megfigyeléseinkre, megoldást nyújthat a változók transzformációja, új változók felvétele Felvehetjük x mellé/helyett x 2 -et, ezáltal U alakra illeszkedő adatokat is modellezhetünk Ha a bemenet kis változása a kimenet egyre nagyobb változását eredményezi, lehet, hogy kifejezőbb modellt kapunk, ha vesszük a kimenet logaritmusát

Logisztikus regresszió Bináris adatok modellezésére általában a regressziónak egy másik formáját használják, a logisztikus regressziót A logisztikus regresszióval tehát lényegében valószínűségeket jelzünk előre A logit függvény a (0,1) intervallumot képzi le a intervallumra, inverze pedig folytonos értékeket képez a másik irányba, ezáltal egy valószínűséget kapunk.

Logisztikus regresszió

Logisztikus regresszió Látható, hogy a függvény görbe, tehát fix értékhez változó növekedés tartozik A magasabb valószínűségeknél egyre nagyobb befektetés szükséges változás eléréséhez Lényegében a skála elején és végén a változások egyre mérsékeltebbek, így lehet az adott intervallumban tartani az értékeket

Logisztikus regresszió Példa: 1992-es választások az USA-ban. A kimeneti változó 1, ha a választó Bush-t (republikánus) preferálta, 0, ha Clinton-t (demokrata) A hipotézis, hogy a gazdagabb emberek nagyobb valószínűséggel szavaznak Bush-ra A választókat 5 bevételi kategóriára osztották (átlagosan 3.1) A kiszámított logisztikus regressziós modell

Logisztikus regresszió A bemeneti változó értelmezése: Egy kereseti kategória növekedése mekkora növekedést hoz a Bush-ra való szavazás esélyében Függ attól, hogy melyik kategóriából indultunk A változókat a lineáris regresszióhoz hasonlóan kombinálhatjuk

One versus all A logisztikus regressziót fel lehet használni kategória típusú kimeneti változó modellezésére is Vesz egy osztályt, és szembe állítja az összes többivel egy logisztikus regresszió erejéig (adott bemeneti értékek mellett) Amelyik osztálynál legnagyobb a valószínűség, azt adja eredményül Ez a módszer nem csak a logisztikus regresszióval használható, hanem minden bináris kimenetű osztályozó algoritmussal

Általánosított lineáris regressziós modell A két bemutatott regressziós modell az általánosított modell speciális esetei Az általános modell elemei Megfigyelések Bemeneti változók és paraméterek, amelyek egy lineáris komponenst állítanak elő Egy kapcsolati függvény(link function), amely a lineáris komponenst képezi le valamilyen módon Véletlen komponens Meghatározza, hogy hogyan kapjuk a hiba értékét Egyéb paraméterek (szórások, intervallumok, )

Általánosított lineáris regressziós modell A paraméterek becslésének egyik módja a maximum likelihood módszere A lineáris regressziós modell az általános egy speciális esete A kapcsolati függvény az identitás függvény A véletlen komponens a normális eloszlást követi A logisztikus regressziós modell is egy speciális eset Kapcsolati függvény: logit Véletlen komponens: binomiális

Poisson regressziós modell Az általánosított lineáris modell leszármazottja Számláló (gyakoriság) jellegű kimeneti változók becslésére használják A kapcsolati függvény a logaritmus. Ez leképzi a lineáris komponenst a pozitív valós számok halmazára A véletlen komponens poisson

Áttekintett módszerek/algoritmusok Osztályozás k legközelebbi szomszéd módszere Regresszió Egyszerű lineáris Többváltozós lineáris Bemenetek egymásra hatása Bemenetek transzformálása Általánosított lineáris modell Logisztikus regresszió One vs. All