Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Hasonló dokumentumok
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók. Pataki Béla

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Gépi tanulás a gyakorlatban. Lineáris regresszió

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Gépi tanulás a gyakorlatban. Bevezetés

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

Regressziós vizsgálatok

Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Adatbányászati szemelvények MapReduce környezetben

6. Függvények. Legyen függvény és nem üreshalmaz. A függvényt az f K-ra való kiterjesztésének

(Independence, dependence, random variables)

Intelligens orvosi műszerek VIMIA023

Funkcionálanalízis. n=1. n=1. x n y n. n=1

Matematika alapjai; Feladatok

Bevezetés a neurális számításokba Analóg processzortömbök,

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Számítógép és programozás 2

Kiegészítő részelőadás 1. Az algoritmusok hatékonyságának mérése

Matematikai geodéziai számítások 6.

Számítógépes döntéstámogatás. Statisztikai elemzés

VIK A1 Matematika BOSCH, Hatvan, 5. Gyakorlati anyag

Mesterséges Intelligencia I.

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

Matematikai geodéziai számítások 6.

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

4.2. Tétel: Legyen gyenge rendezés az X halmazon. Legyen továbbá B X, amelyre

Matematika A2 vizsga mgeoldása június 4.

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Matematika III előadás

Biomatematika 2 Orvosi biometria

Valószínűségi változók. Várható érték és szórás

Matematika. 4. konzultáció: Kétváltozós függvények szélsőértéke. Parciális függvény, parciális derivált

A lineáris programozás alapjai

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Legkisebb négyzetek módszere, Spline interpoláció

Algoritmuselmélet 18. előadás

Nemlineáris egyenletrendszerek megoldása április 15.

1. Házi feladat. Határidő: I. Legyen f : R R, f(x) = x 2, valamint. d : R + 0 R+ 0

A legjobb közeĺıtés itt most azt jelentette, hogy a lineáris

Gépi tanulás és Mintafelismerés

Felvételi tematika INFORMATIKA

Intelligens Rendszerek Elmélete. Versengéses és önszervező tanulás neurális hálózatokban

Lineáris regressziós modellek 1

Adatok statisztikai értékelésének főbb lehetőségei

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A fontosabb definíciók

I. LABOR -Mesterséges neuron

Konjugált gradiens módszer

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Fraktálok. Kontrakciók Affin leképezések. Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék. TARTALOMJEGYZÉK Kontrakciók Affin transzformációk

17. előadás: Vektorok a térben

A JÓLÉTI ÁLLAM KÖZGAZDASÁGTANA

A LEGKÖZELEBBI SZOMSZÉD ANALÍZISHEZ SZÜKSÉGES TERÜLETI ADATBÁZISOK KIALAKÍTÁSÁNAK MÓDSZERTANI KÉRDÉSEI

Korrelációs kapcsolatok elemzése

Véletlen bolyongás. Márkus László március 17. Márkus László Véletlen bolyongás március / 31

7. Régió alapú szegmentálás

Az R halmazt a valós számok halmazának nevezzük, ha teljesíti az alábbi 3 axiómacsoport axiómáit.

Neurális hálózatok.... a gyakorlatban

Approximációs algoritmusok

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

1. gyakorlat. Mesterséges Intelligencia 2.

Sorozatok, sorok, függvények határértéke és folytonossága Leindler Schipp - Analízis I. könyve + jegyzetek, kidolgozások alapján

Feladatok a Gazdasági matematika II. tárgy gyakorlataihoz

6. Folytonosság. pontbeli folytonosság, intervallumon való folytonosság, folytonos függvények

Tanulás az idegrendszerben. Structure Dynamics Implementation Algorithm Computation - Function

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.

Mesterséges neurális hálózatok II. - A felügyelt tanítás paraméterei, gyorsító megoldásai - Versengéses tanulás

Többváltozós, valós értékű függvények

Szalai Péter. April 17, Szalai Péter April 17, / 36

ACM Snake. Orvosi képdiagnosztika 11. előadás első fele

A Matematika I. előadás részletes tematikája

[Biomatematika 2] Orvosi biometria

Idősorok elemzése. Salánki Ágnes

Számítógép és programozás 2

Gépi tanulás Gregorics Tibor Mesterséges intelligencia

Line aris f uggv enyilleszt es m arcius 19.

Mérési adatok illesztése, korreláció, regresszió

Segítség az outputok értelmezéséhez

Matematika gyógyszerészhallgatók számára. A kollokvium főtételei tanév

Lin.Alg.Zh.1 feladatok

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

1. Online kiszolgálóelhelyezés

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

Többváltozós lineáris regresszió 3.

Követelmény a 6. évfolyamon félévkor matematikából

[f(x) = x] (d) B f(x) = x 2 ; g(x) =?; g(f(x)) = x 1 + x 4 [

Adaptív dinamikus szegmentálás idősorok indexeléséhez

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kódverifikáció gépi tanulással

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

Átírás:

Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31.

A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert Regresszió: Y folytonos Osztályozás: Y diszkrét

Tervezési szempontok Gyorsaság: modell előállítás és használat Robosztusság Hiányzó, kilógó outlier) adatok Skálázhatóság Sok adat esetén is használható Skála-invariancia X i := X i *a a>0) esetén az eredmény nem változik mértékegységváltás) Értelmezhetőség Értelmezhető-e a modellből kinyerhető tudás az ember számára Neurális hálókkal probléma )

Teljesítmény mérés U hasznosság függvény f) optimális, ha E[UY,fX))] maximális Általában inverz hasznosság függvény Hibafüggv.) : L f) optimális, ha VOH = E[LY,fX))] minimális VOH: Várható Osztályozási Hiba X,Y eloszlása nem ismert, így E[] helyett gyakorlatban átlagszámítás

Tipikus hiba függvények Négyzetes hiba: LY,Y ) = Y-Y ) 2 f opt = E[Y X=x] Abszolút hiba: LY,Y ) = Y-Y f opt = mediany X=x) f opt : elméleti regressziós görbe X,Y eloszlások ismeretében tehát volna optimális megoldás, ezt az eloszlást azonban általában nem ismerjük

Legközelebbi k szomszéd módszer Motiváció: közeli pontokhoz hasonló érték tartozik. Univerzális módszer osztályozásra és regresszióra egyaránt használható) fx) : Vegyük X-hez a k db legközelebbi tanítópontot. Y : A k pont Y értékeinek átlaga. Osztályozás esetén többségi szavazás) legközelebbi : X többdimenziós. Pontok távolságát definiálni kell. Általában Euklideszi, de néha módosítani kell

Módszer hatékonysága Optimum: fx) = E[Y X=x] A módszer ennek közelítése két szempontból X=x helyett a közeli pontok, tehát X~=x Várható érték helyett átlag A módszer univerzális approximátor, ha a pontok sűrűsége az egész térben elég nagy. Sok tanítópontra van szükség.

Dimenzióátok Probléma: Tetszőleges környezetben elég pont kell a jó működéshez Rögzített sűrűség mellett a szükséges tanítópontok száma exponenciálisan nő a dimenzióval -> Túl sok pont kéne Megoldás: Korlátozni kell a felhasznált dimenziókat Ki kell szűrni az eredményt nem, vagy nem jelentősen befolyásoló attribútumokat független attribútumok kiszűrése)

Probléma/2 Független attribútumokra való érzékenység:

Megoldás/2 Több tanítópont alkalmazása Szakértők bevonása megmondják mik a független az adott attribútum esetén) Statisztikai tesztek függetlenség eldöntésére Ha az attribútumok száma nem túl nagy: az összes részhalmazra elvégezni a regressziót, majd a legjobbat kiválasztani Ha túl sok attribútum van: bővítés, csökkentés módszere addig veszünk/hagyunk el 1 attribútumot, amíg javul a teljesítmény)

Probléma/3 Mértékegységre való érzékenység nincs skála-invariancia) Mértékegységeket rögzíteni kell. Távolságfüggvény módosításával elérhető az attribútumok közötti fontossági sorrend kialakítása

Algoritmus futás ideje Legyen k<<n, így a legközelebbi k pont keresés nem tart sokkal tovább, mint a legközelebbi. Lineáris keresés legközelebbi pontra: N tanítópont esetén ON) lépés. Rendezett pontok esetén: Bináris keresés: OlogN)) lépés pontonként A rendezés az elején ON*logN)) lépés) Csak egy dimenziós attribútum halmaz esetén működik Több dimenzió esetén: KD fával

KD fa Minden lépésben valamelyik tengellyel párhuzamosan kettéosztjuk a ponthalmazt. A fa leveleiben tároljuk az adott osztályban található pontokat 2 ellentétes cél: Minden lépésben közel felezzük a ponthalmazt Legközelebbi pont lehet távol, de a pontok egyenletesen helyezkednek el Minden kialakult hipertéglatest egy kocka legyen A legközelebbi pont vagy a kockában, vagy egy szomszédos kockában van

KD-fa példa

Lineáris regresszió/1 Alapfeladat 1 dimenzió) Adottak pontok a síkon, keressük a hozzá legjobban illő egyenest. Ahol a pontok négyzetes hibája minimális)

Lineáris Regresszió/2 Általánosan dimx) > 1) Tegyük fel, hogy X i és Y között lineáris kapcsolat van: Ez vektoros formában is felirható X 0 := 1): A négyzetes hiba, amit minimalizálni akarunk:

Lineáris Regresszió/3 A hiba felírható az alábbi formában: Ennek w szerinti deriváltja: Ahol a derivált 0, ott minimum hely van maximum nem lehet), azaz a hiba minimális, ha: feltételeztük, hogy X T X nem szinguláris)

Perceptron Tetszőleges lineáris szeparációt meg lehet valósítani Tanítása: iteratívan, hiba visszaterjesztéssel Felépítése:

Lineáris szeparálhatóság És, vagy, tagadás logikai függvények lineárisan szeparálhatók, de XOR már nem: Tetszőleges logikai függvény kifejezhető a tagadás, vagy illetve és) függvényekkel. Például: X 1 XOR X 2 ==

Többrétegű hálózatok Több rétegű perceptron tehát tetszőleges logikai függvényt képes leírni. Olyan módszer kell, amivel a súlyok megfelelően beállíthatók taníthatók) a tanítópontok felhasználásával. Szignum függvényt használva nem ismert ilyen eljárás Szignum helyett szigmoid függvényeket használva létezik hatékony módszer a súlyok beállítására tanulásra)

Szigmoid függvény Folytonos, deriválható, monoton, szimmetrikus f-x) = 1 - fx)) + végtelenben 1-hez, - végtelenben 0-hoz tart.

Elemi neuron felépítése

Elemi neuron tanítása Gradiens alapú eljárással Hiba: Négyzetes hiba gradiense: )) ) ) )) ) ) ) ) k x k w sgm k d k s sgm k d k y k d k T Négyzetes hiba gradiense: Súlymódosítás a gradiens eljárás szerint: x s sgm w ) ' 2 2 ) )) ' ) ) 2 ) 1) k x k s sgm k k k w k w

Neurális hálózatok Elemi neutronok által alkotott többrétegű hálózatok Belátható, hogy az így kapott hálózat univerzális approximátor A súlytényezők beállíthatók a negatív gradiens módszert használva. Az eljárás gyakorlati problémák esetén konvergens)