A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az"

Átírás

1 1 6. LECKE: REGRESSZIÓ -- Elıadás 6.1. A regresszió feladata és módszerei [C4] A módszer lényege, hogy arányskálán mért magyarázó változók (x 1,,x k ) segítségével közelítjük a számunkra érdekes, ugyancsak arányskálán mért (függı) változót (y). A leggyakrabban alkalmazott eljárás a lineáris regresszió, melynek során a magyarázó változók lineáris kombinációjával közelítjük a függı változót: y ~ a1 x1 + a2x a k x k (1) Az eljárás elnevezése onnan származik, hogy megfigyelhetı volt a fiúk magasságának lineáris függése az apák testmagasságától, de ezen egyenes meredeksége kisebb 1-nél, azaz az átlag feletti magasságú apák fiai is magasabbak lesznek az átlagnál, de nem annyival, mint az apjuk. Ez a jelenséget nemcsak a történeti érdekesség miatt említettük meg, hanem azért is, mert sok adatbázisban megfigyelhetı (hivatkozás: regression towards the mean). A paramétervektort leggyakrabban a legkisebb négyzetek módszerével becsüljük. Ez az alábbi négyzetösszeg minimalizálását jelenti (feltételezve, hogy n megfigyelésünk van) n [ y i ( a1xi 1+ a2xi akxik i= 1 )] 2. A feladat könnyen megoldható, hiszen a vizsgált kvadratikus függvénynek pontosan egy minimumhelye van, mely deriválással azonnal 1 meghatározható. Az eredményt egyszerően felírhatjuk a ˆ = ( X ' X ) X ' y alakban (X az nxk dimenziós megfigyelés-mátrixot jelöli). Ha konstans tagot is szükségesnek gondolunk, akkor ezt például x i1 =1 választással beépíthetjük a modellbe. A magyarázó változók transzformációja után akár polinommal vagy trigonometrikus függvénnyel való közelítés is belefér a modellbe. A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az ε = i y ax + a x a x i ( 1 i1 2 i2 k ik ) hiba (i=1,,n) független, azonos, normális eloszlású, akkor a becslés egyúttal maximum likelihood becslés is. Ekkor mód van a becslésekhez úgynevezett konfidencia intervallumokat rendelni, amelyek adott, nagy valószínőséggel tartalmazzák a becsült paraméter tényleges értékét. Az általános esetben is torzítatlan és a kovariancia mátrixa is megadható. Az egyes együtthatók szignifikanciáját a statisztikából jól ismert t-próbastatisztikával vizsgálhatjuk. Ugyanakkor az adatbányászatban tipikus nagy adathalmazok esetén ez nem mindig a legjobb mérıszám, mert véletlenszerően is kaphatunk szignifikánsnak tőnı eredményt. Ezért itt is célszerő a más módszereknél már látott cross-validation technika

2 2 alkalmazása, amely révén tesztelhetı a tanuló adatbázis alapján meghatározott eredmények alkalmazhatósága a tıle diszjunkt teszt-adathalmazon is. A legfontosabb kérdés az adatbányászatban, ahol általában rengeteg magyarázó változóból dolgozhatunk, hogy minek a hatása az igazán lényeges. Hiszen, ha túl sok változót és így túl sok paramétert építünk be a modellbe, akkor a becslések nem lesznek stabilak és az esetlegességük miatt a modell sem lesz jól használható. Ezt is célszerő az elızıekben már említett cross-validation technikával ellenırizni (például több, különbözı véletlen tanuló adatbázist választva). Másik probléma az úgynevezett kollinearitás. Ez azt jelenti, hogy az X megfigyelés-mátrix elfajult vagy legalábbis közel van ahhoz, hogy elfajult legyen. Ebben az esetben az úgynevezett ridge regresszió használható, ami azonban nem futtatható automatikusan, mert egy simasági paraméter határozza meg, hogy milyen mértékben is engedjük meg az eltérést a legkisebb négyzetes becsléstıl, pontosabban, mennyire változtathatjuk meg az X X mátrixot, hogy a determinánsa távol kerüljön a 0-tól. Az adatelıkészítés is lényeges szerepet játszik ennél a módszernél, ezért ajánlott az Oracle automatikus adatelıkészítı moduljának alkalmazása a módszer futtatása elıtt. Az adatbányászatban tipikus eset, hogy nem folytonos skálán mért változókkal kell dolgozni, hanem diszkrét a függı változó. Ez nem jelent döntı különbséget, hiszen szükség esetén kerekítést alkalmazhatunk. Lényegesebb eltérést jelent viszont, ha a változóink között nominális skálán mértek is vannak. Ekkor nem értelmes a lineáris függvény (1) képlet szerinti felírása, hanem az ilyen magyarázó változók minden egyes lehetséges értékéhez úgynevezett dummy változót kell hozzárendelni, mely az 1 értéket pontosan akkor veszi fel, amikor a változónk az adott kategóriába esik, különben pedig 0. Könnyen látható, hogy r különbözı értékkel rendelkezı változóhoz elegendı r-1 ilyen változót hozzárendelni, hiszen az utolsó kategória pontosan akkor lép fel, amikor az elızıek egyike sem, tehát az ehhez tartozó változó megkapható úgy, hogy az összes többi összegét kivonjuk 1-bıl. Ezekkel már a fentiek szerint felírható a regresszió. Lényegesebb változás, amikor a függı változó nominális. Ekkor a célunk annak elırejelzése, hogy melyik értéket is veszi fel a változó. Ehhez is elkészíthetjük ha kell, az egyes kategóriákhoz tartozó dummy változókat, így becsülhetjük az egyes értékek valószínőségét. Ezt azonban nem célszerő az eddig látott lineáris regresszióval elvégezni, hiszen ott az esetek nagy részében a valószínőségre értelmetlen (nem a [0,1] intervallumba esı) eredményeket kapnánk. Ehelyett nemlineáris kapcsolatot tételezünk fel a magyarázó változók és a keresett valószínőség között, például az alábbiak szerint (ez az úgynevezett logisztikus regresszió): 1 P(y= 1 x) = 1+ e ax Itt, átrendezés és logaritmálás után a fentiekhez hasonlóan megkaphatóak az a együtthatóvektor becsült értékei. Ha minden egyes lehetséges értékhez elkészítjük a fenti becslést, akkor a legnagyobb támogatottságút tekinthetjük az elırejelzésnek.

3 Diagnosztika Az ellenırzés szemléletessé tételére alkalmas a reziduális plot, amely a teszt-adatbázis tényleges értékeit hasonlítja össze ugyanezen értékek és az elırejelzett értékek különbségével (ezek az úgynevezett reziduálisok). A 0-hoz közeli értékek jó illeszkedést mutatnak, de ha szisztematikus mintázat látszik, az valamely, a modellben nem szereplı hatás jelenlétére utal. Különbözı statisztikai mérıszámokat is érdemes kiszámolni, amik az illeszkedés pontosságát jelzik (pl. átlagos négyzetes hiba). Ezek közül az ODM az átlagos abszolút hibát, a becsült értékek és a tényleges értékek átlagát, valamint az átlagos négyzetes hiba négyzetgyökét (root mean squared error) adja táblázatos formában. A legegyszerőbb grafikus értékelés a prediktív konfidencia növekménye a naív modellhez képest (amely egyszerően az átlagot adja becslésként). Az általánosított lineáris modell (GLM) további függvényekkel való illesztést is meg tud valósítani ez új elem az ODM 11.1 verzióban. Itt az úgynevezett link függvény segítségével a célváltozót transzformáljuk úgy, hogy a transzformált változóra már mőködjön a lineáris közelítés szükség esetén a szórást is transzformálva az elırejelzett válasz függvényében, hogy elérhetı legyen a homoszkedaszticitás (azonos szórásúság) -- Gyakorlat 6.3. Regresszió megvalósítása az ODM-ben támaszvektorokkal (SVM) [C4] A szokásos modell-építés menüben a regressziós függvények közül választhatjuk ki a support vector machine menüpontot. Itt láthatjuk a rövid leírását, miszerint a regresszió olyan eljárás, amely folytonos célváltozó elırejelzésére használható, ennyiben tehát különbözik a klasszifikációtól. A mintapéldánál a MINING_DATA_BUILD_V adattáblát használjuk. Ennek egyértelmő azonosítója a CUST_ID, amit a Single Key sorban választhatunk ki. Ezután kattintsunk a Next gombra. A cél most az ügyfelek korának elırejelzése. Ezért a célváltozónk az AGE (jelöljük ki Targetnek). A többi változót szeretnénk használni a modellben, ezért azok kijelölését ne változtassuk meg. Ezután kattintsunk ismét a Next gombra. Végül ismét nevet kell adnunk a munkánknak (pl. MINING_DATA_BUILD_REG_SVM1). Ha gondoljuk, akkor megjegyzést is főzhetünk a futáshoz a késıbbi azonosítás kedvéért a Comment ablakba. Az utolsó ablakban vagy elindítjuk a beállított adatbányászati algoritmust az alapbeállítás, vagy változtatunk a paraméterértékeken az Advanced settings fülre kattintva, ahol lényegében ismét a klasszifikációnál már látott lehetıségekkel találkozunk.

4 4 Elıször a mintavételezést állíthatjuk be. Az alapbeállítás ezt nem alkalmazza, mert az Oracle adatbányász algoritmusai a program szerzıi szerint bármilyen mérető adatbázis esetén elfogadható sebességgel mőködnek. De lehetnek hardver (vagy idı) korlátai a teljes adatbázissal való munkának/kísérletezésnek, ezért gyakran érdemes a véletlen mintavételt alkalmazni. Itt elıször engedélyeznünk kell ezt a lépést, beállításaink csak ezután válnak valóban végrehajtandóvá. A teljesen véletlen mintavétel mellett a rétegzett modellt (stratified) is választhatjuk, ez különösen a ritka célértéknél (pl. csalások felderítése) lehet lényeges. Ekkor ugyanis az arányos mintavétel igen kicsi esetszámot biztosítana, ami nem teszi lehetıvé a hatékony modellépítést. Ekkor a mintát úgy építi fel a program, hogy lehetıleg azonos legyen a célérték és a többi lehetséges érték gyakorisága. Van lehetıségünk a kiugró értékek (outliers) kezelésének beállítására is. Alapértelmezésben az adott változó átlagához képest háromszoros szóráson kívül esı értékeket helyettesíti ezzel a határral. Ennek lehet haszna akkor, amikor félünk, hogy ezek valójában hibás adatok, amelyek jelentısen torzíthatják az eredményeinket, ha eredeti értékükkel szerepelnek. Ugyanakkor a fordított eset is elképzelhetı, azaz, hogy ezek az értékek mégiscsak pontosak és fontos információt hordoznak éppen szélsıségességükkel. Tehát ahogy azt már korábban is írtuk, nagyon fontos az adatok elızetes vizsgálata mielıtt az adatbányászat érdemi lépéseihez nekilátnánk. A következı kérdés a hiányzó értékek kezelése. Ez önmagában is egy fontos kérdés, szakkönyvek foglalkoznak a témával. Itt értelemszerően nincs mód a részletekbe menni. Mindenesetre az óvatosság itt is hasznos. A program alapértelmezésként a folytonos változók hiányzó értékeit az átlagukkal, míg a kategorikus változókét a móduszukkal helyettesíti. Ez logikus lehet, de problémát okozhat akkor, ha a hiányzó értékek nem teljesen véletlenszerőek, hanem összefüggést mutatnak a számunkra fontos célváltozóval. Ezzel a helyettesítéssel az összefüggést teljesen elveszíthetjük. Ezért óvatosabb lehet a hiányzó értékeket már elızetesen külön kategóriaként definiálni és így itt a modell építésnél már nem marad teendı. Ezután eldönthetjük, hogy vajon normalizáljuk-e a folytonos skálán mért változókat. Ez a legtöbb esetben célszerő, mert különben a nagy ingadozást mutató változók túlságosan dominánssá válhatnak a modellben. Ugyanakkor ezt a kérdést sem szabad mechanikusan eldönteni, mert elképzelhetı, hogy indokolt az egyes változók nagyobb szerepe. Tehát itt is érdemes lehet esetleg elızetesen, az adattranszformáció során változónkénti egyedi normálás végrehajtása. Itt a normalizálást vagy a minimum-maximum skálára (azaz gyakorlatilag a (0,1) intervallumra való transzformációval vagy a valószínőségszámításban szokásosabb standardizálással valósíthatjuk meg. Ezek után az adatok tanuló- és tesztadatbázisra történı szétosztását állíthatjuk be. Az alapértelmezés 60-40%, de sokszor inkább a 70-30%-ot szokták preferálni. A véletlenítés is alapértelmezett, ettıl csak akkor érdemes eltérni, ha különbözı módszereket szeretnénk összehasonlítani, mert akkor mindenképpen célszerő fix mintákkal dolgozni az összehasonlíthatóság érdekében. Az advanced settings menüpont további beállításai a modell paramétereire vonatkoznak. Lehet változtatni a magfüggvény értékét (alapértelmezés szerint a program választja ki, de le lehet rögzíteni a két lehetıség lineáris, Gauss bármelyikét).

5 5 A túlillesztést is paraméter kontrollálja. A tesztelésnél alkalmazott függvényeket és beállításaikat is kiválaszthatjuk. Ezekre részletesen kitérünk az eredmények bemutatásánál. A futtatásnál lehetıség van az egyes lépések egymás után, kézzel történı indítására is. Ez különösen akkor lehet hasznos, ha menet közben szeretnénk változtatni a paraméterek beállításán, de a megelızı lépések változatlanok maradnak. A modell egyetlen, korábban nem látott paramétere az epszilon. Ez azt határozza meg, hogy mekkora hibát fogadjon még el a modell. Nem szükséges megadni, a program automatikusan ad rá becslést Tesztelés A reziduális ábra mutatja az illesztés minıségét 6.1. ábra. Reziduális plot az életkor SVM regresszióval történı modellezésénél A szisztematikus mintázatok mindenképpen további vizsgálatot igényelnek. Az is jól látszik, hogy bár a megfigyelések nagy részénél még elfogadható (10 évnél kisebb) a hiba, van jónéhány eset, amikor év eltérés adódik. Ezeket a kiugró értékeket is érdemes akár

6 6 egyesével megvizsgálni és szükség esetén más eljárással modellezni ıket. Különösen sok ilyen pont található a 40 év feletti korokban, ezért feltehetıen itt szükséges másfajta modellezés. Az elırejelzés pontosságát mutatja az alábbi ábra ábra. Az elırejelzés megbízhatósága A teszteredmények között megtaláljuk a számított statisztika értékeket: az átlagos abszolút hiba 0.06, a gyök-átlagos négyzetes eltérés A tényleges és az elırejelzett értékek átlaga közötti eltérés kevesebb, mint Ezek igen kicsi értékeknek tőnnek, de ne felejtsük el, hogy a változóinkra min-max standardizálást alkalmaztunk, azaz minden érték automatikusan 0 és 1 közötti. Nézzük meg, mennyiben változnak az eredmények abban az esetben, ha nem standardizálunk.

7 ábra. Reziduális plot az életkor SVM regresszióval történı modellezésénél Látható, hogy nem történt lényeges változás. Ha viszont a statisztikákat is megnézzük, az átlagos abszolút hiba 4.27, a gyök-átlagos négyzetes eltérés 6.6. A tényleges és az elırejelzett értékek átlaga közötti eltérés kevesebb, mint Ezek a reális értékek, tehát vigyázni kell a normalizált értékekre vonatkozó statisztikák interpretálásánál.

8 8 7. LECKE: ÁLTALÁNOSÍTOTT LINEÁRIS MODELL (GLM) -- Elıadás 7.1. Regresszió II. [C12] lásd az 6.lecke: Regresszió -- Gyakorlat 7.2. GLM (lineáris regresszió) a regresszióra [T-nincs] A lineáris regresszió is a regresszió menüpontban érhetı el. Ez a gyakran használt statisztikai módszer különbözı mérıszámok, így konfidencia intervallumok számítását is lehetıvé teszi, melyek azonban érzékenyek a célváltozó eloszlására. Ha ez jelentısen eltér a normálistól, és a mintaelemszám sem túl nagy, akkor ezek nem lesznek pontosak. Nézzük részletesen, a korábban már bemutatottakon kívül milyen beállítási lehetıségeink vannak. A már említett konfidencia intervallum megbízhatóságát változtathatjuk (a szokásos 95% az alapbeállítás), megengedhetjük a ridge regresszió alkalmazását és kiszámíttathatjuk az ezen módszer által elıidézett szórás-növekedési faktort. Az eredmények közül elıször is a statisztikai táblázatokat érdemes megvizsgálni (.táblázat). Az F statisztika értékéhez tartozó valószínőség (model F value probability) azt adja meg, hogy pusztán véletlenszerően mekkora eséllyel kapnánk ekkora vagy még nagyobb statisztika értéket. Ez most azt mutatja, hogy nem lehet véletlen az eredmény, a modell valós kapcsolatokat tárt fel. A modell magyarázó ereje (R-Square) 0.74, ami legalábbis elfogadható. A paraméterek száma 75, ami kicsit soknak tőnik. Minden bizonnyal lehetséges néhány nem szignifikáns paraméter elhagyása.

9 táblázat. A GLM modell statisztikai értékelése A következı táblázat az egyes változók együtthatóit és a hozzá tartozó statisztika értékeket adja meg, ebbıl ad kivonatot a táblázat.

10 táblázat. A GLM modell statisztikai értékelése Itt az látható, hogy van néhány erısen szignifikáns változó (természetesen, ahogy ezt már a bevezetıben írtuk, a nominális magyarázó változókat dichotomizálni kellett, ezért az egyes értékekhez külön változó tartozik), ilyen például az ismeretlen foglalkozás (Occupation =?), melyhez tartozó statisztika értéke Ezt az eljárást a szakirodalom inkább t-próbaként szokta hivatkozni. Még lényegesebbnek tőnik a lakóhelyen töltött évek száma (YRS_Residence), hiszen itt 10-nél is nagyobb a statisztika értéke. Látható tehát, hogy nem az együttható abszolút értéke a lényeges, hiszen ez önmagában erısen skálafüggı, hanem a standard hibával osztva kapott statisztika érték. Azokat az együtthatókat, ahol az utolsó oszlopban 0.05-nél nagyobb valószínőség szerepel, célszerő kihagyni a modellbıl. Ezután ezen az oldalon már csak 4 együttható maradna. A program által elkészített következı táblázat a modell építésnél használt egyes megfigyelésekre kapott becsléseket és a hozzájuk tartozó becsült hibákat tartalmazza.

11 táblázat. A GLM modell által becsült értékek és hibáik Az egyes megfigyelésekhez tartozó elırejelzett értékek (predicted values) mellett a hat az úgynevezett hat matrix diagonális eleme, aminek a standardizált (pontosabban studentizált) reziduálisok számításánál van szerepe. Ha ezek szignifikánsan eltérnek a t-eloszlásnál várt értékektıl, akkor az adott megfigyelést kiugró értéknek tekinthetjük. A globális tesztstatisztikák ugyanazok, mint az SVM regressziónál. Az eredmények is nagyjából megegyeznek az ott látott, nem standardizált esethez tartozó értékekkel (az átlagos abszolút eltérés 5.1). Végül itt is megnézhetjük a reziduális ábrát, ami ismét hasonló az SVM módszernél kapotthoz.

12 7.4. ábra. Reziduális plot az életkor GLM regresszióval történı modellezésénél 12

5. LECKE: TÁMASZVEKTOROK (SVM, Support Vector Machines)

5. LECKE: TÁMASZVEKTOROK (SVM, Support Vector Machines) 5. LECKE: TÁMASZVEKTOROK (SVM, Support Vector Machines) -- Előadás 5.1. Támaszvektor osztályozásra [C18] Ez a témakör a klasszifikációhoz áll legközelebb, bár alkalmazható más területeken is (regresszió,

Részletesebben

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11]

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11] 1 4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás 4.1. Döntési fák [Concepts Chapter 11] A döntési fákon alapuló klasszifikációs eljárás nagy előnye, hogy az alkalmazása révén nemcsak egyedenkénti előrejelzést

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Egyszempontos variancia analízis. Statisztika I., 5. alkalom Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból

Részletesebben

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia

Részletesebben

Lineáris regressziós modellek 1

Lineáris regressziós modellek 1 Lineáris regressziós modellek 1 Ispány Márton és Jeszenszky Péter 2016. szeptember 19. 1 Az ábrák C.M. Bishop: Pattern Recognition and Machine Learning c. könyvéből származnak. Tartalom Bevezető példák

Részletesebben

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Matematikai alapok és valószínőségszámítás. Normál eloszlás Matematikai alapok és valószínőségszámítás Normál eloszlás A normál eloszlás Folytonos változók esetén az eloszlás meghatározása nehezebb, mint diszkrét változók esetén. A változó értékei nem sorolhatóak

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I. Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

Biometria gyakorló feladatok BsC hallgatók számára

Biometria gyakorló feladatok BsC hallgatók számára Biometria gyakorló feladatok BsC hallgatók számára 1. Egy üzem alkalmazottainak megoszlása az elért teljesítmény %-a szerint a következı: Norma teljesítmény % Dolgozók száma 60-80 30 81-90 70 91-100 90

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Lineáris regresszió vizsgálata resampling eljárással

Lineáris regresszió vizsgálata resampling eljárással Lineáris regresszió vizsgálata resampling eljárással Dolgozatomban az European Social Survey (ESS) harmadik hullámának adatait fogom felhasználni, melyben a teljes nemzetközi lekérdezés feldolgozásra került,

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

Statisztika elméleti összefoglaló

Statisztika elméleti összefoglaló 1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése Matematikai alapok és valószínőségszámítás Statisztikai változók Adatok megtekintése Statisztikai változók A statisztikai elemzések során a vizsgálati, vagy megfigyelési egységeket különbözı jellemzık

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1 Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában

Részletesebben

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI MÉRÉSI EREDMÉYEK POTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI. A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk

Részletesebben

4. A méréses ellenırzı kártyák szerkesztése

4. A méréses ellenırzı kártyák szerkesztése 4. A méréses ellenırzı kártyák szerkesztése A kártyákat háromféle módon alkalmazhatjuk. Az elızetes adatfelvétel során a fı feladat az eloszlás paramétereinek (µ és σ ) becslése a további ellenırzésekhez.

Részletesebben

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( ) Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:

Részletesebben

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények

11. elıadás ( lecke) 21. lecke. Korreláció és Regresszió (folytatás) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények Korreláció és Regresszió (folytatás) 11. elıadás (21-22. lecke) Lineáris-e a tendencia? Linearizálható nem-lineáris regressziós függvények 21. lecke Linearitás ellenırzésének egyéb lehetıségei Konfidencia

Részletesebben

Variancia-analízis (folytatás)

Variancia-analízis (folytatás) Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke Egytényezıs variancia-analízis blokkképzés nélkül Az átlagok páronkénti összehasonlítása(1)

Részletesebben

A leíró statisztikák

A leíró statisztikák A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

Minitab 16 újdonságai május 18

Minitab 16 újdonságai május 18 Minitab 16 újdonságai 2010. május 18 Minitab 16 köszöntése! A Minitab statisztikai szoftver új verziója több mint hetven újdonságot tartalmaz beleértve az erősebb statisztikai képességet, egy új menüt

Részletesebben

Több valószínűségi változó együttes eloszlása, korreláció

Több valószínűségi változó együttes eloszlása, korreláció Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...

Részletesebben

Least Squares becslés

Least Squares becslés Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás

Részletesebben

6. Előadás. Vereb György, DE OEC BSI, október 12.

6. Előadás. Vereb György, DE OEC BSI, október 12. 6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás

Részletesebben

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok Eloszlás-független módszerek (folytatás) 14. elıadás (7-8. lecke) Illeszkedés-vizsgálat 7. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok elemzésére Illeszkedés-vizsgálat Gyakorisági sorok

Részletesebben

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke

Részletesebben

Korreláció és Regresszió

Korreláció és Regresszió Korreláció és Regresszió 9. elıadás (17-18. lecke) Korrelációs együtthatók 17. lecke Áttekintés (korreláció és regresszió) A Pearson-féle korrelációs együttható Korreláció és Regresszió (témakörök) Kapcsolat

Részletesebben

Likelihood, deviancia, Akaike-féle információs kritérium

Likelihood, deviancia, Akaike-féle információs kritérium Többváltozós statisztika (SZIE ÁOTK, 2011. ősz) 1 Likelihood, deviancia, Akaike-féle információs kritérium Likelihood függvény Az adatokhoz paraméteres modellt illesztünk. A likelihood függvény a megfigyelt

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM. STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

Logisztikus regresszió október 27.

Logisztikus regresszió október 27. Logisztikus regresszió 2017. október 27. Néhány példa Mi a valószínűsége egy adott betegségnek a páciens bizonyos megfigyelt jellemzői (pl. nem, életkor, laboreredmények, BMI stb.) alapján? Mely genetikai

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

III. Képességvizsgálatok

III. Képességvizsgálatok Képességvizsgálatok 7 A folyamatképesség vizsgálata A 3 fejezetben láttuk, hogy ahhoz, hogy egy folyamat jellemzıjét a múltbeli viselkedése alapján egy jövıbeni idıpontra kiszámíthassuk (pontosabban, hogy

Részletesebben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre

Részletesebben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes

Részletesebben

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum

Részletesebben

A többváltozós lineáris regresszió 1.

A többváltozós lineáris regresszió 1. 2018. szeptember 17. Lakásár adatbázis - részlet eredmény- és magyarázó jellegű változók Cél: egy eredményváltozó alakulásának jellemzése a magyarázó változók segítségével Legegyszerűbb eset - kétváltozós

Részletesebben

A maximum likelihood becslésről

A maximum likelihood becslésről A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának

Részletesebben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő

Részletesebben

Diszkriminancia-analízis

Diszkriminancia-analízis Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz Diszkriminancia-analízis folyamata Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független

Részletesebben

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták

Részletesebben

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek Anyagvizsgálati módszerek Mérési adatok feldolgozása Anyagvizsgálati módszerek Pannon Egyetem Mérnöki Kar Anyagvizsgálati módszerek Statisztika 1/ 22 Mérési eredmények felhasználása Tulajdonságok hierarchikus

Részletesebben

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE Tartalomjegyzék 5 Tartalomjegyzék Előszó I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE 1. fejezet: Kontrollált kísérletek 21 1. A Salk-oltás kipróbálása 21 2. A porta-cava sönt 25 3. Történeti kontrollok 27 4. Összefoglalás

Részletesebben

KÖVETKEZTETŐ STATISZTIKA

KÖVETKEZTETŐ STATISZTIKA ÁVF GM szak 2010 ősz KÖVETKEZTETŐ STATISZTIKA A MINTAVÉTEL BECSLÉS A sokasági átlag becslése 2010 ősz Utoljára módosítva: 2010-09-07 ÁVF Oktató: Lipécz György 1 A becslés alapfeladata Pl. Hányan láttak

Részletesebben

10. Mintavételi tervek minısítéses ellenırzéshez

10. Mintavételi tervek minısítéses ellenırzéshez 10. Mintavételi tervek minısítéses ellenırzéshez Az átvételi ellenırzés akkor minısítéses, ha a mintában a selejtes elemek számát ill. a hibák számát vizsgáljuk, és ebbıl vonunk le következtetést a tételbeli

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás Matematikai statisztika elıadás, földtudományi BSc (geológus szakirány) 2014/2015 2. félév 6. elıadás Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább

Részletesebben

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető! BGF KKK Módszertani Intézeti Tanszéki Osztály Budapest, 2012.. Név:... Neptun kód:... Érdemjegy:..... STATISZTIKA II. VIZSGADOLGOZAT Feladatok 1. 2. 3. 4. 5. 6. Összesen Szerezhető pontszám 21 20 7 22

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika

Részletesebben

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála a független változó: névleges vagy sorrendi vagy folytonos skála BIOMETRIA2_NEMPARAMÉTERES_5 1 Y: visszafizeti-e a hitelt x: fizetés (életkor)

Részletesebben

Statisztika Elıadások letölthetık a címrıl

Statisztika Elıadások letölthetık a címrıl Statisztika Elıadások letölthetık a http://www.cs.elte.hu/~arato/stat*.pdf címrıl Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább 1-α valószínőséggel

Részletesebben

Legkisebb négyzetek módszere, Spline interpoláció

Legkisebb négyzetek módszere, Spline interpoláció Közelítő és szimbolikus számítások 10. gyakorlat Legkisebb négyzetek módszere, Spline interpoláció Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor Vinkó Tamás London András Deák Gábor jegyzetei alapján

Részletesebben

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 1. A populációt a számunkra érdekes egységek (személyek, csalások, iskolák stb.) alkotják,

Részletesebben

Typotex Kiadó. Tartalomjegyzék

Typotex Kiadó. Tartalomjegyzék Tartalomjegyzék Bevezetés... 11 A hasznos véletlen hiba... 13 I. Adatredukciós módszerek... 17 1. Fıkomponens-elemzés... 18 1.1. A fıkomponens jelentése... 25 1.2. Mikor használjunk fıkomponens-elemzést?...

Részletesebben

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.

Részletesebben

KLASZTEREZÉS I. -- Előadás. A klaszterezés feladata és algoritmusai [Concepts 7]

KLASZTEREZÉS I. -- Előadás. A klaszterezés feladata és algoritmusai [Concepts 7] 1 KLASZTEREZÉS I. -- Előadás A klaszterezés feladata és algoritmusai [Concepts 7] A klaszterezés lényege, hogy előre nem definiált csoportokra szeretnénk osztani az adatainkat. Ennyiben tehát eltér az

Részletesebben

III. Kvantitatív változók kapcsolata (korreláció, regresszió)

III. Kvantitatív változók kapcsolata (korreláció, regresszió) III. Kvantitatív változók kapcsolata (korreláció, regresszió) Tartalom Változók kapcsolata Kétdimenziós minta (pontdiagram) Regressziós előrejelzés (predikció) Korreláció Tanuló Kétdimenziós minta Tanulással

Részletesebben

A valószínűségszámítás elemei

A valószínűségszámítás elemei A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:

Részletesebben

Variancia-analízis (VA)

Variancia-analízis (VA) Variancia-analízis (VA) 5. elıadás (9-10. lecke) VA lényege, alkalmazásának feltételei, adat-transzformációk 9. lecke Variancia-analízis lényege Szórások egyezésének ellenırzése A Variancia-Analízis (VA)

Részletesebben

A mérési eredmény megadása

A mérési eredmény megadása A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk meg: a determinisztikus és a véletlenszerű

Részletesebben

Matematikai statisztikai elemzések 6.

Matematikai statisztikai elemzések 6. Nyugat-magyarországi Egyetem Geoinformatikai Kara Prof. Dr. Závoti József Matematikai statisztikai elemzések 6. MSTE6 modul Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós

Részletesebben

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis SZDT-09 p. 1/36 Biometria az orvosi gyakorlatban Regresszió Túlélésanalízis Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Logisztikus regresszió

Részletesebben

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei

LNM folytonos Az interpoláció Lagrange interpoláció. Lineáris algebra numerikus módszerei Legkisebb négyzetek módszere, folytonos eset Folytonos eset Legyen f C[a, b]és h(x) = a 1 φ 1 (x) + a 2 φ 2 (x) +... + a n φ n (x). Ekkor tehát az n 2 F (a 1,..., a n ) = f a i φ i = = b a i=1 f (x) 2

Részletesebben

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése

Részletesebben

Jelek és rendszerek Gyakorlat_02. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával.

Jelek és rendszerek Gyakorlat_02. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával. A gyakorlat célja megismerkedni a MATLAB Simulink mőködésével, filozófiájával. A Szimulink programcsomag rendszerek analóg számítógépes modelljének szimulálására alkalmas grafikus programcsomag. Egy SIMULINK

Részletesebben

Normák, kondíciószám

Normák, kondíciószám Normák, kondíciószám A fizika numerikus módszerei I. mf1n1a06- mf1n2a06 Csabai István Lineáris egyenletrendszerek Nagyon sok probléma közvetlenül lineáris egyenletrendszer megoldásával kezelhetı Sok numerikus

Részletesebben

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem agy számok törvényei Statisztikai mintavétel Várható érték becslése Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem A mérés mint statisztikai mintavétel A méréssel az eloszlásfüggvénnyel

Részletesebben

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék

Ökonometria. Logisztikus regresszió. Ferenci Tamás 1 Nyolcadik fejezet. Budapesti Corvinus Egyetem. 1 Statisztika Tanszék Ferenci Tamás 1 tamas.ferenci@medstat.hu 1 Statisztika Tanszék Budapesti Corvinus Egyetem Nyolcadik fejezet Tartalom V. esettanulmány 1 V. esettanulmány Csődelőrejelzés 2 Általános gondolatok 3 becslése

Részletesebben

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett

Részletesebben

Regresszió számítás. Tartalomjegyzék: GeoEasy V2.05+ Geodéziai Kommunikációs Program

Regresszió számítás. Tartalomjegyzék: GeoEasy V2.05+ Geodéziai Kommunikációs Program Regresszió számítás GeoEasy V2.05+ Geodéziai Kommunikációs Program DigiKom Kft. 2006-2010 Tartalomjegyzék: Egyenes x változik Egyenes y változik Egyenes y és x változik Kör Sík z változik Sík y, x és z

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

Mérési adatok illesztése, korreláció, regresszió

Mérési adatok illesztése, korreláció, regresszió Mérési adatok illesztése, korreláció, regresszió Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,

Részletesebben

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1

STATISZTIKAI ALAPOK. Statisztikai alapok_eloszlások_becslések 1 STATISZTIKAI ALAPOK Statisztikai alapok_eloszlások_becslések 1 Pulzus példa Egyetemista fiatalokból álló csoport minden tagjának (9 fő) megmérték a pulzusát (PULSE1), majd kisorsolták ki fusson és ki nem

Részletesebben

Problémás regressziók

Problémás regressziók Universitas Eotvos Nominata 74 203-4 - II Problémás regressziók A közönséges (OLS) és a súlyozott (WLS) legkisebb négyzetes lineáris regresszió egy p- változós lineáris egyenletrendszer megoldása. Az egyenletrendszer

Részletesebben

Kísérlettervezés alapfogalmak

Kísérlettervezés alapfogalmak Kísérlettervezés alapfogalmak Rendszermodellezés Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement

Részletesebben

Regresszió számítás az SPSSben

Regresszió számítás az SPSSben Regresszió számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Lineáris regressziós modell X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól

Részletesebben

Függvények Megoldások

Függvények Megoldások Függvények Megoldások ) Az ábrán egy ; intervallumon értelmezett függvény grafikonja látható. Válassza ki a felsoroltakból a függvény hozzárendelési szabályát! a) x x b) x x + c) x ( x + ) b) Az x függvény

Részletesebben

Mesterséges Intelligencia I.

Mesterséges Intelligencia I. Mesterséges Intelligencia I. 10. elıadás (2008. november 10.) Készítette: Romhányi Anita (ROANAAT.SZE) - 1 - Statisztikai tanulás (Megfigyelések alapján történı bizonytalan következetésnek tekintjük a

Részletesebben

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,

Részletesebben

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az

Részletesebben

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK 2004 november 29. 1.) Lisztbogarak súlyvesztése 9 lisztbogár-csapat súlyát megmérték, (mindegyik 25 bogárból állt, mert egyenként túl kis súlyúak

Részletesebben