Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok)."

Átírás

1 Többváltozós roblémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). l. 889 február.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elusztult, és Hermon Bumus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Közéontja: centroid, várható érték vektor. Várható érték: μ x μ x μ= és ennek becslése a mintából: x = M M μ x 3

2 A szórás helyett kovariancia mátrix : cov(x,y)= μ{(x-μ(x))(y-μ(y))} Ha X=Y, akkor a kovariancia a változó varianciája. cov σ cov, X = M cov, ( ) ( X) ( X X) ( X X ) σ ( X ) cov,... ( X X ) σ ( X ) n n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha: n. R(X,Y) = μ{(x-μ(x))(y-μ(y))}/{σ(x)σ(y)}, RX R( X ) = M RXn A verebek esetén: teljes hossz (, X) (, X) szarnytavolsag csor es fej hossz felkar hossz mellcsont hossza ( X) RX,... Mean Variance

3 > var(vereb[,:6]) X X X3 X4 X5 X X X X X > cor(vereb[,:6]) X X X3 X4 X5 X X X X X Ha csoortokat alkotnak a megfigyelési egységek, akkor itt is lehet csoortok közötti (between grous) és csoortokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoortokon belüli kovariancia mátrixok egyezősége. 5

4 Többváltozós roblémák. Verebek a viharban TULEL Grou Total nem elte tul a vihart tulelte a vihart Count Maximum Mean Median Minimum Std Deviation Count Maximum Mean Median Minimum Std Deviation Variance Count Maximum Mean Median Minimum Std Deviation Variance teljes csor es fej felkar mellcsont hossz szarnytavolsag hossz hossz hossza Variance Milyen kérdéseket lehet feltenni? Milyen kacsolatban vannak egymással a mért változók? Túlélők, nem túlélők átlagai, szórásai különböznek-e? (Variancia-analízis, F-róba, Levene róba) Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szemontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoortot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index. 6

5 . Egyitomi koonyák Thébából származó férfi koonyák 5 korszakból. Mindegyikből darab.. Korai redinasztikus kor (4000 ie). Késő redinasztikus kor (3300 ie) dinasztia (850 ie) 4. Ptolemaioszi kor (00 ie) 5. Római kor (50 iu) Milyen kacsolatban van a 4 mért érték egymással? Van-e szignifikáns differencia a mintaátlagok illetve szórások között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást? Lehetséges-e konstruálni egy f függvényét a 4 változónak, amely valamilyen értelemben visszatükrözi a minták közti különbségeket? 7

6 DINASZT.00 Count X X X3 X Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance

7 Alavető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum X X... X x x... x x x... x M n x n x n x n Zi = aix + aix aix Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomonenseknek, kanonikus függvényeknek, faktoroknak nevezni. analógia: regressziós függvény Időnként még egy lusz konstans is van benne, ekkor: Z = a + a X + a X a i i0 i i i X (Megj: ha az adatok standardizáltak, akkor a konstans 0.) A látens (extracted) változók általános tulajdonságai: az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.; nem korreláltak, merőlegesek-függetlenek számuk = (a régi változók száma) megj.: csak néhányat tartunk meg belőlük. 9

8 Sajátértékek, sajátvektorok Eredeti össz variancia: S(cov(X))= λ. Ha a változók standardizáltak, akkor i= i λ =. i= Sajátvektorok: új változók együtthatói, az a ij -k. > eigen(cor(vereb[,:6])) $values [] $vectors [,] [,] [,3] [,4] [,5] [,] [,] [3,] [4,] [5,] Hogy lehet a sajátértékeket sajátvektorokat kiszámítani?. Asszociációs mátrix s.é.-ei, s.v.-ai: sektrál felbontás. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kajuk. i 30

9 (mátrix algebrával összekacsolhatók) A Q-mode analízis különbségi mértékeken alaul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomonens analízis és korresondencia analízis Ha az objektumok csoortokat alkotnak, akkor úgy lehet kiszámítani a komonenseket, hogy azok a csoortok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés. 3

10 Többváltozós exloratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok 3

11 >stars(vereb[,:6]) Szórásdiagram mátrix. >airs(vereb[,:6]) 33

12 Szórás diagram az új, látens változókkal. Kétváltozós boxlot 34

13 35

14 Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós roblémák - egyedi megfigyelések, minták, illetve oulációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden változót X, X,..., X mérünk. Az i-edik egyed mért értékei: xi, xi,..., xi, a j-ediké: xj, xj,..., xj. Ha =, akkor a két ont távolságát a Pitagorasz tétel alaján számíthatjuk: dij = ( xi xj) + ( xi xj) Több változó esetére is működik: ( ) d = x x ij ik jk k= Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot. Standardizálás.. 36

15 l. Thaiföldi rehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a rehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkaocs csontokon, illetve más fajták állkacsán. A mért változók: X - az állkaocs szélessége, X - az állkaocs magassága az első záfog alatt, X 3 - az első záfog hossza, X 4 - az első záfog szélessége, X 5 - az első és harmadik záfog közötti távolság (beleértve a záfogakat is), X 6 - az első és negyedik záfog közötti távolság (beleértve a záfogakat is). A mérések átlagai: X X X 3 X 4 X 5 X 6 Modern kutya Arany sakál Kínai farkas Indiai farkas Kujon Dingó Prehisztorikus kutya Forrás: Higham et al. (980). 37

16 A standardizált értékek X X X 3 X 4 X 5 X 6 Modern kutya Arany sakál Kínai farkas Indiai farkas Kujon Dingó Prehisztorikus kutya :Modern kutya :Arany sakal 3:Kinai kutya 4:Indiai kutya 5:Kujon 6:Dingo 7:Prehisztorikus kutya This is a dissimilarity matrix Proximity Matrix Euclidean Distance :Modern :Arany 3:Kinai 4:Indiai 7:Prehisztorikus kutya sakal kutya kutya 5:Kujon 6:Dingo kutya Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban. City-block (Manhattan) távolság: d ij = k= x ik x jk. Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre. Csebisev (Chebychev) távolság: 38

17 Ha csak dimenzióban nézzük a különbséget. d ij = max x k ik x jk Hatvány (Power, Costumized) távolság:ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek esetén különböznek az objektumok: d Az n és r értékét mi választhatjuk meg. ij = k= Az n az egyedi dimenziók közötti távolságokat súlyozza, az r edig az egyes megfigyelt egyedek közöttieket. Ha n = r, akkor Minkowsky távolságnak nevezzük. Bray-Curtis (Kulczynski): faj abudancia adatok esetén használatos. Gyakorisági értékek esetén: Chi-négyzet (Chi-square). A szokásos módon számolt χ -érték. Phi-négyzet (Phi-square) Az előző normalizálva. Jaccard e.h.: bináris skálán mért (rezencia, abszencia) adatokra. a a + b + c a azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b ahol az egyik 0, c ahol a másik 0. x ik y jk n r. 39

18 Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 ont áronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság. 40

19 Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0 értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt l.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok oulációk és minták között Mahalanobis távolság: v rs D ij ri rj r= s= rs ( ) v ( si sj ) = μ μ μ μ, ahol a kovariancia mátrix inverzének az r-edik sorában és s- edik oszloában álló eleme. Máské: = μ μ C μ μj kvadratikus alak, ahol ( ) ( ) D ij i j i 4

20 μi μ i μi =, az i-edik ouláció várható érték vektora. C a M μ i kovariancia mátrix. Használható egy egyednek a ouláció közéontjától mért távolságának mérésére is: rs ( ) ( ) Dij = xr μr v xs μ s, r= s= ahol az egyeden mért értékek: x, x,..., x és a megfelelő ouláció átlagok: μ, μ,..., μ. Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának közéontjától. Figyelembe veszi a változók közti korrelációt is. Ha a ouláció többváltozós normális eloszlást követ, akkor χ eloszlású szabadsági fokkal. Ha D értéke szignifikánsan nagy (P<0.00), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés. A ouláció átlagokat és a kovariancia mátrixot a mintából becsülhetjük. D 4

21 l. Az egyitomi koonya minták közötti távolságok: Covarian Correlati X X X3 X4 X X X3 X4 Pooled Within-Grous a. The covariance matrix has 45 degrees X X X3 X E E E E a Grou Statistics DINASZT Total X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 Std. Valid N (listwise) Mean Deviation Unweighted Weighted A Mahalanobis távolságok: 43

22 Dinasztia megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát. Ebben az esetben éldául azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen) 44

23 Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Sektrál felbontás esetén tulajdonkéen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : rezencia, abszenciától mi függ. Asszociációs mértékek imlicit módon standardizáltak. 45

24 Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szemontból. 46

25 Hiányzó adatok MCAR-missing comletely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoorttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés listwise deletion esetén. Ha az analízis áronkénti (airwise) asszociációkon alaul (kovariancia, korreláció), akkor airwise deletion. Csak akkor töröljük, ha éen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imutáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, l. a legjobban korrelált változót vagy változókat választjuk rediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli. 47

26 Maximum likelihood (ML) és EM becslés ML : araméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imutáció + ML : Exectation Maximization ML araméter becslés hiányzó adatok ML araméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR. 48

27 Többváltozós adatelemzés SPSS-sel Előkészületek: Adatok megjelenítése: SPSS Grahics SPSS Frequency Hiányzó adatok elemzése (Missing data analysis) : Ellenőrizzük, hogy létezik-e mintázat (randomnak kell lennie) Kategoriális változó esetén: Ha Missing < 5%, List-wise otion Ha >=5%, akkor a hiányzó értékek kerüljenek egy új kategóriába Mért változó esetén: Ha Missing < 5%, List-wise otion 5% és 5% között : Transform>Relace Missing Value. (5%-nál kevesebb adat behelyettesítésének nincs túl komoly hatása Ha > 5%, akkor töröljük a változót, vagy a megfigyelési egységet (ismételt mérések esetén) Kiugró értékek ellenőrzése (Outlier-ek) : (Általában a statisztikai eljárások érzékenyek az outlier-ekre.) 49

28 Egyváltozós eset: boxlot Többváltozós eset: Mahalanobis távolság (Khi-négyzet statisztika), egy ont akkor outlier, ha a -érték <.00. o Az eset azonosítója (dummy variable) : Deendent, a többi változó: Indeendent o Save>Mahalanobis Kezelés: Töröljük az esetet Közöljünk két elemzést (egyet az outlier-rel, egyet edig nélküle) Normalitás: Egyváltozós normalitás tesztek: Q-Q lot Skewness és Kurtosis Tesztek Többváltozós normalitás tesztelése: A szórásdiagrammoknak ellitikusaknak kell lennie Minden változónak normálisnak kell lennie Linearitás: A linearitás ellenőrzése Reziduális lot regresszió esetén Szórásdiagrammok 50

29 Homoscedasticity: a kovariancia mátrixoknak a csoortokban meg kell egyeznie: Tesztelése: Box s M test Érzékeny a normalitásra Levene teszt: a csoort varianciák egyezőségének vizsgálata. Nem annyira érzékeny a normalitásra 5

30 Emlékeztető: ANOVA Az egyfaktoros ANOVA a o. átlagok egyezőségét teszteli Feltételek: független megfigyelések; normalitás; varianciák homogenitása Két faktoros ANOVA 3 hiotézis teszttel szimultán: Interakció a két faktor között A két faktor hatásának tesztelése Emlékeztető: ANCOVA A függő változó értéke folytonos független változótól (kovariáns) is függhet. Kovariánsok hatásának figyelembe vétele illetve becslése. A reguláris ANOVA feltételein túl követelmény még: Lineáris kacsolat a függő változó és a kovariánsok között MANOVA Tulajdonságok: Hasonló az ANOVÁ-hoz Több függő változó A függő változók korreláltak és a lineáris kombinációnak értelme van. Azt teszteli, hogy k oulációban a független változók egy lineáris kombinációjának átlagai különböznek-e. Alaötlet: találjunk egy olyan lineáris kombinációt, amely otimálisan szearálja a csoortokat, azaz olyat amely 5

31 maximalizálja a hiba (within grou) variancia/kovariancia mátrix és a hatás (between grou) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szereel a szearálásban. Előnyök: Annak az esélye, hogy különbségeket találunk a csoortok között, nagyobb, ahhoz kéest, mintha minden változóra egyenként ANOVÁ-t csinálnánk. Nem inflálódik az elsőfajú hiba. Több ANOVA elvégzése nem veszi figyelembe azt, hogy a független változók korreláltak. Hátrányok: Bonyolultabb, Az ANOVA gyakran nagyobb hatóerejű. Sokkal komlikáltabb kísérleti elrendezést igényel. Kétségek merülhetnek fel, hogy valójában mely független változók mely függő változók értékét befolyásolják. Minden lusz függő változó szabadsági fokkal kevesebbet jelent. Feltételek: Független minták, Többváltozós normális eloszlás a csortokban A kovariancia mátrix homogenitása 53

32 Lineáris kacsolat a független változók között A MANOVA elvégzésének léései: Feltételek ellenőrzése Ha a MANOVA nem szignifikáns, sto Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie. A MANOVA algoritmusa:. Az ANOVA négyzetösszegei helyett sums-of-squares-andcross-roducts (SSCP) mátrixok. Egy a hatásnak (between grous) megfelelő (H), egy edig a reziduális (within grous): E, és egy a teljesnek megfelelő (T).. Kiszámítjuk a HE - szorzatot (egyváltozós esetben ez az F érték). 3. Kiszámítjuk a HE - sektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy betweengrou varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit. 4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-grou/within-grou variancia hányadost. H 0 : a csoort centroidok megegyeznek. 54

33 Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns:általánosított variancia). Wilk s lambda: E / T. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoortok köztötti különbségek. Hotelling-Lawley trace: H / E. Ez ugyanaz, mint a HE - mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoort centroidok között. Pillai trace: A HT - nyoma, vagyis a between grous variancia. Roy s largest root: a HE - legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between grous variancia-kovarianca legnagyobb részét magyarázza. Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoort esetén a Wilk s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T statisztikával, ami a t-róba többváltozós kiterjesztése. Általában hasonló eredményeket rodukálnak több csoort esetén is. A Pillai trace a legrobosztusabb teszt. 55

34 MANCOVA Cél: Csoortok közötti különbség tesztelése független változók egy lineáris kombinációja alaján egy kovariáns figyelembe vételével. Példa: 3 területen élő őzek összehasonlítása a kor kovariáns figyelembe vételével. Reeated Measure Analysis Cél: csoortok közötti különbségek tesztelése, ha a megfigyelési egységeken többször mérünk. Feltétel: Független megfigyelések!! Helyette: Kevert modell 56

35 Diszkriminancia analízis Cél: egy olyan függvény létrehozása, amely alaján az egyedek két vagy több csoortba sorolhatók (a függvény értéke lényegesen változik csoortról csoortra). Később a függvényt új egyedek besorolására lehessen használni. l. verebek. A testméretek alaján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény: Z = ax + ax a X Ha Z értéke jelentősen változik csoortról csoortra, akkor a csoortok jól szearálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoortokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja. Kétféle cél:. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alaján csoortokba sorolhatunk).. Leíró analízis: a függő változó és a független változók kacsolatát vizsgáljuk. Hogyan működik?. Feltételezzük, hogy a célouláció egymást kizáró rész oulációkból áll.. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek 57

36 3. Megkeressük azt a lineáris kombinációt, amely a legjobban szearálja a csoortokat. 4. Ha k csoortunk van, akkor k- diszkriminancia függvényt készítünk. 5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz. Klasszifikálási módok: ML ahhoz a csoorthoz sorolja be, amelynek legnagyobb a valószínűsége. Fisher (lineáris) klasszifikáló függvény: abba a csoortba sorolja be, amely esetén a csoorthoz tartozó függvény szkórja a legnagyobb. Diszkriminálás Mahalanobis távolságokkal: Kiszámítjuk az egyedek Mahalanobis távolságát a csoort centroidoktól, és abba soroljuk be, amelyhez a legközelebb van. Megjegyzés: az SPSS a Maximum likelihood módszert használja. Logisztikus regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategoriális változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenkéen a LR-t kell használni. Az LR nem eloszlás függő. 58

37 Őzes élda oututja: terület Árádhalom Babat Pitvaros Pooled within-grous Log Determinants Log Rank Determinant The ranks and natural logarithms of determinants rinted are those of the grou covariance matrices. Általánosított variancia logaritmusa. Ha közel egyenlőek, akkor valószínűleg nincs nagy gond. Test Results Box's M F Arox. df df Sig Tests null hyothesis of equal oulation covariance matrices. Function Eigenvalues Canonical Eigenvalue % of Variance Cumulative % Correlation.866 a a a. First canonical discriminant functions were used in the analysis. A HE - mátrix s.é.-ei és a megfelelő variancia hányadok. A Canonical correlation egy asszociációs mérték a diszkriminancia szkórok és a csoortok között. Wilks' Lambda Test of Function(s) through Wilks' Lambda Chi-square df Sig

38 A Wilks Lambda a varianciából a csoortok különbözősége által nem magyarázott hányad. A szignifikancia szint a diszkriminancia fv. szignifikanciáját mutatja. Z Canonical Discriminant Function Coefficients Function teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir (Constant) Unstandardized coefficients = 0.07 testh marm szivs 0.08 veses ln_ ve Ezekkel a fv.ekkel tudunk szkórokat számolni minden esethez. Functions at Grou Centroids terület Árádhalom Babat Pitvaros Function Unstandardized canonical discriminant functions evaluated at grou means A fv értékek a csoort centroidok esetén. Standardized Canonical Discriminant Function Coefficients teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir Function

39 Az egyes változók fontosságát? mutatják az egyes diszkriminancia függvényekben. (Nagyon korrelált változók esetén nehéz interretálni.) szív súlya teljes hossz orrtól farok végéig ln_vesezsir jobb vese súlya marmagasság köröm végéig Structure Matrix Function.753*.503.7*.50.58* * * Pooled within-grous correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function A diszkriminancia függvények és az eredeti változók korrelációi. Az első függvény a szívsúllyal, a teljes hosszal és a vesezsírral korrelál, míg a másik a jobb vese súlyával és a marmagassággal. Classification Function Coefficients terület Árádhalom Babat Pitvaros teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir (Constant) Fisher's linear discriminant functions A Fisher féle fv-ek. Amelyik csoort esetén a legnagyobb az értéke, abba sorolja be. 6

40 Original Count % terület Árádhalom Babat Pitvaros Árádhalom Babat Pitvaros Classification Results a Predicted Grou Membershi a. 76.7% of original groued cases correctly classified. Árádhalom Babat Pitvaros Total Canonical Discriminant Functions 4 terület Árádhalom Babat Pitvaros Grou Centroid Function 0 Babat Pitvaros Árádhalom Function 6

41 63

42 Adatredukció (Ordináció) Főkomonens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van változónk: X, X,..., X és keressük ezeknek olyan Z, Z,..., Z kombinációit (főkomonensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik. ( Z ) ( Z )... ( Z ) σ σ σ Remény: a legtöbb főkomonens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomonenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed X X... X x x... x x x... x M n x n x n x n 64

43 A főkomonensek: Zi = aix + aix aix a + a a = i i i ( ) ( ) ( ) és σ Z σ Z... σ Z. A főkomonensek varianciái az adatok kovariancia mátrixának sajátértékei (λ i ), az együtthatói edig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c c c... c C =, M M M c c c akkor λ + λ λ = c + c c = σ ( X) + σ ( X ) σ ( X ) Céls zerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek. 65

44 Példa: Őzek: teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza ocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lé súlya jobb vese súlya recés gyomor súlya kaja nélkül Communalities Initial Extraction Extraction Method: Princial Comonent Analysis. Azt mutatja meg, hogy a főkomonensek mennyit magyaráznak az egyes változókból. Az Initial azt jelenti, hogy az összes főkomonens együtt mennyit magyaráz, az Extraction edig azt, hogy az extraktolt főkomonensek mennyit. (A főkomonensek (magyarázó változók) és a megfelelő változó többszörös korrelációs együtthatójának négyzete.) Total Variance Exlained Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums Comonent Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Extraction Method: Princial Comonent Analysis. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok. 66

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független

Részletesebben

Standardizálás, transzformációk

Standardizálás, transzformációk Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát,

Részletesebben

Hátrányok: A MANOVA elvégzésének lépései:

Hátrányok: A MANOVA elvégzésének lépései: MANOVA Tulajdonságok: Hasonló az ANOVÁ-hoz Több függő változó A függő változók korreláltak és a lineáris kombinációnak értelme van. Azt teszteli, hogy k populációban a függő változók egy lineáris kombinációjának

Részletesebben

Standardizálás, transzformációk

Standardizálás, transzformációk Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát,

Részletesebben

Diszkriminancia-analízis

Diszkriminancia-analízis Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz Diszkriminancia-analízis folyamata Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független

Részletesebben

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek Faktoranalízis 6.-7. előadás Kvantitatív statisztikai módszerek Faktoranalízis Olyan többváltozós statisztikai módszer, amely adattömörítésre, a változók számának csökkentésére, az adatstruktúra feltárására

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Fkt Faktoranalízis líi Olyan többváltozós statisztikai módszer, amely adattömörítésre, a változók számának csökkentésére, az adatstruktúra feltárására szolgál. A kiinduló változók számát úgynevezett faktorváltozókba

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102 Tárgy- és névmutató A a priori kontraszt 174 175 a priori kritérium 259, 264, 276 adatbevitel 43, 47, 49 52 adatbeviteli nézet (data view) 45 adat-elôkészítés 12, 37, 62 adatgyûjtés 12, 15, 19, 20, 23,

Részletesebben

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26

ANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26 ANOVA,MANOVA Márkus László 2013. március 30. Márkus László ANOVA,MANOVA 2013. március 30. 1 / 26 ANOVA / MANOVA One-Way ANOVA (Egyszeres ) Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük,

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis Factor Analysis Factor analysis is a multiple statistical method, which analyzes the correlation relation between data, and it is for data reduction, dimension reduction and to explore the structure. Aim

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

[Biomatematika 2] Orvosi biometria. Visegrády Balázs [Biomatematika 2] Orvosi biometria Visegrády Balázs 2016. 03. 27. Probléma: Klinikai vizsgálatban három különböző antiaritmiás gyógyszert (ß-blokkoló) alkalmaznak, hogy kipróbálják hatásukat a szívműködés

Részletesebben

Statisztikai szoftverek esszé

Statisztikai szoftverek esszé Statisztikai szoftverek esszé Dávid Nikolett Szeged 2011 1 1. Helyzetfelmérés Adott egy kölcsön.txt nevű adatfájl, amely információkkal rendelkezik az ügyfelek életkoráról, családi állapotáról, munkaviszonyáról,

Részletesebben

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben Faktoranalízis az SPSS-ben Kvantitatív statisztikai módszerek Petrovics Petra Feladat Megnyitás: faktor.sav Fogyasztók materialista vonásai (Richins-skála) Forrás: Sajtos-Mitev, 250.oldal Faktoranalízis

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Többváltozós lineáris regressziós modell feltételeinek tesztelése I. Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós

Részletesebben

Principal Component Analysis

Principal Component Analysis Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták

Részletesebben

Varianciaanalízis 4/24/12

Varianciaanalízis 4/24/12 1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása

Részletesebben

Faktoranalízis az SPSS-ben

Faktoranalízis az SPSS-ben Faktoranalízis az SPSS-ben = Adatredukciós módszer Petrovics Petra Doktorandusz Feladat Megnyitás: faktoradat_msc.sav Forrás: Sajtos-Mitev 250.oldal Fogyasztók materialista vonásai (Richins-skála) Faktoranalízis

Részletesebben

Többváltozós lineáris regressziós modell feltételeinek

Többváltozós lineáris regressziós modell feltételeinek Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

Hipotézis vizsgálatok

Hipotézis vizsgálatok Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével

Részletesebben

Bevezetés a Korreláció &

Bevezetés a Korreláció & Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi ismérv

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

A leíró statisztikák

A leíró statisztikák A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az

Részletesebben

Logisztikus regresszió

Logisztikus regresszió Logisztikus regresszió 9. előadás Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó () Nem metrikus Metrikus Kereszttábla

Részletesebben

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

(Independence, dependence, random variables)

(Independence, dependence, random variables) Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,

Részletesebben

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016 Gyakorlat 8 1xANOVA Dr. Nyéki Lajos 2016 A probléma leírása Azt vizsgáljuk, hogy milyen hatása van a család jövedelmének a tanulók szövegértés teszten elért tanulmányi eredményeire. A minta 59 iskola adatait

Részletesebben

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Biomatematika 13. Varianciaanaĺızis (ANOVA) Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:

Részletesebben

Többváltozós Regresszió-számítás

Többváltozós Regresszió-számítás Töváltozós Regresszió-számítás 3. előadás Döntéselőkészítés módszertana Dr. Szilágyi Roland Korreláció Célja a kacsolat szorosságának mérése. Regresszió Célja a kacsolatan megfigyelhető törvényszerűség

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Egyszempontos variancia analízis. Statisztika I., 5. alkalom Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket

Részletesebben

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris

Részletesebben

Többváltozós lineáris regresszió 3.

Többváltozós lineáris regresszió 3. Többváltozós lineáris regresszió 3. Orlovits Zsanett 2018. október 10. Alapok Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások,

Részletesebben

Heckman modell. Szelekciós modellek alkalmazásai.

Heckman modell. Szelekciós modellek alkalmazásai. Heckman modell. Szelekciós modellek alkalmazásai. Mikroökonometria, 12. hét Bíró Anikó A tananyag a Gazdasági Versenyhivatal Versenykultúra Központja és a Tudás-Ökonómia Alapítvány támogatásával készült

Részletesebben

Logisztikus regresszió

Logisztikus regresszió Logisztikus regresszió Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó (x) Nem metrikus Metrikus Kereszttábla elemzés

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az

Részletesebben

Kettőnél több csoport vizsgálata. Makara B. Gábor

Kettőnél több csoport vizsgálata. Makara B. Gábor Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10

Részletesebben

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

Klaszterezés, 2. rész

Klaszterezés, 2. rész Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

c adatpontok és az ismeretlen pont közötti kovariancia vektora

c adatpontok és az ismeretlen pont közötti kovariancia vektora 1. MELLÉKLET: Alkalmazott jelölések A mintaterület kiterjedése, területe c adatpontok és az ismeretlen pont közötti kovariancia vektora C(0) reziduális komponens varianciája C R (h) C R Cov{} d( u, X )

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs

Részletesebben

Több valószínűségi változó együttes eloszlása, korreláció

Több valószínűségi változó együttes eloszlása, korreláció Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...

Részletesebben

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,

Részletesebben

Főkomponens és Faktor analízis

Főkomponens és Faktor analízis Főkomponens és Faktor analízis Márkus László 2017. december 5. Márkus László Főkomponens és Faktor analízis 2017. december 5. 1 / 35 Bevezetés - Főkomponens és Faktoranalízis A főkomponens és faktor analízis

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre

Részletesebben

KISTERV2_ANOVA_

KISTERV2_ANOVA_ Két faktor szerinti ANOVA Az A faktor minden szintjét kombináljuk a B faktor minden szintjével, minden cellában azonos számú ismétlés (kiegyensúlyozott terv). A terv szerkezete miatt a faktorok hatását

Részletesebben

Főkomponens és Faktor analízis

Főkomponens és Faktor analízis Főkomponens és Faktor analízis Márkus László 2014. december 4. Márkus László Főkomponens és Faktor analízis 2014. december 4. 1 / 34 Bevezetés - Főkomponens és Faktoranalízis A főkomponens és faktor analízis

Részletesebben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő

Részletesebben

2012. április 18. Varianciaanaĺızis

2012. április 18. Varianciaanaĺızis 2012. április 18. Varianciaanaĺızis Varianciaanaĺızis (analysis of variance, ANOVA) Ismételt méréses ANOVA Kérdések: (1) van-e különbség a csoportok között (t-próba általánosítása), (2) van-e hatása a

Részletesebben

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.

y ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti. Elmélet let BIOMETRIA 7. Előad adás Variancia-anal Lineáris modellek A magyarázat a függf ggő változó teljes heterogenitásának nak két k t részre r bontását t jelenti. A teljes heterogenitás s egyik része

Részletesebben

Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41 Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41 Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt

Részletesebben

Korreláció számítás az SPSSben

Korreláció számítás az SPSSben Korreláció számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi

Részletesebben

Regresszió számítás az SPSSben

Regresszió számítás az SPSSben Regresszió számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Lineáris regressziós modell X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól

Részletesebben

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk? Feladatok: pontdiagram és dobozdiagram Hogyan csináltuk? Alakmutatók: ferdeség, csúcsosság Alakmutatók a ferdeség és csúcsosság mérésére Ez eloszlás centrumát (középérték) és az adatok centrum körüli terpeszkedését

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 7. Előadás Egyenletes eloszlás Binomiális eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell /56 Matematikai statisztika Reprezentatív mintavétel

Részletesebben

BIOMETRIA_ANOVA_2 1 1

BIOMETRIA_ANOVA_2 1 1 Két faktor szerinti ANOVA Az A faktor minden szintjét kombináljuk a B faktor minden szintjével, minden cellában azonos számú ismétlés (kiegyensúlyozott terv). A terv szerkezete miatt a faktorok hatását

Részletesebben

: az i -ik esélyhányados, i = 2, 3,..I

: az i -ik esélyhányados, i = 2, 3,..I Kabos: Adatelemzés Ordinális logisztikus regresszió-1 Többtényezős regresszió (az adatelemzésben): Y közelítése b 1 X 1 + b 2 X 2 +... + b J X J alakban, y n = b 1 x n,1 + b 2 x n,2 +... + b J x n,j +

Részletesebben

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet

Nagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet Többváltozós statisztika Szegedi Tudományegyetem, Bolyai Intézet Többváltozós módszerek Ezek a módszerek több változó együttes vizsgálatára vonatkoznak. Alapvető típusaik: többdimenziós eloszlásokra vonatkozó

Részletesebben

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat

STATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése

Részletesebben

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,

Részletesebben

Biostatisztika VIII. Mátyus László. 19 October

Biostatisztika VIII. Mátyus László. 19 October Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr. Bácsatyai László Matematikai geodéziai számítások 6. MGS6 modul Lineáris regresszió számítás elektronikus távmérőkre SZÉKESFEHÉRVÁR 2010 Jelen szellemi

Részletesebben

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

Khi-négyzet eloszlás. Statisztika II., 3. alkalom Khi-négyzet eloszlás Statisztika II., 3. alkalom A khi négyzet eloszlást (Pearson) leggyakrabban kategorikus adatok elemzésére használjuk. N darab standard normális eloszlású változó négyzetes összegeként

Részletesebben

Esetelemzések az SPSS használatával

Esetelemzések az SPSS használatával Esetelemzések az SPSS használatával 1. Tekintsük az spearman.sav állományt, amely egy harminc tehenet számláló állomány etetés- és fejéskori nyugtalansági sorrendjét tartalmazza. Vizsgáljuk meg, hogy van-e

Részletesebben

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet Kettőnél több csoport vizsgálata Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet Gyógytápszerek (kilokalória/adag) Három gyógytápszer A B C 30 5 00 10 05 08 40 45 03 50 35 190 Kérdések: 1. Van-e

Részletesebben

A többváltozós lineáris regresszió III. Főkomponens-analízis

A többváltozós lineáris regresszió III. Főkomponens-analízis A többváltozós lineáris regresszió III. 6-7. előadás Nominális változók a lineáris modellben 2017. október 10-17. 6-7. előadás A többváltozós lineáris regresszió III., Alapok Többváltozós lineáris regresszió

Részletesebben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1 Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában

Részletesebben

Least Squares becslés

Least Squares becslés Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás

Részletesebben

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek

Részletesebben

Módszertani hozzájárulás a Szegénység

Módszertani hozzájárulás a Szegénység Módszertani hozzájárulás a Szegénység Többváltozós Statisztikai Méréséhez MTA doktori értekezés főbb eredményei Hajdu ottó BCE KTK Statisztika Tanszék BME GTK Pénzügyek Tanszék Hajdu Ottó 1 Egyváltozós

Részletesebben

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik) 5.4: 3 különböző talpat hasonlítunk egymáshoz Varianciaanalízis. hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik) hipotézis: Létezik olyan μi, amely nem egyenlő a többivel (Van

Részletesebben

Vektorterek. =a gyakorlatokon megoldásra ajánlott

Vektorterek. =a gyakorlatokon megoldásra ajánlott Vektorterek =a gyakorlatokon megoldásra ajánlott 40. Alteret alkotnak-e a valós R 5 vektortérben a megadott részhalmazok? Ha igen, akkor hány dimenziósak? (a) L = { (x 1, x 2, x 3, x 4, x 5 ) x 1 = x 5,

Részletesebben

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2

Feltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2 Kabos: Ordinális változók Hipotézisvizsgálat-1 Minta: X 1, X 2,..., X N EVM (=egyszerű véletlen minta) X-re Feltesszük, hogy a mintaelemek között nincs két azonos. Rendezett minta: X (1), X (2),..., X

Részletesebben

Esetelemzés az SPSS használatával

Esetelemzés az SPSS használatával Esetelemzés az SPSS használatával A gepj.sav fileban négy különböző típusú, összesen 80 db gépkocsi üzemanyag fogyasztási adatai találhatók. Vizsgálja meg, hogy befolyásolja-e az üzemanyag fogyasztás mértékét

Részletesebben

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft

Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft Gyak1: b) Mo = 1857,143 eft A kocsma tipikus (leggyakoribb) havi bevétele 1.857.143 Ft. c) Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft Gyak2: b) X átlag = 35 Mo = 33,33 σ = 11,2909 A = 0,16 Az

Részletesebben

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka

Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka Geokémia gyakorlat 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek Geológus szakirány (BSc) Dr. Lukács Réka MTA-ELTE Vulkanológiai Kutatócsoport e-mail: reka.harangi@gmail.com ALAPFOGALMAK:

Részletesebben

Correlation & Linear Regression in SPSS

Correlation & Linear Regression in SPSS Petra Petrovics Correlation & Linear Regression in SPSS 4 th seminar Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Correlation

Részletesebben

A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel

A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel Kovács Máté PhD hallgató (komoaek.pte) Pécsi Tudományegyetem Közgazdaságtudományi

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H

Részletesebben

A maximum likelihood becslésről

A maximum likelihood becslésről A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának

Részletesebben

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) 2012. szeptember 19.

Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) 2012. szeptember 19. Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) 2012. szeptember 19. Varianciaanaĺızis Adott egy parametrikus függő változó és egy vagy több kategoriális független változó.

Részletesebben

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála

LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála a független változó: névleges vagy sorrendi vagy folytonos skála BIOMETRIA2_NEMPARAMÉTERES_5 1 Y: visszafizeti-e a hitelt x: fizetés (életkor)

Részletesebben

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P

Fogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése

Részletesebben

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi

Részletesebben