Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).
|
|
- Borbála Nagyné
- 8 évvel ezelőtt
- Látták:
Átírás
1 Többváltozós roblémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független változó, vagy több függő és független változó (vektor változók). l. 889 február.-én Rhode Island-en egy nagyvihar után 49 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb a fele elusztult, és Hermon Bumus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárnytávolság, csőr és fej hossz, felkar hossz, mellcsont hossza. Ezek a változók most egy vektorváltozót alkotnak. Eloszlás: általában többváltozós normális. Közéontja: centroid, várható érték vektor. Várható érték: μ x μ x μ= és ennek becslése a mintából: x = M M μ x 3
2 A szórás helyett kovariancia mátrix : cov(x,y)= μ{(x-μ(x))(y-μ(y))} Ha X=Y, akkor a kovariancia a változó varianciája. cov σ cov, X = M cov, ( ) ( X) ( X X) ( X X ) σ ( X ) cov,... ( X X ) σ ( X ) n n-ed rendű mátrix, szimmetrikus, és nincs negatív sajátértéke. A korrelációs mátrix, ha: n. R(X,Y) = μ{(x-μ(x))(y-μ(y))}/{σ(x)σ(y)}, RX R( X ) = M RXn A verebek esetén: teljes hossz (, X) (, X) szarnytavolsag csor es fej hossz felkar hossz mellcsont hossza ( X) RX,... Mean Variance
3 > var(vereb[,:6]) X X X3 X4 X5 X X X X X > cor(vereb[,:6]) X X X3 X4 X5 X X X X X Ha csoortokat alkotnak a megfigyelési egységek, akkor itt is lehet csoortok közötti (between grous) és csoortokon belüli kovariancia mátrixokról beszélni. A módszereknél általában feltétel a csoortokon belüli kovariancia mátrixok egyezősége. 5
4 Többváltozós roblémák. Verebek a viharban TULEL Grou Total nem elte tul a vihart tulelte a vihart Count Maximum Mean Median Minimum Std Deviation Count Maximum Mean Median Minimum Std Deviation Variance Count Maximum Mean Median Minimum Std Deviation Variance teljes csor es fej felkar mellcsont hossz szarnytavolsag hossz hossz hossza Variance Milyen kérdéseket lehet feltenni? Milyen kacsolatban vannak egymással a mért változók? Túlélők, nem túlélők átlagai, szórásai különböznek-e? (Variancia-analízis, F-róba, Levene róba) Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szemontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoortot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index. 6
5 . Egyitomi koonyák Thébából származó férfi koonyák 5 korszakból. Mindegyikből darab.. Korai redinasztikus kor (4000 ie). Késő redinasztikus kor (3300 ie) dinasztia (850 ie) 4. Ptolemaioszi kor (00 ie) 5. Római kor (50 iu) Milyen kacsolatban van a 4 mért érték egymással? Van-e szignifikáns differencia a mintaátlagok illetve szórások között, és ha igen, akkor ez tükrözi-e fokozatos időbeli változást? Lehetséges-e konstruálni egy f függvényét a 4 változónak, amely valamilyen értelemben visszatükrözi a minták közti különbségeket? 7
6 DINASZT.00 Count X X X3 X Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance Count Maximum Mean Minimum Std Err of Mean Std Deviation Variance
7 Alavető technika: eredeti változók olyan lineáris kombinációját létrehozni, ami összegzi az eredeti adathalmaz varianciáját. Az eredeti adatok: Objektum X X... X x x... x x x... x M n x n x n x n Zi = aix + aix aix Az ilyen függvényeket szokták diszkriminancia függvényeknek, főkomonenseknek, kanonikus függvényeknek, faktoroknak nevezni. analógia: regressziós függvény Időnként még egy lusz konstans is van benne, ekkor: Z = a + a X + a X a i i0 i i i X (Megj: ha az adatok standardizáltak, akkor a konstans 0.) A látens (extracted) változók általános tulajdonságai: az első magyarázza a variancia legnagyobb részét, a második a maradékból a legnagyobb részt, stb.; nem korreláltak, merőlegesek-függetlenek számuk = (a régi változók száma) megj.: csak néhányat tartunk meg belőlük. 9
8 Sajátértékek, sajátvektorok Eredeti össz variancia: S(cov(X))= λ. Ha a változók standardizáltak, akkor i= i λ =. i= Sajátvektorok: új változók együtthatói, az a ij -k. > eigen(cor(vereb[,:6])) $values [] $vectors [,] [,] [,3] [,4] [,5] [,] [,] [3,] [4,] [5,] Hogy lehet a sajátértékeket sajátvektorokat kiszámítani?. Asszociációs mátrix s.é.-ei, s.v.-ai: sektrál felbontás. Az eredeti vagy a standardizált adatmátrix szinguláris érték felbontásával. (Kontingencia táblákra is működik.) R-mode analízis: a változók cov vagy R mátrixából indulunk ki. szkór (score): új változókból számítjuk ki a megfigyelési egységekre. Q-mode analízis: a megfigyelési egységek cov vagy R mátrixából indulunk ki, az objektumok lin. komb.-jait kajuk. i 30
9 (mátrix algebrával összekacsolhatók) A Q-mode analízis különbségi mértékeken alaul (dissimilarity measures) s.é., s.v. számítás: kanonikus korreláció analízis, főkomonens analízis és korresondencia analízis Ha az objektumok csoortokat alkotnak, akkor úgy lehet kiszámítani a komonenseket, hogy azok a csoortok közötti különbségeket a leginkább kihangsúlyozzák: MANOVA, diszkriminancia elemzés. 3
10 Többváltozós exloratív elemzés Többváltozós grafikonok Szokásos egyváltozósak. Chernoff arcok, csillagok 3
11 >stars(vereb[,:6]) Szórásdiagram mátrix. >airs(vereb[,:6]) 33
12 Szórás diagram az új, látens változókkal. Kétváltozós boxlot 34
13 35
14 Töbváltozós távolságok, hasonlóságok Hasonlósági mértékek (similarity measures): mennyire hasonlóak az objektumok: korreláció Különbözőségi mértékek (dissimilarity measures): többváltozós távolság. Többváltozós roblémák - egyedi megfigyelések, minták, illetve oulációk közötti távolságok. Egyedi megfigyelések közti távolságok: Legegyszerűbb eset: n egyeden változót X, X,..., X mérünk. Az i-edik egyed mért értékei: xi, xi,..., xi, a j-ediké: xj, xj,..., xj. Ha =, akkor a két ont távolságát a Pitagorasz tétel alaján számíthatjuk: dij = ( xi xj) + ( xi xj) Több változó esetére is működik: ( ) d = x x ij ik jk k= Euklideszi távolság. Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot. Standardizálás.. 36
15 l. Thaiföldi rehisztorikus kutyák kb ie 3500-ból származó kutyacsontokat találtak. Nem világos, hogy honnan származtatható a rehisztorikus kutya, az arany sakáltól (Canis aureus), vagy a farkastól. Az eredet kiderítése végett méréseket végeztek az alsó állkaocs csontokon, illetve más fajták állkacsán. A mért változók: X - az állkaocs szélessége, X - az állkaocs magassága az első záfog alatt, X 3 - az első záfog hossza, X 4 - az első záfog szélessége, X 5 - az első és harmadik záfog közötti távolság (beleértve a záfogakat is), X 6 - az első és negyedik záfog közötti távolság (beleértve a záfogakat is). A mérések átlagai: X X X 3 X 4 X 5 X 6 Modern kutya Arany sakál Kínai farkas Indiai farkas Kujon Dingó Prehisztorikus kutya Forrás: Higham et al. (980). 37
16 A standardizált értékek X X X 3 X 4 X 5 X 6 Modern kutya Arany sakál Kínai farkas Indiai farkas Kujon Dingó Prehisztorikus kutya :Modern kutya :Arany sakal 3:Kinai kutya 4:Indiai kutya 5:Kujon 6:Dingo 7:Prehisztorikus kutya This is a dissimilarity matrix Proximity Matrix Euclidean Distance :Modern :Arany 3:Kinai 4:Indiai 7:Prehisztorikus kutya sakal kutya kutya 5:Kujon 6:Dingo kutya Ez is négyzetes mátrix, szimmetrikus és 0-ák vannak az átlóban. City-block (Manhattan) távolság: d ij = k= x ik x jk. Hasonló eredményt ad az előzőhöz, de nem olyan érzékeny az outlierekre. Csebisev (Chebychev) távolság: 38
17 Ha csak dimenzióban nézzük a különbséget. d ij = max x k ik x jk Hatvány (Power, Costumized) távolság:ha a növelni vagy csökkenteni akarjuk azoknak a dimenzióknak a súlyát, amelyek esetén különböznek az objektumok: d Az n és r értékét mi választhatjuk meg. ij = k= Az n az egyedi dimenziók közötti távolságokat súlyozza, az r edig az egyes megfigyelt egyedek közöttieket. Ha n = r, akkor Minkowsky távolságnak nevezzük. Bray-Curtis (Kulczynski): faj abudancia adatok esetén használatos. Gyakorisági értékek esetén: Chi-négyzet (Chi-square). A szokásos módon számolt χ -érték. Phi-négyzet (Phi-square) Az előző normalizálva. Jaccard e.h.: bináris skálán mért (rezencia, abszencia) adatokra. a a + b + c a azoknak a változóknak a száma, amelyek esetén egyik objektum értéke sem 0 b ahol az egyik 0, c ahol a másik 0. x ik y jk n r. 39
18 Gower e.h.: lehetnek folytonos és kategoriális változók is. Dissim. mértékek tulajdonságai: metrikusság: háromszög készíthető a 3 ont áronkénti távolságaiból. Általában ilyenek, Bray-Curtis nem. MDA-nál lényeges tulajdonság. 40
19 Mikor melyiket használjuk? Ha a változók hasonló skálán mértek és nincs 0 értékük, akkor Euklideszi, City-block. Ha nem hasonló a skála, akkor először standardizálni kell! Fajok abundanciája esetén olyan kell, amely maximális akkor, ha nincs közös faj a két mintavételi egységen: Bray-Curtis, Kulczynski jó. Távolsági mátrixok összehasonlítása Mantel-teszt l.: genetikus távolságok - földrajzi, időbeli távolságok. Távolságok oulációk és minták között Mahalanobis távolság: v rs D ij ri rj r= s= rs ( ) v ( si sj ) = μ μ μ μ, ahol a kovariancia mátrix inverzének az r-edik sorában és s- edik oszloában álló eleme. Máské: = μ μ C μ μj kvadratikus alak, ahol ( ) ( ) D ij i j i 4
20 μi μ i μi =, az i-edik ouláció várható érték vektora. C a M μ i kovariancia mátrix. Használható egy egyednek a ouláció közéontjától mért távolságának mérésére is: rs ( ) ( ) Dij = xr μr v xs μ s, r= s= ahol az egyeden mért értékek: x, x,..., x és a megfelelő ouláció átlagok: μ, μ,..., μ. Úgy tekinthető, mint az x megfigyelés többváltozós reziduuma, azaz, hogy milyen messze van x az összes változó eloszlásának közéontjától. Figyelembe veszi a változók közti korrelációt is. Ha a ouláció többváltozós normális eloszlást követ, akkor χ eloszlású szabadsági fokkal. Ha D értéke szignifikánsan nagy (P<0.00), akkor a megfigyelésünk vagy hibás, vagy egy extremális megfigyelés. A ouláció átlagokat és a kovariancia mátrixot a mintából becsülhetjük. D 4
21 l. Az egyitomi koonya minták közötti távolságok: Covarian Correlati X X X3 X4 X X X3 X4 Pooled Within-Grous a. The covariance matrix has 45 degrees X X X3 X E E E E a Grou Statistics DINASZT Total X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 X X X3 X4 Std. Valid N (listwise) Mean Deviation Unweighted Weighted A Mahalanobis távolságok: 43
22 Dinasztia megj: Az ún. Mantel teszttel lehet mérni két távolság mátrix hasonlóságát. Ebben az esetben éldául azt, hogy a dinasztiák távolságainak mátrixa korrelál-e az időbeli távolságok mátrixával. (igen) 44
23 Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Sektrál felbontás esetén tulajdonkéen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : rezencia, abszenciától mi függ. Asszociációs mértékek imlicit módon standardizáltak. 45
24 Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szemontból. 46
25 Hiányzó adatok MCAR-missing comletely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoorttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés listwise deletion esetén. Ha az analízis áronkénti (airwise) asszociációkon alaul (kovariancia, korreláció), akkor airwise deletion. Csak akkor töröljük, ha éen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imutáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, l. a legjobban korrelált változót vagy változókat választjuk rediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli. 47
26 Maximum likelihood (ML) és EM becslés ML : araméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imutáció + ML : Exectation Maximization ML araméter becslés hiányzó adatok ML araméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR. 48
27 Többváltozós adatelemzés SPSS-sel Előkészületek: Adatok megjelenítése: SPSS Grahics SPSS Frequency Hiányzó adatok elemzése (Missing data analysis) : Ellenőrizzük, hogy létezik-e mintázat (randomnak kell lennie) Kategoriális változó esetén: Ha Missing < 5%, List-wise otion Ha >=5%, akkor a hiányzó értékek kerüljenek egy új kategóriába Mért változó esetén: Ha Missing < 5%, List-wise otion 5% és 5% között : Transform>Relace Missing Value. (5%-nál kevesebb adat behelyettesítésének nincs túl komoly hatása Ha > 5%, akkor töröljük a változót, vagy a megfigyelési egységet (ismételt mérések esetén) Kiugró értékek ellenőrzése (Outlier-ek) : (Általában a statisztikai eljárások érzékenyek az outlier-ekre.) 49
28 Egyváltozós eset: boxlot Többváltozós eset: Mahalanobis távolság (Khi-négyzet statisztika), egy ont akkor outlier, ha a -érték <.00. o Az eset azonosítója (dummy variable) : Deendent, a többi változó: Indeendent o Save>Mahalanobis Kezelés: Töröljük az esetet Közöljünk két elemzést (egyet az outlier-rel, egyet edig nélküle) Normalitás: Egyváltozós normalitás tesztek: Q-Q lot Skewness és Kurtosis Tesztek Többváltozós normalitás tesztelése: A szórásdiagrammoknak ellitikusaknak kell lennie Minden változónak normálisnak kell lennie Linearitás: A linearitás ellenőrzése Reziduális lot regresszió esetén Szórásdiagrammok 50
29 Homoscedasticity: a kovariancia mátrixoknak a csoortokban meg kell egyeznie: Tesztelése: Box s M test Érzékeny a normalitásra Levene teszt: a csoort varianciák egyezőségének vizsgálata. Nem annyira érzékeny a normalitásra 5
30 Emlékeztető: ANOVA Az egyfaktoros ANOVA a o. átlagok egyezőségét teszteli Feltételek: független megfigyelések; normalitás; varianciák homogenitása Két faktoros ANOVA 3 hiotézis teszttel szimultán: Interakció a két faktor között A két faktor hatásának tesztelése Emlékeztető: ANCOVA A függő változó értéke folytonos független változótól (kovariáns) is függhet. Kovariánsok hatásának figyelembe vétele illetve becslése. A reguláris ANOVA feltételein túl követelmény még: Lineáris kacsolat a függő változó és a kovariánsok között MANOVA Tulajdonságok: Hasonló az ANOVÁ-hoz Több függő változó A függő változók korreláltak és a lineáris kombinációnak értelme van. Azt teszteli, hogy k oulációban a független változók egy lineáris kombinációjának átlagai különböznek-e. Alaötlet: találjunk egy olyan lineáris kombinációt, amely otimálisan szearálja a csoortokat, azaz olyat amely 5
31 maximalizálja a hiba (within grou) variancia/kovariancia mátrix és a hatás (between grou) variancia/kovariancia mátrix hányadosát. (Ez ugyanaz, mint amit a diszkriminancia elemzésnél használunk.) Ennek a kombinációnak a standardizált együtthatói megmondják, hogy melyik változó milyen súllyal szereel a szearálásban. Előnyök: Annak az esélye, hogy különbségeket találunk a csoortok között, nagyobb, ahhoz kéest, mintha minden változóra egyenként ANOVÁ-t csinálnánk. Nem inflálódik az elsőfajú hiba. Több ANOVA elvégzése nem veszi figyelembe azt, hogy a független változók korreláltak. Hátrányok: Bonyolultabb, Az ANOVA gyakran nagyobb hatóerejű. Sokkal komlikáltabb kísérleti elrendezést igényel. Kétségek merülhetnek fel, hogy valójában mely független változók mely függő változók értékét befolyásolják. Minden lusz függő változó szabadsági fokkal kevesebbet jelent. Feltételek: Független minták, Többváltozós normális eloszlás a csortokban A kovariancia mátrix homogenitása 53
32 Lineáris kacsolat a független változók között A MANOVA elvégzésének léései: Feltételek ellenőrzése Ha a MANOVA nem szignifikáns, sto Ha a MANOVA szignifikáns, egyváltozós ANOVÁk Ha az egyváltozós ANOVA szignifikáns, Post Hoc tesztek. Ha igaz a homoscedasticity, Wilks Lambda, ha nem Pillai s Trace. Általában mind a 4 statisztikának hasonlónak kell lennie. A MANOVA algoritmusa:. Az ANOVA négyzetösszegei helyett sums-of-squares-andcross-roducts (SSCP) mátrixok. Egy a hatásnak (between grous) megfelelő (H), egy edig a reziduális (within grous): E, és egy a teljesnek megfelelő (T).. Kiszámítjuk a HE - szorzatot (egyváltozós esetben ez az F érték). 3. Kiszámítjuk a HE - sektrál felbontását: sajátértékek, sajátvektorok. A s.é.-kek azt mutatják meg, hogy betweengrou varianciából a sajátvektorok vagy lineáris kombinációk mennyit magyaráznak. A s.v.-ok tartalmazzák a lineáris kombinációk együtthatóit. 4. Az a lineáris kombináció, amelyikhez a legnagyobb s.é. tartozik maximalizálja a between-grou/within-grou variancia hányadost. H 0 : a csoort centroidok megegyeznek. 54
33 Ez tesztelhető valamelyik variancia mérték segítségével (nyom, determináns:általánosított variancia). Wilk s lambda: E / T. A teljes variancia hányad része a reziduális. Minél kisebb, annál nagyobb a csoortok köztötti különbségek. Hotelling-Lawley trace: H / E. Ez ugyanaz, mint a HE - mátrix nyoma (sajátértékek összege). Nagyobb értékek nagyobb különbségeket indikálnak a csoort centroidok között. Pillai trace: A HT - nyoma, vagyis a between grous variancia. Roy s largest root: a HE - legnagyobb s.é.-e, vagyis ahhoz a lineáris kombinációhoz tartozó s.é. amely a between grous variancia-kovarianca legnagyobb részét magyarázza. Ezeknek a statisztikáknak az eloszlása nem teljesen ismert, közelítő F értékekké konvertálják ezeket. Két csoort esetén a Wilk s lambda, a Hotteling és Pillai féle érték megegyezik és megegyezik a Hotteling féle T statisztikával, ami a t-róba többváltozós kiterjesztése. Általában hasonló eredményeket rodukálnak több csoort esetén is. A Pillai trace a legrobosztusabb teszt. 55
34 MANCOVA Cél: Csoortok közötti különbség tesztelése független változók egy lineáris kombinációja alaján egy kovariáns figyelembe vételével. Példa: 3 területen élő őzek összehasonlítása a kor kovariáns figyelembe vételével. Reeated Measure Analysis Cél: csoortok közötti különbségek tesztelése, ha a megfigyelési egységeken többször mérünk. Feltétel: Független megfigyelések!! Helyette: Kevert modell 56
35 Diszkriminancia analízis Cél: egy olyan függvény létrehozása, amely alaján az egyedek két vagy több csoortba sorolhatók (a függvény értéke lényegesen változik csoortról csoortra). Később a függvényt új egyedek besorolására lehessen használni. l. verebek. A testméretek alaján besorolhatók-e a verebek a túlélők ill. nem túlélők közé (Mire emlékeztet ez a kérdés?!!): Lineáris diszkriminancia függvény: Z = ax + ax a X Ha Z értéke jelentősen változik csoortról csoortra, akkor a csoortok jól szearálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoortokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. A MANOVA inverze. A MANOVA ugyanezt a függvényt használja. Kétféle cél:. Prediktív diszkriminancia analízis (generáljunk egy szabályt, amely alaján csoortokba sorolhatunk).. Leíró analízis: a függő változó és a független változók kacsolatát vizsgáljuk. Hogyan működik?. Feltételezzük, hogy a célouláció egymást kizáró rész oulációkból áll.. Feltételezzük, hogy a független változóink többváltozós normális elsozlást követnek 57
36 3. Megkeressük azt a lineáris kombinációt, amely a legjobban szearálja a csoortokat. 4. Ha k csoortunk van, akkor k- diszkriminancia függvényt készítünk. 5. Minden függvényre kiszámítjuk a diszkriminancia szkórokat. 6. Ezeket a szkórokat használjuk a klasszifikáláshoz. Klasszifikálási módok: ML ahhoz a csoorthoz sorolja be, amelynek legnagyobb a valószínűsége. Fisher (lineáris) klasszifikáló függvény: abba a csoortba sorolja be, amely esetén a csoorthoz tartozó függvény szkórja a legnagyobb. Diszkriminálás Mahalanobis távolságokkal: Kiszámítjuk az egyedek Mahalanobis távolságát a csoort centroidoktól, és abba soroljuk be, amelyhez a legközelebb van. Megjegyzés: az SPSS a Maximum likelihood módszert használja. Logisztikus regresszió vagy diszkriminancia analízis? Ha a magyarázó változók normális eloszlásúak, akkor a DA jobb. Ha kategoriális változóink is vannak, akkor a DA akkor rosszabb, ha a kategóriák száma nagyon kicsi (, 3). Ezekben az esetekben a LR eredménye hasonló a DA-éhoz, legfeljebb egy kicsit rosszabb (ha a mintaelemszám aránylag kicsi). Ha a DA feltételei nem teljesülnek, mindenkéen a LR-t kell használni. Az LR nem eloszlás függő. 58
37 Őzes élda oututja: terület Árádhalom Babat Pitvaros Pooled within-grous Log Determinants Log Rank Determinant The ranks and natural logarithms of determinants rinted are those of the grou covariance matrices. Általánosított variancia logaritmusa. Ha közel egyenlőek, akkor valószínűleg nincs nagy gond. Test Results Box's M F Arox. df df Sig Tests null hyothesis of equal oulation covariance matrices. Function Eigenvalues Canonical Eigenvalue % of Variance Cumulative % Correlation.866 a a a. First canonical discriminant functions were used in the analysis. A HE - mátrix s.é.-ei és a megfelelő variancia hányadok. A Canonical correlation egy asszociációs mérték a diszkriminancia szkórok és a csoortok között. Wilks' Lambda Test of Function(s) through Wilks' Lambda Chi-square df Sig
38 A Wilks Lambda a varianciából a csoortok különbözősége által nem magyarázott hányad. A szignifikancia szint a diszkriminancia fv. szignifikanciáját mutatja. Z Canonical Discriminant Function Coefficients Function teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir (Constant) Unstandardized coefficients = 0.07 testh marm szivs 0.08 veses ln_ ve Ezekkel a fv.ekkel tudunk szkórokat számolni minden esethez. Functions at Grou Centroids terület Árádhalom Babat Pitvaros Function Unstandardized canonical discriminant functions evaluated at grou means A fv értékek a csoort centroidok esetén. Standardized Canonical Discriminant Function Coefficients teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir Function
39 Az egyes változók fontosságát? mutatják az egyes diszkriminancia függvényekben. (Nagyon korrelált változók esetén nehéz interretálni.) szív súlya teljes hossz orrtól farok végéig ln_vesezsir jobb vese súlya marmagasság köröm végéig Structure Matrix Function.753*.503.7*.50.58* * * Pooled within-grous correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function A diszkriminancia függvények és az eredeti változók korrelációi. Az első függvény a szívsúllyal, a teljes hosszal és a vesezsírral korrelál, míg a másik a jobb vese súlyával és a marmagassággal. Classification Function Coefficients terület Árádhalom Babat Pitvaros teljes hossz orrtól farok végéig marmagasság köröm végéig szív súlya jobb vese súlya ln_vesezsir (Constant) Fisher's linear discriminant functions A Fisher féle fv-ek. Amelyik csoort esetén a legnagyobb az értéke, abba sorolja be. 6
40 Original Count % terület Árádhalom Babat Pitvaros Árádhalom Babat Pitvaros Classification Results a Predicted Grou Membershi a. 76.7% of original groued cases correctly classified. Árádhalom Babat Pitvaros Total Canonical Discriminant Functions 4 terület Árádhalom Babat Pitvaros Grou Centroid Function 0 Babat Pitvaros Árádhalom Function 6
41 63
42 Adatredukció (Ordináció) Főkomonens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van változónk: X, X,..., X és keressük ezeknek olyan Z, Z,..., Z kombinációit (főkomonensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik. ( Z ) ( Z )... ( Z ) σ σ σ Remény: a legtöbb főkomonens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomonenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed X X... X x x... x x x... x M n x n x n x n 64
43 A főkomonensek: Zi = aix + aix aix a + a a = i i i ( ) ( ) ( ) és σ Z σ Z... σ Z. A főkomonensek varianciái az adatok kovariancia mátrixának sajátértékei (λ i ), az együtthatói edig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c c c... c C =, M M M c c c akkor λ + λ λ = c + c c = σ ( X) + σ ( X ) σ ( X ) Céls zerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek. 65
44 Példa: Őzek: teljes súly teljes hossz orrtól farok végéig marmagasság köröm végéig törzs hossza ocak körkörös mérete hátsó láb hossza körömtől gerincig szív súlya lé súlya jobb vese súlya recés gyomor súlya kaja nélkül Communalities Initial Extraction Extraction Method: Princial Comonent Analysis. Azt mutatja meg, hogy a főkomonensek mennyit magyaráznak az egyes változókból. Az Initial azt jelenti, hogy az összes főkomonens együtt mennyit magyaráz, az Extraction edig azt, hogy az extraktolt főkomonensek mennyit. (A főkomonensek (magyarázó változók) és a megfelelő változó többszörös korrelációs együtthatójának négyzete.) Total Variance Exlained Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums Comonent Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Extraction Method: Princial Comonent Analysis. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok. 66
Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).
Többváltozós problémák Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok). Volt: Több magyarázó változó: többszörös regresszió, több faktoros ANOVA, ANCOVA. Most: több független
RészletesebbenStandardizálás, transzformációk
Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát,
RészletesebbenHátrányok: A MANOVA elvégzésének lépései:
MANOVA Tulajdonságok: Hasonló az ANOVÁ-hoz Több függő változó A függő változók korreláltak és a lineáris kombinációnak értelme van. Azt teszteli, hogy k populációban a függő változók egy lineáris kombinációjának
RészletesebbenStandardizálás, transzformációk
Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát,
RészletesebbenDiszkriminancia-analízis
Diszkriminancia-analízis az SPSS-ben Petrovics Petra Doktorandusz Diszkriminancia-analízis folyamata Feladat Megnyitás: Employee_data.sav Milyen tényezőktől függ a dolgozók beosztása? Nem metrikus Független
RészletesebbenGazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek
Faktoranalízis 6.-7. előadás Kvantitatív statisztikai módszerek Faktoranalízis Olyan többváltozós statisztikai módszer, amely adattömörítésre, a változók számának csökkentésére, az adatstruktúra feltárására
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Fkt Faktoranalízis líi Olyan többváltozós statisztikai módszer, amely adattömörítésre, a változók számának csökkentésére, az adatstruktúra feltárására szolgál. A kiinduló változók számát úgynevezett faktorváltozókba
RészletesebbenBiomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
RészletesebbenSTATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
Részletesebbeny ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Részletesebbeny ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell
Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.
RészletesebbenFEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
RészletesebbenTárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102
Tárgy- és névmutató A a priori kontraszt 174 175 a priori kritérium 259, 264, 276 adatbevitel 43, 47, 49 52 adatbeviteli nézet (data view) 45 adat-elôkészítés 12, 37, 62 adatgyûjtés 12, 15, 19, 20, 23,
RészletesebbenANOVA,MANOVA. Márkus László március 30. Márkus László ANOVA,MANOVA március / 26
ANOVA,MANOVA Márkus László 2013. március 30. Márkus László ANOVA,MANOVA 2013. március 30. 1 / 26 ANOVA / MANOVA One-Way ANOVA (Egyszeres ) Analysis of Variance (ANOVA) = szóráselemzés A szórásokat elemezzük,
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis
Factor Analysis Factor analysis is a multiple statistical method, which analyzes the correlation relation between data, and it is for data reduction, dimension reduction and to explore the structure. Aim
RészletesebbenSegítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
Részletesebben[Biomatematika 2] Orvosi biometria. Visegrády Balázs
[Biomatematika 2] Orvosi biometria Visegrády Balázs 2016. 03. 27. Probléma: Klinikai vizsgálatban három különböző antiaritmiás gyógyszert (ß-blokkoló) alkalmaznak, hogy kipróbálják hatásukat a szívműködés
RészletesebbenStatisztikai szoftverek esszé
Statisztikai szoftverek esszé Dávid Nikolett Szeged 2011 1 1. Helyzetfelmérés Adott egy kölcsön.txt nevű adatfájl, amely információkkal rendelkezik az ügyfelek életkoráról, családi állapotáról, munkaviszonyáról,
RészletesebbenFaktoranalízis az SPSS-ben
Faktoranalízis az SPSS-ben Kvantitatív statisztikai módszerek Petrovics Petra Feladat Megnyitás: faktor.sav Fogyasztók materialista vonásai (Richins-skála) Forrás: Sajtos-Mitev, 250.oldal Faktoranalízis
RészletesebbenTöbbváltozós lineáris regressziós modell feltételeinek tesztelése I.
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Kvantitatív statisztikai módszerek Petrovics Petra Többváltozós lineáris regressziós
RészletesebbenPrincipal Component Analysis
Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták
RészletesebbenVarianciaanalízis 4/24/12
1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása
RészletesebbenFaktoranalízis az SPSS-ben
Faktoranalízis az SPSS-ben = Adatredukciós módszer Petrovics Petra Doktorandusz Feladat Megnyitás: faktoradat_msc.sav Forrás: Sajtos-Mitev 250.oldal Fogyasztók materialista vonásai (Richins-skála) Faktoranalízis
RészletesebbenTöbbváltozós lineáris regressziós modell feltételeinek
Többváltozós lineáris regressziós modell feltételeinek tesztelése I. - A hibatagra vonatkozó feltételek tesztelése - Petrovics Petra Doktorandusz Többváltozós lineáris regressziós modell x 1, x 2,, x p
RészletesebbenBiometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
RészletesebbenHipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
RészletesebbenBevezetés a Korreláció &
Bevezetés a Korreláció & Regressziószámításba Petrovics Petra Doktorandusz Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi ismérv
RészletesebbenMatematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
RészletesebbenA leíró statisztikák
A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az
RészletesebbenLogisztikus regresszió
Logisztikus regresszió 9. előadás Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó () Nem metrikus Metrikus Kereszttábla
RészletesebbenSTATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba
Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum
RészletesebbenAdatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
Részletesebben(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,
RészletesebbenGyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016
Gyakorlat 8 1xANOVA Dr. Nyéki Lajos 2016 A probléma leírása Azt vizsgáljuk, hogy milyen hatása van a család jövedelmének a tanulók szövegértés teszten elért tanulmányi eredményeire. A minta 59 iskola adatait
RészletesebbenBiomatematika 13. Varianciaanaĺızis (ANOVA)
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:
RészletesebbenTöbbváltozós Regresszió-számítás
Töváltozós Regresszió-számítás 3. előadás Döntéselőkészítés módszertana Dr. Szilágyi Roland Korreláció Célja a kacsolat szorosságának mérése. Regresszió Célja a kacsolatan megfigyelhető törvényszerűség
RészletesebbenRegressziós vizsgálatok
Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga
RészletesebbenEgyszempontos variancia analízis. Statisztika I., 5. alkalom
Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket
RészletesebbenHipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
RészletesebbenTöbbváltozós lineáris regresszió 3.
Többváltozós lineáris regresszió 3. Orlovits Zsanett 2018. október 10. Alapok Kérdés: hogyan szerepeltethetünk egy minőségi (nominális) tulajdonságot (pl. férfi/nő, egészséges/beteg, szezonális hatások,
RészletesebbenHeckman modell. Szelekciós modellek alkalmazásai.
Heckman modell. Szelekciós modellek alkalmazásai. Mikroökonometria, 12. hét Bíró Anikó A tananyag a Gazdasági Versenyhivatal Versenykultúra Központja és a Tudás-Ökonómia Alapítvány támogatásával készült
RészletesebbenLogisztikus regresszió
Logisztikus regresszió Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó (x) Nem metrikus Metrikus Kereszttábla elemzés
Részletesebben4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis
1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb
Részletesebben2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!
GAZDASÁGSTATISZTIKA KIDOLGOZOTT ELMÉLETI KÉRDÉSEK A 3. ZH-HOZ 2013 ŐSZ Elméleti kérdések összegzése 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét! 2. Mutassa be az
RészletesebbenKettőnél több csoport vizsgálata. Makara B. Gábor
Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10
RészletesebbenKorreláció és lineáris regresszió
Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.
RészletesebbenKlaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
RészletesebbenFEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Részletesebbenc adatpontok és az ismeretlen pont közötti kovariancia vektora
1. MELLÉKLET: Alkalmazott jelölések A mintaterület kiterjedése, területe c adatpontok és az ismeretlen pont közötti kovariancia vektora C(0) reziduális komponens varianciája C R (h) C R Cov{} d( u, X )
Részletesebben[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria Bódis Emőke 2016. 04. 25. J J 9 Korrelációanalízis Regresszióanalízis: hogyan változik egy vizsgált változó értéke egy másik változó változásának függvényében. Korrelációs
RészletesebbenTöbb valószínűségi változó együttes eloszlása, korreláció
Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...
RészletesebbenDiverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 11. Előadás Portfólió probléma Portfólió probléma Portfólió probléma Adott részvények (kötvények,tevékenységek,
RészletesebbenFőkomponens és Faktor analízis
Főkomponens és Faktor analízis Márkus László 2017. december 5. Márkus László Főkomponens és Faktor analízis 2017. december 5. 1 / 35 Bevezetés - Főkomponens és Faktoranalízis A főkomponens és faktor analízis
RészletesebbenVéletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
RészletesebbenMatematikai geodéziai számítások 6.
Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre
RészletesebbenKISTERV2_ANOVA_
Két faktor szerinti ANOVA Az A faktor minden szintjét kombináljuk a B faktor minden szintjével, minden cellában azonos számú ismétlés (kiegyensúlyozott terv). A terv szerkezete miatt a faktorok hatását
RészletesebbenFőkomponens és Faktor analízis
Főkomponens és Faktor analízis Márkus László 2014. december 4. Márkus László Főkomponens és Faktor analízis 2014. december 4. 1 / 34 Bevezetés - Főkomponens és Faktoranalízis A főkomponens és faktor analízis
RészletesebbenSTATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai
Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő
Részletesebben2012. április 18. Varianciaanaĺızis
2012. április 18. Varianciaanaĺızis Varianciaanaĺızis (analysis of variance, ANOVA) Ismételt méréses ANOVA Kérdések: (1) van-e különbség a csoportok között (t-próba általánosítása), (2) van-e hatása a
Részletesebbeny ij e ij BIOMETRIA let A variancia-anal telei Alapfogalmak 2. Alapfogalmak 1. ahol: 7. Előad Variancia-anal Lineáris modell ltozó bontását t jelenti.
Elmélet let BIOMETRIA 7. Előad adás Variancia-anal Lineáris modellek A magyarázat a függf ggő változó teljes heterogenitásának nak két k t részre r bontását t jelenti. A teljes heterogenitás s egyik része
RészletesebbenMinden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41
Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41 Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt
RészletesebbenKorreláció számítás az SPSSben
Korreláció számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Statisztikai kapcsolatok Asszociáció 2 minőségi/területi ismérv között Vegyes kapcsolat minőségi/területi és egy mennyiségi
RészletesebbenRegresszió számítás az SPSSben
Regresszió számítás az SPSSben Kvantitatív statisztikai módszerek Petrovics Petra Lineáris regressziós modell X és Y közötti kapcsolatot ábrázoló egyenes. Az Y függ: x 1, x 2,, x p p db magyarázó változótól
RészletesebbenFeladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?
Feladatok: pontdiagram és dobozdiagram Hogyan csináltuk? Alakmutatók: ferdeség, csúcsosság Alakmutatók a ferdeség és csúcsosság mérésére Ez eloszlás centrumát (középérték) és az adatok centrum körüli terpeszkedését
RészletesebbenStatisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
RészletesebbenRegresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
RészletesebbenSTATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
RészletesebbenSTATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 7. Előadás Egyenletes eloszlás Binomiális eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell /56 Matematikai statisztika Reprezentatív mintavétel
RészletesebbenBIOMETRIA_ANOVA_2 1 1
Két faktor szerinti ANOVA Az A faktor minden szintjét kombináljuk a B faktor minden szintjével, minden cellában azonos számú ismétlés (kiegyensúlyozott terv). A terv szerkezete miatt a faktorok hatását
Részletesebben: az i -ik esélyhányados, i = 2, 3,..I
Kabos: Adatelemzés Ordinális logisztikus regresszió-1 Többtényezős regresszió (az adatelemzésben): Y közelítése b 1 X 1 + b 2 X 2 +... + b J X J alakban, y n = b 1 x n,1 + b 2 x n,2 +... + b J x n,j +
RészletesebbenNagy-György Judit. Szegedi Tudományegyetem, Bolyai Intézet
Többváltozós statisztika Szegedi Tudományegyetem, Bolyai Intézet Többváltozós módszerek Ezek a módszerek több változó együttes vizsgálatára vonatkoznak. Alapvető típusaik: többdimenziós eloszlásokra vonatkozó
RészletesebbenSTATISZTIKA. Fogalom. A standard lineáris regressziós modell mátrixalgebrai jelölése. A standard lineáris modell. Eredménytáblázat
Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése
RészletesebbenStatisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás
Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,
RészletesebbenBiostatisztika VIII. Mátyus László. 19 October
Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.
RészletesebbenFEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
RészletesebbenMatematikai geodéziai számítások 6.
Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr. Bácsatyai László Matematikai geodéziai számítások 6. MGS6 modul Lineáris regresszió számítás elektronikus távmérőkre SZÉKESFEHÉRVÁR 2010 Jelen szellemi
RészletesebbenKhi-négyzet eloszlás. Statisztika II., 3. alkalom
Khi-négyzet eloszlás Statisztika II., 3. alkalom A khi négyzet eloszlást (Pearson) leggyakrabban kategorikus adatok elemzésére használjuk. N darab standard normális eloszlású változó négyzetes összegeként
RészletesebbenEsetelemzések az SPSS használatával
Esetelemzések az SPSS használatával 1. Tekintsük az spearman.sav állományt, amely egy harminc tehenet számláló állomány etetés- és fejéskori nyugtalansági sorrendjét tartalmazza. Vizsgáljuk meg, hogy van-e
RészletesebbenKettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet
Kettőnél több csoport vizsgálata Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet Gyógytápszerek (kilokalória/adag) Három gyógytápszer A B C 30 5 00 10 05 08 40 45 03 50 35 190 Kérdések: 1. Van-e
RészletesebbenA többváltozós lineáris regresszió III. Főkomponens-analízis
A többváltozós lineáris regresszió III. 6-7. előadás Nominális változók a lineáris modellben 2017. október 10-17. 6-7. előadás A többváltozós lineáris regresszió III., Alapok Többváltozós lineáris regresszió
RészletesebbenStatisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
RészletesebbenLeast Squares becslés
Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás
RészletesebbenStatisztika I. 11. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 11. előadás Előadó: Dr. Ertsey Imre Összefüggés vizsgálatok A társadalmi gazdasági élet jelenségei kölcsönhatásban állnak, összefüggnek egymással. Statisztika alapvető feladata: - tényszerűségek
RészletesebbenMódszertani hozzájárulás a Szegénység
Módszertani hozzájárulás a Szegénység Többváltozós Statisztikai Méréséhez MTA doktori értekezés főbb eredményei Hajdu ottó BCE KTK Statisztika Tanszék BME GTK Pénzügyek Tanszék Hajdu Ottó 1 Egyváltozós
RészletesebbenH0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)
5.4: 3 különböző talpat hasonlítunk egymáshoz Varianciaanalízis. hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik) hipotézis: Létezik olyan μi, amely nem egyenlő a többivel (Van
RészletesebbenVektorterek. =a gyakorlatokon megoldásra ajánlott
Vektorterek =a gyakorlatokon megoldásra ajánlott 40. Alteret alkotnak-e a valós R 5 vektortérben a megadott részhalmazok? Ha igen, akkor hány dimenziósak? (a) L = { (x 1, x 2, x 3, x 4, x 5 ) x 1 = x 5,
RészletesebbenFeltesszük, hogy a mintaelemek között nincs két azonos. ha X n a rendezett mintában az R n -ik. ha n 1 n 2
Kabos: Ordinális változók Hipotézisvizsgálat-1 Minta: X 1, X 2,..., X N EVM (=egyszerű véletlen minta) X-re Feltesszük, hogy a mintaelemek között nincs két azonos. Rendezett minta: X (1), X (2),..., X
RészletesebbenEsetelemzés az SPSS használatával
Esetelemzés az SPSS használatával A gepj.sav fileban négy különböző típusú, összesen 80 db gépkocsi üzemanyag fogyasztási adatai találhatók. Vizsgálja meg, hogy befolyásolja-e az üzemanyag fogyasztás mértékét
RészletesebbenQ1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft
Gyak1: b) Mo = 1857,143 eft A kocsma tipikus (leggyakoribb) havi bevétele 1.857.143 Ft. c) Q1 = 1575 eft Me = 2027,7778 eft Q3 = 2526,3158 eft Gyak2: b) X átlag = 35 Mo = 33,33 σ = 11,2909 A = 0,16 Az
RészletesebbenGeokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka
Geokémia gyakorlat 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek Geológus szakirány (BSc) Dr. Lukács Réka MTA-ELTE Vulkanológiai Kutatócsoport e-mail: reka.harangi@gmail.com ALAPFOGALMAK:
RészletesebbenCorrelation & Linear Regression in SPSS
Petra Petrovics Correlation & Linear Regression in SPSS 4 th seminar Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Correlation
RészletesebbenA magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel
A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel Kovács Máté PhD hallgató (komoaek.pte) Pécsi Tudományegyetem Közgazdaságtudományi
RészletesebbenLeíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,
RészletesebbenHipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás
STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H
RészletesebbenA maximum likelihood becslésről
A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának
RészletesebbenIsmételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) 2012. szeptember 19.
Ismételt méréses multifaktoriális varianciaanaĺızis (repeated measures MANOVA) 2012. szeptember 19. Varianciaanaĺızis Adott egy parametrikus függő változó és egy vagy több kategoriális független változó.
RészletesebbenLOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála
LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála a független változó: névleges vagy sorrendi vagy folytonos skála BIOMETRIA2_NEMPARAMÉTERES_5 1 Y: visszafizeti-e a hitelt x: fizetés (életkor)
RészletesebbenFogalom STATISZTIKA. Alkalmazhatósági feltételek. A standard lineáris modell. Projekciós mátrix, P
Fogalom STATISZTIKA 8 Előadás Többszörös lineáris regresszió Egy jelenség vizsgálata során általában az adott jelenséget több tényező befolyásolja, vagyis többnyire nem elegendő a kétváltozós modell elemzése
RészletesebbenKét diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi
Részletesebben