Standardizálás, transzformációk



Hasonló dokumentumok
Standardizálás, transzformációk

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása fejezet. A variabilitás mér számai 3.

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Faktoranalízis előadás. Kvantitatív statisztikai módszerek

1., Egy területen véletlenszerűen kihelyezet kvadrátokban megszámlálták az Eringium maritimum (tengerparti ördögszekér) egyedeit.

Statisztikai módszerek alkalmazása az orvostudományban. Szentesi Péter

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

Szepesvári Csaba ápr. 11

KVANTITATÍV MÓDSZEREK

statisztikai menürendszere Dr. Vargha András 2007

AZ ÁLTALÁNOS ISKOLÁSOK IDEGENNYELV-TANULÁSI ATTITŰDJEI ÉS MOTIVÁCIÓJA

Bevezetés az ökonometriába

Bemenet modellezése II.

Halmazok. Halmazelméleti lapfogalmak, hatványhalmaz, halmazm veletek, halmazm veletek azonosságai.

Statisztika, próbák Mérési hiba

MINİSÉGSZABÁLYOZÁS. Dr. Drégelyi-Kiss Ágota

STATISZTIKA PRÓBAZH 2005

Körmozgás és forgómozgás (Vázlat)

EEG mérések hardveres és szoftveres validációja

Faktoranalízis az SPSS-ben

Reiczigel Jenő,

Faktoranalízis az SPSS-ben

Csicsman József-Sipos Szabó Eszter Matematikai alapok az adatbányászati szoftverek első megismeréséhez

Klaszterezés, 2. rész

A SERVQUAL (szolgáltatás-minőség) modell alkalmazhatóságának elemzése sokváltozós adatelemzési módszerekkel. Becser Norbert

A magyarországi nonprofit szektorban dolgozók motivációjára káros hatások értékelésének elemzése többváltozós statisztikai módszerekkel

SZTOCHASZTIKUS MÓDSZEREK

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Kecskeméti Fıiskola GAMF Kar Informatika Tanszék. Johanyák Zsolt Csaba

Define Measure Analyze Improve Control. F(x), M(ξ),

Komputer statisztika gyakorlatok

4. előadás. Vektorok

A statisztika részei. Példa:

matematikai statisztika október 24.

Illeszkedésvizsgálat χ 2 -próbával

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

Az adatmátrix, az adatok átalakítása

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Regressziószámítás alkalmazása kistérségi adatokon

Dr. Szőke Szilvia Dr. Balogh Péter: Nemparaméteres eljárások

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

GAZDASÁGI STATISZTIKA

Elméleti összefoglalók dr. Kovács Péter

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

ekultúra Csepeli György Prazsák Gergı 1. Bevezetés

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.

Feladatok és megoldások a 6. heti eladshoz

Populációbecslések és monitoring 2. előadás tananyaga

KOVÁCS BÉLA, MATEMATIKA I.

Esetelemzés az SPSS használatával

1. melléklet A ciklodextrin hatásának jellemzése mikroorganizmusok szaporodására Murányi Attila

AutoN cr. Automatikus Kihajlási Hossz számítás AxisVM-ben. elméleti háttér és szemléltető példák február

A rádió* I. Elektromos rezgések és hullámok.

BIOMETRIA_ANOVA_2 1 1

KISTERV2_ANOVA_

8. A fehérjék térszerkezetének jóslása

TANULÁSI STÍLUS KÉRDŐÍV

Informatikai ismeretek vizsgálata a 8. osztály végén. Kiss Gábor Óbudai Egyetem kiss.gabor@bgk.uni-obuda.hu

Béres Mária TANÍTÓI KÉZIKÖNYV. Színes matematika tankönyvsorozat 2. osztályos elemeihez

Számítógépi képelemzés

DÖNTÉSI MODELL KIALAKÍTÁSA KÖZBESZERZÉSI ELJÁRÁS SORÁN ELŐSZÓ

SZÍNES KÉPEK FELDOLGOZÁSA

PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

Mérési jegyzőkönyv. Rezonancia. 4. mérés: Semmelweis Egyetem, Elméleti Orvostudományi Központ Biofizika laboratórium. A mérés időpontja:

és élelmiszer-ipari termékek hozhatók forgalomba, amelyeket a vonatkozó jogszabá-

Mátrixaritmetika. Tartalom:

Statistical Inference

Egyéni gazdaságok kockázatkezelése a növénytermesztésben Risk management at individual farms of crop producers

Beton-nyomószilárdság értékelésének alulmaradási tényezője

Miskolci Egyetem GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR. Analízis I. példatár. (kidolgozott megoldásokkal) elektronikus feladatgyűjtemény

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

A MAGYAR SPORT TERÜLETI VERSENYKÉPES- SÉGÉNEK VIZSGÁLATA TÖBBVÁLTOZÓS STATISZTIKAI MÓDSZEREKKEL

Principal Component Analysis

GroupWise 5.2 használói jegyzet

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Gyémánt Mihály 2-14-B Cukorinverzio sebesse gi á llándo já nák meghátá rozá sá polárimetriá s me re ssel

ELEMI VALÓSZÍNŰSÉGSZÁMÍTÁS és STATISZTIKAI MÓDSZEREK A FIZIKÁBAN

Inferencia. ADOTTAK:! generatív modell: például: DAG + prior(ok) + likelihood(ok) P(X 1,X 2,,X n ) megfigyelések: D = {X i = x i, X j = x j, }

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

KÉRDÉSEK_GÉPELEMEKBŐL_TKK_2016.

Tómács Tibor. Matematikai statisztika

FELTÉTELES VALÓSZÍNŰSÉG, TELJES VALÓSZÍNŰSÉG TÉTELE, BAYES TÉTELE

Az indukció. Azáltal, hogy ezt az összefüggést felírtuk, ezúttal nem bizonyítottuk, ez csak sejtés!

Öregedés és társadalmi környezet TARTALOMJEGYZÉK

1. A skót bakák mellkas körmérete N(88, 10). A skót bakák mekkora hányada fér bele egy 84-es zubbonyba?

INTELLIGENS ADATELEMZÉS

Normál eloszlás. Gyakori statisztikák

LOGISZTIKAI KÉPESSÉGEK A MAGYAR VÁLLALATOK GYAKORLATÁBAN

Demokratikus attitűdök a hazai középiskolákban 1

MATEMATIKA PRÓBAÉRETTSÉGI MEGOLDÓKULCS EMELT SZINT

HÁTTÉRTÉNYEZŐK HATÁSÁNAK VIZSGÁLATA HIERARCHIKUS LINEÁRIS MODELLEKKEL

Statisztikai alapismeretek (folytatás)

Egyesült Acél Kft. KATALÓGUS ÁRJEGYZÉK től

Csődvalószínűségek becslése a biztosításban

Elektromiográfia. I. Háttér. II. Mérési elvek. III. Kísérletes célkitűzések

Általánosítás. Többdimenziós normális eloszlás. Matematikai statisztika elıadás III. éves elemzı szakosoknak

10. Genomika 2. Microarrayek és típusaik

A magyar kisvállalatok versenyképességének kompetencia alapú mérése és komplex vizsgálata

Munkaügyi Központja I. NEGYEDÉV

Átírás:

Standardizálás, transzformációk A transzformációk ugynúgy mennek, mint egyváltozós esetben. Itt még fontosabbak a linearitás miatt. Standardizálás átskálázás. Centrálás: kivonjuk minden változó átlagát, így az átlag 0 lesz. (Spektrál felbontás esetén tulajdonképpen a centrált adatok kovariancia mátrixával dolgozunk.) Standardizálás: korrelációs mátrix standardizált adatok kovariancia mátrixa. Relatív értékek (arányok): legnagyobb értékkel osztjuk az összeset. Megfigyelési egységeket is lehet standardizálni. Abundancia adatoknál fontos, ha a megfigyelési egységek mérete különböző. (arányok) 0,-é is lehet konvertálni. Sokszor hasznos lehet különböző módokon standardizálni és összehasonlítani az eredményeket: eredeti standardizált 0, eredeti: legnagyobb abundanciájú mit befolyásol 0, : prezencia, abszenciától mi függ. Asszociációs mértékek implicit módon standardizáltak.

Az, hogy a kovariancia vagy korrelációs mátrixot használjuk attól függ, hogy a varianciák különbsége fontos-e biológiai szempontból.

Hiányzó adatok MCAR-missing completely at random: független mind a megfigyelt adatoktól, mind a többi hiányzótól. Random részhalmaza az adatoknak. MAR lehet, hogy függ a csoporttól, hogy hiányzik-e. Mit tegyünk a hiányzó adatokkal?. Objektum törlése (deletion): legjobb megoldás, ha kevesebb, mint 5% hiányzik és MCAR Információ vesztés (complete.obs) esetén. Ha az analízis páronkénti (pairwise) asszociációkon alapul (kovariancia, korreláció), akkor paiwise.complete.obs. Csak akkor töröljük, ha éppen azokkal a változókkal dolgozunk, amelyiknél hiányzik a megfigyelés. Imputáció Helyettesítés becsléssel. Módszerek:. átlaggal (változó értékeiből számolt\na) A varianciát alulbecsüli.. Regressziós modellel. Más változókkal becsüljük, pl. a legjobban korrelált változót vagy változókat választjuk prediktornak.) 3. Hot-deck: Hasonló objektum értékével helyettesítjük. Problémák: függetlenség sérül; varianciát alulbecsli.

Maximum likelihood (ML) és EM becslés ML : paraméter becslés a megfigyelt, nem teljes adatokból, majd a modellből becsüljük a hiányzó adatokat. Felhasználja a megfigyelt adatok eloszlását és a hiányzó adatok mintázatát. Iteratív imputáció + ML : Expectation Maximization ML paraméter becslés hiányzó adatok ML paraméterbecslés hiányzó adatok..., amíg nem konvergál. ML és EM feltétele a MAR.

Adatredukció (Ordináció) Főkomponens analízis (PCA) Felfedező adatelemzésben használatos. Adathalmaz kényelmesebb és informatívabb ábrázolása, dimenziószám csökkentése, fontos változók beazonosítása. Cél: Van p változónk:,,..., p és keressük ezeknek olyan,,..., p kombinációit (főkomponensek), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző dimenzióit mérik. ( ) ( )... ( p ) σ σ σ Remény: a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolhatók, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem csinál. Legjobb eredmény: nagyon korrelált változók esetén. Adatok: Egyed... p x x... x p x x... x p M n x n x n x np

A főkomponensek: i = ai + ai +... + aip p a + a +... + a = i i ip és σ( ) σ( ) σ( p ).... A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei (λ i ), az együtthatói pedig a megfelelő sajátértékhez tartozó sajátvektor együtthatói. Ha a kovarianciamátrix: c c... c p c c... c p C =, M M M cp cp cpp akkor λ + λ+... + λp = c + c+... + cpp = σ ( ) + σ ( ) +... + σ ( p ) Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Feltételek: Normalitás nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. A normalitás csak tesztek esetén szükséges. Linearitás. Ne legyenek outlierek.

Azt mutatja meg, hogy a főkomponensek mennyit magyaráznak az egyes változókból. A korrelációs/kovariancia mátrix s.é.-ei, és a megfelelő variancia hányadok.

A s.é.-kek a komponens sorszám függvényében.

> pca=princomp(vereb[,:6],cor=t) > summary(pca,loadings=true) Importance of components: Comp. Comp. Comp.3 Standard deviation.90576 0.790433 0.663056 Proportion of Variance 0.73957 0.063008 0.077849 Cumulative Proportion 0.73957 0.894965 0.9067839 Comp.4 Comp.5 Standard deviation 0.549498 0.405699 Proportion of Variance 0.06033 0.039055 Cumulative Proportion 0.9670945.0000000 Loadings: Comp. Comp. Comp.3 Comp.4 Comp.5-0.45 0.690 0.40-0.374-0.46-0.300 0.34-0.548 0.530 3-0.45-0.35-0.454 0.606 0.343 4-0.47-0.85-0.4-0.388-0.65 5-0.398 0.876-0.78 0.9 >par(pty="s") >plot(pca$scores[,],pca$scores[,], >ylim=range(pca$scores[,]), >xlab="pc",ylab="pc",type="n",lwd=) >text(pca$scores[,],pca$scores[,], >labels=row.names(vereb),cex=0.7,lwd=)

> pca$scores Ezekkel a szkórokkal tudjuk kiszámolni a komponensek értékeit az egyes esetekre. (Ezek az a ij együtthatók.) >biplot(pca) > cor(data.frame(pca$scores[,],vereb[,:6]))[,] pca.scores... pca.scores... -0.859 0.037-0.878-0.8 3-0.857-0.37 4-0.895-0.35 5-0.756 0.639

Faktoranalízis Nagyszámú változó korrelációinak elemzése. Változók faktorokba csoportosítása. Az egy faktorba csoportosított változók korreláltsága nagyobb egymással, mint a csoporton kívüliekkel. A faktorok interpretálása (látens változók) a változók alapján. Sok változó összesítése néhány faktorba. = a F + a F +... + a F + i i i im m e i aij - faktorsúlyok (loadings), i -k a standardizált változók. F j : korrelálatlan közös faktorok 0 várható értékkel és szórással. e i - egyedi faktor, várható értéke 0, F j -kel nem korrelált. σ = ( i ) = = aiσ ( F ) +... + aimσ ( Fm ) + σ ( ei ) a +... + a + σ ( e ) i im i = a i +... + aim - kommunalitás, σ ( ) - egyediség. e i

i és j m l a il a jl - az és korrelációs együtthatója. (Csak akkor lehet két változó nagyon korrelált, ha nagy súllyal szereplenek ugyanabban a faktorban.) Számítás menete:. Korrelációs vagy kovarinacia mátrix kiszámítása.. Faktorsúlyok becslése (faktor extrakció). Pl. főkomponens analízisből megtartjuk az -nél nagyobb sajátértékű főkomponenseket (Főkomponens faktoranalízis). Főkomponensek: = b + b +... + b M p = b = b p + b + b p p +... + b p +... + b Mátrix egyenlet formában: Így: = b + b +... + b pp =B B - = B T = Mivel a B mártix ortonormált. M p = b = b p + b + b p +... + b p p +... + b pp p p p p p p

Mivel Faktor analízis esetén m < p számú faktorral dolgozunk, ezért: M p = b = b = b p + b + b + b p +... + b +... + b m m +... + b mp m m + e + e m + e p Mostmár csak át kell skálázni az eredeti főkomponenseket úgy, hogy legyen a varianciájuk. Ehhez a i ket osztani kell a szórásukkal, ami éppen λ i. Így: F = i i / λi. 3. Faktor rotációt végzünk azért, hogy a faktorok interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek. 4. Faktor értékek kiszámítása a mintaegyedekre. További analízisek. Rotációs módszerek: Ortogonális: Varimax, Quartimax, Equamax Varimax: úgy forgat, hogy az együtthatók vagy -hez vagy 0-hoz közeliek legyenek. Quartimax: minimalizálja a változók magyarázásához szükséges faktorok számát Equamax: Az előző kettő kompromisszuma. A rotált faktorok nem korreláltak.

Ferde (Oblique): Direct Oblimin, Promax Nagyobb sajátértékeket eredményeznek. A Promax nagyon nagy táblázatok esetén használatos. Korrelált faktorok. Maximum-likelihood faktor analízis Leginkább elfogadott módszer. Szükséges faktorszám tesztelhető. Fakt > fa<-factanal(vereb[,:6],factors=,scores="regression",correlation=t) > fa Call: factanal(x = vereb[, :6], factors =, scores = "regression", correlation = T) Uniquenesses: 3 4 5 0.005 0.307 0.36 0.05 0.55 Loadings: Factor Factor 0.366 0.98 0.63 0.543 3 0.657 0.454 4 0.937 0.36 5 0.486 0.460 Factor Factor SS loadings.078.68 Proportion Var 0.46 0.336 Cumulative Var 0.46 0.75 Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603

Ha nem szign., akkor jó. > fa<-factanal(vereb[,:6],factors=,rotation="promax") > fa Call: factanal(x = vereb[, :6], factors =, rotation = "promax") Uniquenesses: 3 4 5 0.005 0.307 0.36 0.05 0.55 Loadings: Factor Factor -0.5.67 0.5 0.350 3 0.635 0.90 4.79-0.37 5 0.366 0.335 Factor Factor SS loadings.44.688 Proportion Var 0.449 0.338 Cumulative Var 0.449 0.787 Test of the hypothesis that factors are sufficient. The chi square statistic is 0.7 on degree of freedom. The p-value is 0.603 > par(pty="s") > plot(fa$scores[,],fa$scores[,], + ylim=range(fa$scores[,]), + xlab="fa",ylab="fa",type="n",lwd=) > text(fa$scores[,],fa$scores[,], + labels=row.names(vereb),cex=0.7,lwd=)

Klaszter analízis n egyedből álló minta, amelynek minden egyedén p számú változó értékét mérjük. Csoportosítási séma, amely a hasonló objektumokat egy csoportba sorolja. A csoportok száma nem ismert (általában). Algoritmusok két típusa: Hierarhikus technikák. Dendrogramot produkálnak.. Egyedek egymástól való távolságának kiszámítása.. Csoportok létrehozása vagy összevonással, vagy felosztással. Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot. Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-means clustering). Előre meg kell határozni, hogy hány csoportunk legyen.

Összevonási technikák (linkage methods):

Egyszerű lánc módszer (nearest neighbor): Két csoport távolságát az egymáshoz legközelebb eső, de nem egy csoportba tartozó elemeik távolságaként határozzuk meg. Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív. Teljes lánc módszer (furthest neighbor): Két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól működik nem elhatárolódó, de erős kohéziójú csoportok esetén. Csoportátlag módszer (between-groups linkage): Az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz.

Egyszerű átlag módszer (within-groups linkage): Ugyanaz, mint az előző, de nem veszi figyelembe az csoportok elemszámát. Centoid módszer (centroid clustering): Két csoport távolságát a súlypontjaik távolsága adja meg. Medián módszer (median clustering): Ugyanaz, mint az előző, de figyelembe veszi a csoportok elemszámát is. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni. Ward módszer (Ward s method): A csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer.

pl: Az emlősállatoknak négyféle foguk van: metszőfog, szemfog, kiszápfog és zápfog. Az adattáblázat 3 állatfaj egyik oldali állkapcsában alul illetve felül található különböző fogainak számát tartalmazza.

Modell alapú klaszterezés (Model based clustering) A populáció valahány részpopulációból (= klaszterek) áll. Csilpcsalp füzikék szárnyhossz eloszlása

Paraméterek $pro [] 0.457078 0.5749 $mean 56.365 6.65983 $variance $variance$modelname [] "V" $variance$d [] $variance$g [] $variance$sigmasq [].803607 4.4676 $variance$scale [].803607 4.4676