ADATREDUKCIÓ I. Középértékek

Hasonló dokumentumok
Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,

ADATREDUKCIÓ I. Középértékek

ADATREDUKCIÓ I. Középértékek

A sokaság/minta eloszlásának jellemzése

4 2 lapultsági együttható =

s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés

Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?

Adatsorok jellegadó értékei

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

Regresszió. Fő cél: jóslás Történhet:

GRADUÁLIS BIOSTATISZTIKAI KURZUS február hó 22. Dr. Dinya Elek egyetemi docens

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

Statisztika. Eloszlásjellemzők

Példa: Egy üzletlánc boltjainak forgalmára vonatkozó adatok október hó: (adott a vastagon szedett!) S i g i z i g i z i

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Statisztika 2. Dr Gősi Zsuzsanna Egyetemi adjunktus

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.

ÁLTALÁNOS STATISZTIKA

20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!

Lineáris regresszió. Statisztika I., 4. alkalom

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.

Intelligens elosztott rendszerek

Statisztika feladatok

Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

A sokaság elemei közül a leggyakrabban előforduló érték. diszkrét folytonos

Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?

Dr. Ratkó István. Matematikai módszerek orvosi alkalmazásai Magyar Tudomány Napja. Gábor Dénes Főiskola

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

A multikritériumos elemzés célja, alkalmazási területe, adat-transzformációs eljárások, az osztályozási eljárások lényege

Statisztika I. 4. előadás. Előadó: Dr. Ertsey Imre

VARIANCIAANALÍZIS (szóráselemzés, ANOVA)

Elemi statisztika fizikusoknak

Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Regresszió-számítás. 2. előadás. Kvantitatív statisztikai módszerek. Dr.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Komplex regionális elemzés és fejlesztés tanév DE Népegészségügyi Iskola Egészségpolitika tervezés és finanszírozás MSc

Általános Statisztika

Extrém-érték elemzés. Extrém-érték eloszlások. Megjegyzések. A normálhatóság feltétele. Extrém-érték modellezés

A valószínűségszámítás elemei

Extrém-érték elemzés. Extrém-érték eloszlások. A normálhatóság feltétele. Megjegyzések. Extrém-érték modellezés

(eseményalgebra) (halmazalgebra) (kijelentéskalkulus)

Biostatisztika e-book Dr. Dinya Elek

METROLÓGIA ÉS HIBASZÁMíTÁS

Biomatematika 2 Orvosi biometria

Statisztikai alapfogalmak

MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Algoritmusok és adatszerkezetek gyakorlat 09 Rendezések

Az entrópia statisztikus értelmezése

IDA ELŐADÁS I. Bolgár Bence október 17.

A leíró statisztikák

Kísérlettervezési alapfogalmak:

ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?

Adatelemzés és adatbányászat MSc

I. A közlekedési hálózatok jellemzői II. A közlekedési szükségletek jellemzői III. Analitikus forgalom-előrebecslési modell

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria

Minősítéses mérőrendszerek képességvizsgálata

Méréselmélet: 5. előadás,

STATISZTIKA. ( x) 2. Eloszlásf. 9. gyakorlat. Konfidencia intervallumok. átlag. 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% (cm)

Matematikai statisztika

Kutatásmódszertan és prezentációkészítés

A m becslése. A s becslése. A (tapasztalati) szórás. n m. A minta és a populáció kapcsolata. x i átlag

Nemparaméteres eljárások

Az elektromos kölcsönhatás

? közgazdasági statisztika

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

STATISZTIKA I. Centrális mutatók. Helyzeti középértékek. Középértékek. Bimodális eloszlás, U. Módusz, Mo. 4. Előadás.

A maximum likelihood becslésről

Nemparaméteres módszerek. Krisztina Boda PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Véletlenszám generátorok. 6. előadás

Max-stabilis folyamatok. 6. előadás, március 29. Smith (1990) konstrukciója. Példák

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június

Matematikai statisztikai elemzések 2.

Ismérvek közötti kapcsolatok szorosságának vizsgálata. 1. Egy kis ismétlés: mérési skálák (Hunyadi-Vita: Statisztika I o)

TÉRBELI STATISZTIKAI VIZSGÁLATOK, ÁTLAGOS JELLEMZŐK ÉS TENDENCIÁK MAGYARORSZÁGON. Bihari Zita, OMSZ Éghajlati Elemző Osztály OMSZ

Teljes eseményrendszer. Valószínőségszámítás. Példák. Teljes valószínőség tétele. Példa. Bayes tétele

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

d(f(x), f(y)) q d(x, y), ahol 0 q < 1.

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika I. 3. előadás. Előadó: Dr. Ertsey Imre

6. Előadás. Vereb György, DE OEC BSI, október 12.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Segítség az outputok értelmezéséhez

Philosophiae Doctores. A sorozatban megjelent kötetek listája a kötet végén található

Varianciaanalízis. Egytényezős kísérletek (Más néven: egyutas osztályozás, egyszempontos varianciaanalízis ANOVA)

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Kidolgozott feladatok a nemparaméteres statisztika témaköréből

Egy negyedrendű rekurzív sorozatcsaládról

Laboratóriumi kontrollkártya használata Tananyag. Készítette: Muránszky Géza vegyészmérnök Oktató: Lőrinc Anna minőségirányítási előadó

Békefi Zoltán. Közlekedési létesítmények élettartamra vonatkozó hatékonyság vizsgálati módszereinek fejlesztése. PhD Disszertáció

Matematikai geodéziai számítások 10.

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

NKFP6-BKOMSZ05. Célzott mérőhálózat létrehozása a globális klímaváltozás magyarországi hatásainak nagypontosságú nyomon követésére. II.

Jövedelem és szubjektív jóllét: az elemzési módszer megválasztásának hatása a levonható következtetésekre

Átírás:

ADATREDUKCIÓ I. Középértékek

Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz x mn középérték x max b) Helyzet középérték: tpkus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen defnálva.

Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Xh Mo Me Geometra átlag: Xg Kvadratkus átlag: Xq

Számított középértékek Matematka összefüggés alapján számíthatók k: Számtan (Artmetka) átlag Egyszerű Súlyozott Harmonkus átlag Egyszerű Súlyozott Mértan (Geometra) átlag Egyszerű Súlyozott Négyzetes (Kvadratkus) átlag Egyszerű Súlyozott n n n f f x a n x a x x 1 1 _ 1 _ n n n x f f h x n h x x 1 1 _ 1 _ 1 n f f n n n x g x g x x 1 1 _ 1 _ n n n f f x q n x q x x 1 1 2 _ 1 2 _

Artmetka átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok összege nem változk:

Mértan átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata nem változk:

Harmonkus átlag Az a szám, amelyet az átlagolandó értékek helyébe téve azok recprokanak összege nem változk:

Kvadratkus átlag Az a szám, amelynek négyzetével helyettesítve az átlagolandó értékek négyzetet, azok összege nem változk:

Adatokat nagyságszernt rendezzük. Helyzet mutatók Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. Kvantlsek: az összes előforduló érték j/k (j=1,2,,k-1) része ksebb és 1-j/k része nagyobb. Pl. k=2: Medán (Me) k=3: tercls k=4: Qvartls (Q1, Q2=Me, Q3) k=5: kvntls k=10: decls k=100: percentls

Outler

Robusztus becslések (Truncated means)

Egyéb átlagok Interquartle mean (IQM) vagy mdmean: Nem érzékeny az outler értékekre:

Vegyük a következő példát: 5, 8, 4, 38, 8, 6, 9, 7, 7, 3, 1, 6 Rendezzük az adatokat: 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38 Vegyük a quartls határokat: elhagyjuk az alsó felső 3-3 számot: 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38 Határozzuk meg az így kapott számok átlagát: x IQM = (5 + 6 + 6 + 7 + 7 + 8) / 6 = 6.5 Határozzuk meg az eredet vagys a teljes adatok átlagát: (5 + 8 + 4 + 38 + 8 + 6 + 9 + 7 + 7 + 3 + 1 + 6) / 12 = 8.5 Látható az outler erős befolyásoló hatása (outler=38).

Szmmetrkus eloszlás esetén IQM egyenlő az átlaggal: Legyen: 1, 2, 3, 4, 5 értékek Átlag=x mean = 3 Mvel szmmetrkus az eloszlás: x IQM = 3 szntén.

Ha az ntervallum nem osztható 4-el Megoldás: súlyozott átlaga a Q1 és Q3- adatállománynak Legyen: 1, 3, 5, 7, 9, 11, 13, 15, 17 9/4 = 2.25 adat mndegyk negyedben, és 4.5 adat az nterquartls range-ben. Csonkítsuk a tört quartls méretet, és távolítsuk el az így kapott adatszámot az 1. és 4. quartlsből (2.25 adat van mndegyk quartlsben, így a legalacsonyabb 2 és legmagasabb 2 adat lesz eltávolítva).

Ha az ntervallum nem osztható 4-el (folyt.) 1, 3, (5), 7, 9, 11, (13), 15, 17 Van 3 teljes adatunk és 2 tört adatunk az nterquartls range-ben. Mvel 4.5 megfgyelésünk van az nterquartls range-ben, a súlyok: 3 1 + 2 0.75 = 4.5 megfgyelés. x IQM = {(7 + 9 + 11) + 0.75 (5 + 13)} / 4.5 = 9 Átlag: x mean = 9. IQM esetén a súlyszámok: 0, 0.25, 0.50, 0.75.

Trmean vagy Tukey's trmean Kombnálja a medán és a mdhnge előnyet tekntettel az extrém értékekre:

Összefoglalás - Középértékek Az egyes adatfajtáknál mlyen középértékeket alkalmazunk? Átlag Medán Kvanttatív Ordnáls Módusz Nomnáls

ADATREDUKCIÓ II. Szóródás és mérése

A szóródás terjedelme A terjedelem az előforduló elemek között a legnagyobb és legksebb érték különbsége. (T=)R=x max -x mn Interkvartls range: IQR=Q 3 -Q 1 A mutatószámok kfejezk, hogy mekkora értékközben ngadoznak az smérvértékek. Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodk.

Boxplot és nterquartls range (N(0,σ 2 ) populácó)

Box-and-whsker plot négy + nagyon távol extrém értékkel: defnálva Q3 + 1.5(IQR) and Q3 + 3(IQR) alapján

Mdhnge range: IQR=(Q 3 -Q 1 )/2 John Tukey: mdhnge-t egyszerűbb számítan. Md-range vagy md-extreme:

Mérőszámok Terjedelem : T=R= Interkvartls félterjedelem:iqr= Átlagos abszolút eltérés Szórás Szórásnégyzet (Varanca) Relatív szórás (Varácós koeffcens) 3 Q 1 Q n n n f f d x d n d x 1 1 _ 1 max x mn x n n n f f d x d n d x 1 1 2 _ 1 2 *100 _ x V

Átlag szórása (Standard error, SEM) A mntaválasztás jóságát mutatja: a 0 közel érték a jó érték, mert ekkor helyes a mntaválasztás (dmenzós érték!): sx s N

Relatív szórás (varácós együttható, V) Az adatok szórását osztjuk az átlaggal, majd szorozzuk 100%-al Kcs: a szórás, ha V<15%, Közepes: ha 15%<V<25%, Nagy: ha 25%<V<35%, Extrém (szélsőséges): ha V>35%

L-estmator vagy L-statstc Egyszerű, nterpretálható, gyakran a robusztus statsztkákban alkalmazzuk. Az extrém értékeknek ellenáll.

Egyszerű L-estmators vzualzácója box plot dgrammal: range, mdrange, nterquartle range, mdhnge, trmean

Hányzó értékek kezelése (Mssng values)

Hányzóérték 1, 2, 3, 4, 5, 6 1,2,3,4,5,6 1,0,3,4,5,0 3.5 6 21 6 6 5 4 3 2 1 x 3.25 4 13 4 5 4 3 1 x 2.2 6 13 6 0 5 4 3 0 1 x

Hányzó érték: nem regsztrált adat. Hatása: erőteljesen befolyásolhatják az elemzés eredményet. - Ha nem vesszük fgyelembe a hányzó adatokat vagy feltételezzük, hogy a hányzó értékek kzárása elegendő, akkor érvénytelen és megbízhatatlan eredményeket kaphatunk. - Az adatelőkészítés fázsban kell gondoskodn arról, hogy az adatelemzés során olyan adatokat használjunk, amelyek fgyelembe veszk a hányzó értékeket. Többváltozós módszereknél esetszám kesést jelent.

Hányzó értékek jelölése 0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfdenca-ntervallumát, megnövel az eloszlások csúcsosságát, a változók között lneárs kapcsolatokat s megváltoztatja, a korrelácós együttható közelebb kerül a 0-hoz.

Az egyszerű regresszós eljárásban két vagy több változó között predkcós modell alapján egészítünk k egy hányzó adatot. Ez az eljárás az ellenkező rányba torzítja a változók között korrelácót: növel annak értékét.

Az 1980-as évektől kezdődően elterjedtek a maxmum lkelhood alapú EM (Expectaton-Maxmzaton) algortmuson alapuló helyettesítés technkák. Majd az 1990-es évektől az ún. multple mputaton (MI) Bayes- alapú procedúrák. Mvel a kegészített adatokkal végzett statsztka analízsek révén megbízható és eredményes következtetéseket kell levonnunk a populácóra, lletve az adott mntára nézve, meg kell őrznünk a megfgyelt változók eloszlását és asszocácót.

A hányzó adatank becslésénél ksmértékű hbára számítunk, mközben kezeln kívánjuk az adatok bzonytalanságát. A hányzó adatokra vonatkozó becslésekkel kegészített változók konfdenca ntervalluma 95%-ban kell, hogy fedje a valós értékeket. Ha a lefedettség pontos, akkor az I. fajú hba előfordulás valószínűsége s helyes: 5%. Emellett a konfdenca ntervallumokat kellően szűknek várjuk, mert ezzel a II. fajú hbák lehetősége csökkennek.

Az MCAR (mssng completely at random) esetében a hányok valószínűsége egyáltalán nem függ össze az adatankkal, lyenkor a nemválaszolók olyanok, mnt egy random alcsoport. Rtka esetben gaz. A MAR (mssng at random) modelleknél a hányok valószínűsége csak a megfgyelt egyéb adatoktól függ, de nem a helyettesítendő hányzótól. Ez a standard feltételezés. Kevésbé megoldható probléma az MNAR (mssng not at random) helyzet, amkor a hányzó adat előfordulása pont a hányzó adat mnőségével vagy jelentésével függ össze. A maxmum-lkelhood módszerek elvárása a MAR helyzet, míg a multple mputaton technkák többnyre már az MNAR problémákat s jól kezelk.

MI (multple mputaton) Az MI célja, hogy a helyettesítésekkel együtt megtartsuk a változók eloszlását és a változók között asszocácókat. Szmulácón és legtöbbször Bayes- alapokon álló technka, ahol a megfgyelt adatokból m>1 verzóban modelleznek lehetséges adatokat a hányzók helyére, majd a végén egy algortmus szernt kombnálják az eredményeket (a becsléseket és a szórásokat).

MI Általános szabályként olyan változók esetében használhatjuk az mputálást, ahol változónként maxmum az adatok 30 40%-a hányzk, de a teljes adatbázsban nncs több hányzó, mnt a teljes mátrx 10 15%-a. Ezek az arányok a szakrodalom szernt egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát lletően.

Az SPSS Mssng Values moduljában hat dagnosztka rport bármelykével több különböző szempontból vzsgálhatjuk adatankat és rátalálhatunk a hányzó adat mntákra. Ezután értékelhetjük a kapott statsztkákat és megbecsülhetjük a hányzó értékeket regresszós vagy az elvárt eredményt maxmalzáló (Expectaton Maxmalzaton, EM) algortmusok révén. Az SPSS Mssng Values segítségével: Megállapíthatjuk a hányzó értékekből adódó probléma súlyosságát. A hányzó értékeket helyettesíthetjük becslésekkel, például regresszó vagy EM algortmus segítségével.

Legtöbb esetben MCMC (Markov chan Monte Carlo) modellt fog alkalmazn a program, ahol az egyes változók értékenél a több modellváltozó predkcót fogja felhasználn bzonyos terácós szám mellett. Összefoglalás: azokban a kutatásokban, amelyekben korrelácóalapú számításokat végeznek a kutatók, bztonsággal alkalmazható az adat-mputálás. Kutatásokban azonban törekedn kell a mnél teljesebb adatbázs létrehozására, eredményenket ekkor fogadhatjuk el mnden fajta szkepszs nélkül.

Aszmmetra mérőszáma

Az aszmmetra mérőszáma Az eloszlások következő típusaval foglalkozunk: -egymóduszú eloszlás szmmetrkus, aszmmetrkus (vagy ferde); -többmóduszú eloszlás.

Az eloszlás alakjának jellemzése Ferdeség (skewness, normáls eloszlás=0 körül érték) Csúcsosság (kurtoss, normáls eloszlás=0 körül érték)

Ferdeség mérése Ferdeség =FERDESÉG() SKEW() A ferdeség az eloszlás középérték körül aszmmetrájának mértékét jelz. A poztív ferdeség a poztív értékek rányába nyúló aszmmetrkus eloszlást jelez, míg a negatív ferdeség a negatív értékek rányában torzított. =CSÚCSOSSÁG() KURT() Egy adathalmaz csúcsosságát számítja k. A függvény a normáls eloszláshoz vszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A poztív értékek vszonylag csúcsos, a negatív értékek vszonylag lapos eloszlást jelentenek. n x ( n 1)( n 2) s _ x 2 3( n 1) Csúcsosság ( n 1)( n 2) 3

POSITIVELY SKEWED

NEGATIVELY SKEWED

BI-MODAL

35 50 30 25 20 15 10 40 30 20 10 5 0-5 1 3 5 7 9 11 13 15 17 19 0-10 1 3 5 7 9 11 13 15 17 19 Asszmmetra mérése 30 25 20 15 10 30 25 20 15 10 5 5 0 1 3 5 7 9 11 13 15 17 19 0-5 1 3 5 7 9 11 13 15 17 19

Az aszmmetra mérőszáma Többmóduszú gyakorság sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogentást elődéző smérv szernt csoportosítva egy egymóduszú gyakorság sorokhoz jutunk, ezért ezeket összetett gyakorság soroknak s nevezzük. Az egymóduszú gyakorság sorok polgonjának egy hely maxmuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szmmetrkus és aszmmetrkus lehet.

Asszmetra mérőszáma Az aszmmetra leggyakrabban használt mérőszáma a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kndulva mér az aszmmetra mértékét és rányát.

Pearson-féle mutatószáma Az aszmmetra Pearson-féle mutatószáma (jele: A) a számtan átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrend vszonyán alapul. A mérőszám (önmagában a számláló) előjele az aszmmetra rányát mutatja. Bal oldal, jobbra elnyúló aszmmetra esetén A 0, jobb oldal, balra elnyúló aszmmetra esetén A 0. Szmmetrkus eloszlás esetén A = 0. A mérőszám abszolút értékének nncs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban rtkán fordul elő és meglehetősen erős aszmmetrára utal. A x Mo

F mutató Az aszmmetra másk mérőszáma, az F mutató (jele: F) az alsó és felső kvartls medántól való eltérésének egymáshoz vszonyított nagyságán alapul. Bal oldal, jobbra elnyúló aszmmetra esetén a medán az alsó (Q 1 ), míg jobb oldal aszmmetra esetén a felső (Q 3 ) kvartlshez esk közelebb. E mutatószám ugyanolyan feltételek mellett ad nulla, poztív és negatív eredményt, mnt az A mutató. Az F mutató lényegesen ksebb értékkel jelz a már nagyfokúnak teknthető aszmmetrát, mnt az A. ( Q3 Me) ( Me Q1) F ( Q Me) ( Me Q ) 3 1

Eloszlások Egymóduszú Több móduszú Szmmetrkus Asszmetrkus U alakú Mérsékelten asszmetrkus Erősen asszmetrkus M alakú Balra ferdült Jobbra ferdült J alakú Fordított J alakú

Konfdencantervallum (Confdence nterval)

A konfdencantervallum fogalma (Bzonyosság/megbízhatóság ntervallum) Olyan, a mntaelemekből számolt ntervallum, amely nagy valószínűséggel tartalmazza a populácó-paraméter valód (smeretlen) értékét. Valószínűség ntervallum, az nduktív statsztka eszköze. Ha mntából becsülünk, sohasem tudjuk a pontos értéket. Pl. 95%-os bzonyosság ntervallum az átlagra: olyan, a mntaelemekből számolt ntervallum, am 95% valószínűséggel tartalmazza a populácó valód átlagát. Leggyakrabban használt megbízhatóság sznt 95% (0.95).

Az átlagra vonatkozó 95%-os bzonyosság ntervallum szemléltetése az adott kísérlet képzeletbel smétlésevel Ha a kísérletet képzeletben 100-szor megsmételnénk, a 100 kapott 95%-os konfdenca ntervallum közül várhatóan 95 fogja tartalmazn a populácó átlagát, és 5 nem. http://www.kuleuven.ac.be/ucs/java/ndex.htm 56

Szgnfkanca vzsgálatok és a konfdencantervallum kapcsolata (H0: μ 1 = μ 2, azaz μ 1 - μ 2 =0, Ha: μ 1 μ 2 ) Szgnfkáns, p<0.05 Szgnfkáns. p<0.05 Nem szgnfkáns, p>0.05 0 Megjegyzés. Ha relatív kockázatot vagy esélyhányados vzsgálunk, akkor a konfdencantervallumban az 1-et keressük, hogy az értéket tartalmazza-e.