Leíró statsztka Egy kísérlet végeztével általában tetemes mennységű adat szokott összegyűln. Állandó probléma, hogy mt s kezdjünk - lletve mt tudunk kezden az adatokkal. A statsztka ebben segít mnket. A leíró statsztka tartalmazza azokat az egyszerű statsztkákat, melyekkel egy eloszlást jellemezhetünk, lletve annak fontos paraméteret meghatározhatjuk. Normáls eloszlás leírására szolgáló statsztkák Mnt azt a normáls eloszlás defnálásánál láttuk a kísérlet eredmények egy gen tekntélyes része normáls eloszlású. A normáls eloszlás két paraméterrel: a várható értékével és a szórással jellemezhető. A várható értéket a számtan átlaggal, mnt statsztkával becsülhetjük. x A számtan átlagot a x = kfejezéssel írhatjuk le, ahol x egy kmenet értéke, n pedg a mntavételek n száma. A szórást a korrgált szórással becsüljük. A korrgált szórást s-el jelöljük vagy σ n-1 -el. Kszámolásához a ( x x) s = képletet használhatjuk. n 1 E két paraméterrel tökéletesen jellemezhetünk egy normáls eloszlást. A normáls eloszlású valószínűség változók gyakor előfordulásával magyarázható, hogy a leíró statsztka leggyakrabban használt két statsztkája az átlag és a korrgált szórás. A tudósok nagy része főleg azt akarja megtudn, hogy adata mennyre jól közelíthetőek a normáls eloszlással. Ezen kérdés megválaszolására jó statsztkák állnak rendelkezésre, mnt a Kolmogorov-Smrnov teszt vagy a Shapro-Wlks W teszt, azonban semmlyen teszt nem helyettesíthet a vzuáls megfgyelést. Az adatok megjelenítése hsztogrammok formájában eleve segít a normalstás eldöntésében. A "ránézésre normáls" persze nem statsztka defnícó, azonban statsztka alkalmazásához szükséges tudn, hogy adatank normálsak-e vagy sem. Ha ránézésre sem normálsak, akkor ne s bajlódjunk olyan statsztkával, am ezt megkövetel (lyenkor jönnek a nem paraméteres statsztkák). A leíró statsztkák közül a ferdeség (skewness) és a lapultság (kurtoss) ad felvlágosítást a normaltásról, lletve attól való eltérésről. A ferdeség az eloszlás szmmetrkusságát mér, a lapultság a csúcsosságát, azaz az eloszlás mennyre lapos vagy csúcsos a normáls eloszláshoz képest. Ezen két paraméterrel a normálshoz hasonló alakú eloszlások jellemezhetőek. ferdeség együttható = M[( ξ M ( ξ )) D ( ξ ) ] = n x x ( ) ( ) n 1 n σ M[( ξ M ( ξ )) ] n( n + 1) x ( 1) lapultság együttható = x n = ( ) ( 1) ( ) ( ) D ξ n n n σ ( n )( n ) ahol, n a mnta elemszáma és σ az adatok szórása. Normáls eloszlás esetén mndkét együttható. Amennyben a lapultság együttható negatív úgy az eloszlás laposabb, mnt a normáls; poztív lapultság esetén az eloszlás csúcsosabb, mnt a normáls. A ferdeség együttható esetén poztív jelöl azt, amkor az
eloszlás maxmuma negatívabb (ksebb) értékek felé tolódk el. Negatív ferdeség együttható esetén a maxmum a poztívabb rányba tolódk el. Általános eloszlást leíró statsztkák Bár gen gyakran találkozhatunk normáls eloszlású valószínűség változóval, nem mnden eloszlás normáls. Amlyen jól jellemezhető az átlaggal és a szórással egy normáls eloszlás, annyra lehet félrevezető más eloszlások esetén. Nem hagyhatjuk fgyelmen kívül, hogy normáls eloszlás esetén a várható értéknél van a sűrűségfüggvény maxmuma, lletve gaz, hogy az eloszlás szmmetrkus és a várható érték a közepén van. Mndezek alapján érthető, hogy a várható érték gen jellemző egy normáls eloszlás esetén. Általános eloszlás esetén azonban sem az átlag, sem a szórás nem túl jellemző az adott eloszlásra (remélem a példákon keresztül skerül ezt bzonyítanom). Ilyen eloszlásokat más jellemzőkkel lehet leírn. Módusz A módusz a valószínűség változó legnagyobb valószínűségű értéke (a sűrűségfüggvény maxmumhelye). Egy eloszlásnak több módusza s lehet, bár ez rtka. Ilyen esetekben gyanakodhatunk, hogy több sokaság keveredését tapasztaljuk. Egycsúcsos szmmetrkus eloszlás esetén a módusz és a medán egybeesk. Mnmum: A legksebb érték. Maxmum: A legnagyobb érték. Terjedelem: Az lehetséges kmenetek azon legksebb ntervallumának nagysága, amben mnden tényleges kmenet szerepel. A legnagyobb és a legksebb érték különbsége. Medán Valószínűség alapokon a medán az az érték, amnél nagyobbat ugyanolyan valószínűséggel vesz fel a valószínűség változó, mnt ksebbet. Mntákra vetítve ez azt jelent, hogy a mnták fele a medán alatt, a mnták másk fele a medán felett lesz. Megkereséséhez a nagyság szernt rendezett mntaelemek közül a középsőt vesszük. Páros mntaelemszám esetén a két középső elem számtan átlaga a medán. Alsó/Felső Kvartlsek: A medán mntájára megadhatjuk azt az értéket, am alatt a kmenetek egynegyede van, lletve azt, am alatt a kmenetek háromnegyede van. Az előbb az alsó kvartls, az utóbb a felső kvartls. Percentlsek: Mnden százalékos értékhez rendelhető egy kmenet, am alatt a kmenetek adott százaléka található. Például a 1-es percentls az, am alatt a kmenetek 1%-a van. Példa A példákban azt szeretném bemutatn, hogy egy smert eloszlás esetén mlyen az értéke a különböző leíró statsztkáknak, lletve, hogy csak a jellemzők smeretében mlyen képet alkothatunk magáról az eloszlásról.
Leíró statsztka jellemzőkből az eloszlás vsszaállítása Gondoltam egy eloszlásra. Átlaga 5,7; szórása,97. Mndezek alapján az eloszlást a következőképpen képzelhetjük el:.1.1.1.1.... 5 1 Sokakban él ez kép, mert normáls eloszlást várunk. Azonban senk nem mondta, hogy az eloszlás normáls. Mechankusan mnden adatsorra kszámítható az átlag és a szórás, s e mögé m mndg normáls eloszlást képzelünk. Megadva a lapultságot (+,1) és a ferdeséget (+,59) tovább fnomíthatjuk a képet. Az eloszlás csúcsosabb és maxmuma kssé balra van. Mnden gaz, bár nem ad jó képet az eloszlásról. Megadom a legksebb és legnagyobb értékét. Legksebb értéke 1, legnagyobb értéke 1. 7 5 1 1 5 7 9 1 11 1 1 1 Ez alapján maxmum azt mondhatjuk, hogy az adatok lyen ntervallumban vannak. Fontos jellemzők, hsz később szükség lesz rájuk, valamnt megmondják, hogy alatta és felette nncs kmenet. A medán 5. Ez alapján a következő hsztogrammot várhatjuk:
1...... 1 5 7 9 1 11 1 1 1 Vegyük azonban észre, hogy önmagában a medán csak annyt ad meg, hogy alatt van a kmenetek fele, lletve felette s a kmenetek fele van. Ha egy eloszlásról csak a medánt smerjük, akkor lyen hsztogrammot nem szerkeszthetünk, mert nem tudjuk a mnmumot és a maxmumot. A módusz 5. Pusztán ez alapján a következő eloszlásra gondolhatunk: 1 1 1 1 5 7 9 11 1 A felső kvartls 7, az alsó kvartls. Ezek, a medán és a mnmum, maxmum alapján a következő eloszlást jósolhatjuk. 1 1 1 5 7 9 1 11 1 1 1 Ha beleveszzük, hogy a módusz 5-nél van, akkor a középső oszlopok nagyságát kssé megváltoztatva még pontosabb képet kaphatunk. A tényleges eloszlás a következő volt:
1 1 1 1 5 7 9 1 11 1 1 1 Példák 1. Gondoltam egy eloszlásra. Mnmuma 1, terjedelme, módusza és medánja, alsó kvartlse, felső kvartlse 5. Elemszáma 1. Hogy néz k az eloszlás? Az eloszlás maxmuma, mert a mnmum+terjedelem = maxmum. Egy tzenhárom elemű mnta medánja a 7. elem, am esetünkben. Az alsó kvartlse az. elem, felső kvartlse a 1. elem. Tehát bztosak lehetünk benne, hogy az első elem az 1, az 5. a, a 7. a, a 1. az 5 és a 1. a 7. A legtöbb - esből van. Feltételezhetjük, hogy mnden értéket felvesz az eloszlás. Így 1 1 1 v. 1 v. 5 v. 5 v. 7 1 9 v. 5 1 5 1 5 7 11 5 v. 1 v. 7 1 7