Statisztikai módszerek 2. feladatsr Tapasztalati sűrűségfüggvény (hisztgram) és tapasztalati elszlásfüggvény A munkalap megnyitásakr engedélyezzük a makrókat. A munkalap az előző gyakrlatn tárgyalt 1. Feladatt kidlgzva tartalmazza, mert ehhez kapcslódva flytatjuk az elemzést. 1. Feladat az 1. feladatsr 1. feladatának másdik része c. Készítsen tapasztalati sűrűségfüggvényt (hisztgramt) és vesse össze az előző mennyiségekkel! d. Határzza meg a 81 és 95 LE közé esés relatív gyakriságát közelítőleg a hisztgram segítségével és pntsan az eredeti adatsr alapján! e. Készítsen tapasztalati elszlásfüggvényt az eredeti adatsrból! f. Készítsen tapasztalati elszlásfüggvényt a hisztgramból! Célja Tapasztalati sűrűségfüggvény (hisztgram) megismerése Tapasztalati elszlásfüggvény megismerése Intervallumba esés valószínűségének számítási módja Megjegyzés Az Excel rendelkezik beépített hisztgram készítővel (analysis tlpack), de hiába adunk meg eltérő szlpszélességeket, az ábrázlás (szélesség és magasság is) lyan, mintha egyfrmák lennének az szlpszélességek. Megldás menete c. Hisztgram készítése Javaslt intervallum szám kiszámlása 100-nél több adat esetén:. M5: =KEREKÍTÉS(LOG(F4;2)+1;0), (100-nél kevesebb adatra "gyök(n)") L8:L20 cellákba srljuk fel a számkat 1-től 13-ig Célunk úgy megválasztani az intervallum határkat, hgy minden szlpba kb. azns mennyiségű adat essen. A percentilis függvény első paramétere egy tömb, másdik paramétere egy arányszám. Visszaadtt értéke az az érték aminél a tömbben lévő elemek akkra része kisebb mint ami a másdik paraméter. Így: Alsó és felső határk: M8: =PERCENTILIS($B$4:$B$4197,(L8-1)/13) N8: =PERCENTILIS($B$4:$B$4197,L8/13) 1
Megegyezés szerint azkat az elemeket amik pnt intervallum határra esnek srljuk a határtól jbbra lévő intervallumba (kivéve a az utlsó intervallumt, mert attól már nincs jbbra). Az szlpmagasság megállapításánál az a célunk, hgy az szlp területe megegyezzen az intervallumba esés relatív gyakriságával. A relatív gyakriság kiszámításáhz először határzzuk meg a gyakriságkat: O8: =DARABTELI(B$4:B$4197;"<"&N8)-DARABTELI(B$4:B$4197;"<"&M8) húzzuk le végig, majd az utlsó cellában javítsuk ki az első "<" jelet "<="-re O20: =DARABTELI(B$4:B$4197;"<="&N20)- DARABTELI(B$4:B$4197;"<"&M20) Az szlpmagasság számítás tehát: "Terület/szélesség", azaz "(gyakriság/összelemszám)/szélesség" P8: =(O8/F$4)/(N8-M8), majd lehúzás vagy duplaklikk A hisztgram rajzláshz megadjuk azknak a pntknak az x-y krdinátáit, aminek összekötéséből létrejön a hisztgram. Ezek: (első intervallum kezdőértéke;0) majd minden szlpra (beleértve az elsőt is): (intervallum kezdőpnt;szlpmagasság) (intervallum végpnt;szlpmagasság) (intervallum végpnt;0) Lehet kézzel is összekattgtatni, de használhatjuk az előre elkészített makrót. A makrók használata nem követelmény zh-n. Nézet/Makrók vagy Office gmb/az Excel beállításai/népszerű Elemek/Fejlesztőeszközök lap megjelenítése a szalagn A makró helyes működéséhez kattintsunk az első intervallum srszámának cellájába (L8) Indítsuk el a makrót, ami legenerálja a szükséges adatkat: Nézet/Makrók/HisztgramAdatElkeszit Jelöljük ki a legenerált adatkat, majd rajzljunk belőle diagramt: Beszúrás/Diagramk/Pnt/Pnt vnalakkal Nevezzük át az adatsrt "Hisztgram" nevűre Az elszlás nem szimmetrikus hanem pzitív ferdeség figyelhető meg, azaz a jbbldali fark hsszabb Jelenítsük meg az átlagt a hisztgramban egy függőleges vnallal A vnal rajzlásáhz segítségül számljuk ki a legenerált adatsr y krdinátái közül a legkisebbet és a legnagybbat. Q48: max: R48: =MAX(R8:R47) Q49: min: R49: =MIN(R8:R47) Készítsük elő az átlag és a medián ábrázlásáhz szükséges adatkat R52: = F3 2
R53: = F3 S52: =F13 S53: =F13 T52: =R49 T53: =R48 Kattintsunk a hisztgramra, majd Adatk kijelölése/hzzáadás Adatsr neve: Átlag X értékek kiválásztása: R52:R53 Y értékek kiválásztása: T52:T53 Jelenítjük meg a mediánt is a hisztgramban X értékek kiválásztása: S52:S53 Y értékek kiválásztása: T52:T53 A pzitív ferdeség miatt az átlag a mediántól pzitív irányban helyezkedik el. Vessük össze a hisztgramt a bxplttal Ehhez célszerű a bxpltt "vízszintesen ábrázlni: Jbb klikk a bxplt diagramján/más diagramtípus/sáv/halmztt sáv Méretezzük át a két diagram (belsejét) egyfrma szélesre d. Intervallumba esés relatív gyakriságának számítása: A hisztgram használata az eredeti adatk helyett infrmáció vesztéssel jár így a hisztgramból nyert infrmációk általában csak közelítőleg felelnek meg a pnts értékeknek. Feladat: A hisztgram segítségével határzzuk meg, hgy a határn átlépett autók mekkra része esik 81 és 95 LE közé? A hisztgram segítségével arra tudunk (közelítő) választ adni, hgy mekkra a [81,95) intervallumba esés relatív gyakrisága? (A határk azért így vannak, mert a hisztgramt is úgy knstruáltuk, hgy az szlphatárra eső pntkat a jbbldali intervallumba srltuk.) Ekkr a relatív gyakriság megegyezik az intervallum feletti területtel. Jelen esetben egy hármnegyed, és két egész szlp területéről van szó, melyek területeit összeadva: M23: =(N16-M16)*P16+(N15-M15)*P15+(N14-M22)*P14 Megjegyzés: A közelítés itt abból a feltételezésből fakadt, hgy a [80,84) intervallumba eső adatk hármnegyed része esik a [81,84) intervallumba. Tehát, intervallumn belül egyenletes elszlást feltételeztünk, ami a valóságban általában nem teljesül pntsan. A pnts számítás elvégezhető az alábbi képlettel, ami "elég közeli" eredményt ad: M24: =(DARABTELI(B4:B4197;"<"&N22)-DARABTELI(B4:B4197;"<"&M22))/F4 e. Tapasztalati elszlásfüggvény az eredeti adatsrból: Ez a függvény minden teljesítményértékhez hzzárendel egy részarányt: Az adatk mekkra része kisebb az adtt teljesítménynél? A legkisebb adatnál kisebb teljesítményekre a függvény értéke 0. A legkisebb és a másdik legkisebb adat közti teljesítményekre 1/n. 3
Az i. és az i+1. Adat között i/n A legnagybb adat fölött 1 Az egyszerűbb ábrázlás érdekében rendezzük srba a teljesítményadatkat. Jelöljük ki a teljesítményeket Adatk/Rendezés (A->Z) Az A szlpban srszámzzuk meg a teljesítményeket A D szlpban számljuk ki a szükséges részaránykat D4: =A4/F$4 Duplaklikk. Az ábrázláshz jelöljük ki az B és D szlpt Beszúrás/Pnt/Pnt csak jelölőkkel Állítsuk a jelölő méretét minimálisra Hagyjunk helyet a hisztgram alatt a következő feladat számára. f. Tapasztalati elszlásfüggvény a hisztgramból: A hisztgram veszteségesen tömörített infrmáció az adatainkról Annyit tudunk pl., hgy 26 és 53 között előfrdult 276 adat, de az nem tudjuk, hgy pntsan mennyi vlt ezeknek az adatknak az értéke. A tapasztalati elszlásfüggvény ilyenkr durvábban rajzlható meg: Az első intervallumtól balra a függvény értéke 0, sőt az első intervallumhz tartzó szakaszn is 0 és csak az első intervallum végpntja után ugrik a fv. a 276/n értékre Mivel a másdik intervallumban 368 elem található, a másdik intervallumt is elhagyva a függvény felugrik a (276+368)/n értékre. Az utlsó intervallumt is elhagyva a fv. értéke felugrik 1-re. Számljuk ki azkat az értékeket amiket a tapasztalati elszlásfüggvény a fentiek alapján felvesz: Először számljuk ki a kumulált gyakriságkat: S8: =SZUM($O$8:O8) lehúzás Ezeket a minta elemszámmal sztva a szükséges aránykat: T8: =S8/$F$4 lehúzás A rajzlás itt is algritmizálható, és készült rá egy makró, ami ugyanúgy működik, mint a hisztgram esetében Egészítsük ki a felső határk szlpát egy 300-as értékkel (eddig ábrázljuk majd a tapasztalati elszlásfüggvényt). Az első intervallum srszámára kell pzícinálni a makró indítása előtt. Méretezzük a grafiknt a hisztgrammal azns szélességűre. Szükség esetén a vízszintes tengelyen állítsuk át a skálát 0-300 ig. Megjegyzés Az elszlásfüggvény valójában vízszintes balról nyílt, jbbról zárt szakaszkból áll, de mi nem ragaszkdtunk az ilyen ábrázláshz. 4
Gyakrló adatsr Ha maradt még idő, vagy tthni gyakrlásra megismételhetjük a 2. feladat lépéseit egy negatív ferdeségű adatsrn. Tipp önellenőrzéshez: A két adatsr egyfrma hsszú, így ha a srba rendezett gyakrló adatkkal felülírjuk a 2. feladat alapadatait akkr az a,b,c,e,f feladatkra megkapjuk a helyes eredményeket (a d-re nem igaz). 5