A MATEMATIKAI STATISZTIKA ELEMEI Az Eötvös Lórád Tudomáyegyetem Természettudomáy Kará a Fzka Kéma Taszék évek óta kéma-szakos taárhallgatókak matematka bevezetõ elõadásokat tart. Az elõadások célja az, hogy a hallgatóságak e legyeek degeek azok a matematka levezetések, állítások, amelyekkel késõbb, fõleg fzka-kéma taulmáya sorá találkozk. A valószíûségszámítás fejezetek smertetése utá a matematka statsztka eleme következek. Eek a tafolyamak léyeges részet tartalmazza jele vázlatos smertetés, elsõsorba azért, hogy a hallgatóság a taulás elõsegítésére azokat a számítógépes hálózatról magáak letölthesse. Az ayag a félév végég fokozatosa kerül fel a hálóra, tartalomjegyzéke eek megfelelõe folyamatosa bõvül. A tárgy elõadója Szepesváry Pál. Budapest 00 áprls
TARTALOM. A matematka statsztka jellemzése. Leíró és felderítõ statsztka. Sokaság és mta. Az adatok.. Az adatok fajtá.. Az adatok kezelése, a skálázás.. Az adatok skálázása..4 Az adatok ábrázolása. Az adatok eloszlása, a mták jellemzó.. Mtaközép jellemzõk a) számta közép, mtaátlag, (mea) b) medá, (meda) c) módusz (mode).. Kterjedés jellemzõk a) stadard devácó (stadard devato) b) varácós együttható (coeffcet of varato) c) terjedelem (rage) d) kvatlsek (quatles).. Egyéb eloszlásjellemzõk a) ferdeség (skewess) b) lapultság (kurtoss)..4 Megjegyzések a középértékrõl és a szórásról...5 A mta eloszlásáak grafkus szemléltetése a) a hsztogram b) a bo" vagy "szakállas" (bo ad whskers) ábra
. A matematka statsztka jellemzése A matematka statsztka a véletle (valószíûség) változókkal jellemezhetõ (továbbakba véletle) redszerek leíró adataak feldolgozásáról, értelmezésérõl és felhaszálásáról szóló tudomáyos módszerta. Amíg a valószíûségszámítás fogalma aomákkal összhagba defált vagy azokból levezetett absztrakt fogalmak, amelyek tulajdosága ílymódo adottak, a matematka statsztka megfgyelt, leszámlált vagy mért sajátságokat feleltet meg a valószíûségszámítás absztrak fogalmaak, sokszor megállapodásszerû módo. Szokásos modás: "amíg a valószíûségszámítás megtat valószíûségekkel számol, addg a statsztka megtat valószíûséget mér". Mutá a véletle által befolyásolt jeleségek em bztos kmeetelûek, a matematka statsztkába cseek bztos ítéletek. A matematka statsztka becsül, megbecsülhetõ valószíûségû ítéleteket hoz. Ige rtka az az eset, amelyél egy véletle redszer vselkedését mde elképzelhetõ kmeetelél meg lehet fgyel. A matematka statsztka következésképpe csak a redszer valamely szemügyre vett részletébõl, valamely folyamat pllaaty állapotából, tehát a redszer egy mtájából következtet magára a redszerre. Ez a statsztkus megállapítások bzoytalaságáak tovább oka. A matematka statsztka feladata tehát () jellemzõ számadatok, megállapítások levezetése, bemutatása megfgyelt adatokból, () valószíûség hozzáredelése a kapott vagy levot következtetésekhez, () dötés valamely fet alapo megfogalmazott állítás (hpotézs) elfogadásáról vagy elvetésérõl, végül, (4) olya ksérlet feltételek meghatározása (olya ksérletek tervezése), amelyek számukra az állítások megbízhatósága szempotjából legkedvezõbbek. 4. Leíró és felderítõ statsztka Vzsgált redszerek vagy teljese smeretleek vagy vaak róla elõzetes (a pror) smeretek. Ha vaak, képesek vagyuk többé-kevésbé alkalmas (adekvát) matematka modellt alkot, és ez esetbe a statsztka adatgyüjtés célja a modell paramétereek megbecslése. Ha cseek elõzetes smeretek, a leíró és felderítõ statsztka módszeret alkalmazzuk, amelyekre persze a modell alapú vzsgálatokál s szükség va. A felderítõ statsztka az adatok, a mta kezelésére, jellemzésére, ábrázolására voatkozóa ad útmutatásokat, több változó eseté pedg számos tovább feladatot old meg (alakfelsmerés, csoportosítás, osztályozás). 5. Sokaság és mta
4 Vszgálatuk tárgya egy redszer. Egy redszerek eleme (objektuma) vaak, az objektumokak tulajdosága. (Objektumok például: emberek, társadalmak, folyók, botópok, oldatok, spektrumok, tulajdoságok az emberek testmérete, emberek, társadalmak, folyók, botópok, oldatok, spektrumok, tulajdoságok az emberek testmérete, a társadalmak lakosságszáma, emzet jövedelme, a folyók vízhozama adott dõbe, helye, botópok fajaak száma, egyedsûrüsége, oldatok kocetrácó, spektrumok csúcsmagassága adott hullámhosszo stb.) Egy redszerek általába sok objektuma, azokak sok, számos esetbe végtele sok értékû tulajdosága va. A redszert alkotó objektumok, potosabba azok tulajdoságat leíró (végtele) sok jellemzõ változó adat alkotja az adatok sokaságát. A sokaság eleme tehát lehetek fzka létezõk, de elméletek s. A sokaság szabatos meghatározása fotos feltétele a statsztka mukáak, hsze ez jelet a feldolgozásra váró adatok potos meghatározását. (Egy folyó vzállása áprls 6-á és ovember -é például két statsztka sokaság). Általába csak arra va móduk, hogy a redszer egy részletét, vagy egy bzoyos állapotát fgyeljük meg, azaz aak leíró adataból mtát vegyük. Szokás moda: a sokaság az összes elképzelhetõ mta halmaza. A mta vzsgálatáak eredméyébõl következtetük a sokaságra, a mta vétele tehát az eredméyek értéke szempotjából elsõredûe fotos. A mta legye (a) reprezetatív, összetételébe képvselje helyese a sokaságot, amelybõl vették, (b) véletle, a mtaelemek kerüljeek egymástól függetleül, egyelõ valószíûséggel a mtába, (c) elégséges méretû, elegedõe agy ahhoz, hogy a mta alapjá levot következtetések kellõe valószíûek legyeek.. Az adatok.. Az adatok fajtá Az adatokat kategorkus és em kategorkus (kvattatív) jellegûekre szokás feloszta. A kategorkus adatok alapjá az objektumokat osztályoz lehet. A kategorkus adatok lehetek evesítõek (omálsak) és redezõek (ordálsak). A evestõ adat egy-egy objektumot valamely (esetleg egyelemû) osztályba osztályba sorol, a redezõ adat már sorredet s defál. (./a táblázat)
5./a táblázat. Kategorkus adatok Adatfajta Az adatoko értelmezhetõ müvelet Példa Nevesítõ (omáls) =, Nem, év, állampolgárság, foglalkozás, telefoszám Redezõ (ordáls) =,, <, > Iskola osztályzat, rag, betegség foka, IQ Azokat a kategorkus adatokat, amelyek csak két osztály valamelykébe sorolhatak, dchotómkus vagy bárs adatokak evezk. (Dchotómkus adatok: férf-õ, gaz-hams, kcs-agy, beteg-egészséges) A kvattatív adatok lehetek folytoos vagy dszkrét (mérhetõ vagy leszámlálható, gyakra metrkusak evezettek) adatok. Szokásosa megkülöböztetk azokat adatokat, amelyek skálájáak ökéyes a 0-potja,.léyegébe külöbségük értelmes (tervallum skála) azoktól, amelyekre multplkatív artmetka mûveletek s alkalmazhatók (aráyos skála).(./b táblázat)../b táblázat. Metrkus adatok példá Adatskála Folytoos Dszkrét Itervallum Potecál, Celsus fokba mért hõmérséklet Naptár apok Aráyos Tömeg, Abszolut hõmérséklet Részecskeszám Vegyész gyakorlatukba az esetek túlyomó részébe metrkus adatokkal (tömeg, ayagmeység, térfogat, kocetrácó, yomás, hõmérséklet, eergák sebességek) va dolguk... Az adatok kezelése, a skálázás A sokaságból vett elemû mta -edk adata egy: mtaelem =, (.) A mtaelemek sorozata a mta =,,, (.) ahol de az adat mérés sorszáma. Ha a mta adatat agyságuk szert állítjuk sorba, a redezett mtához jutuk: * * * * * * A redezett mta,,...,... (.)
6.. Az adatok skálázása Egy mta természetes terjedelmét a számegyeese a legksebb és legagyobb értékû mtaelem határozza meg. Külöbozõ okokból szükség lehet arra, hogy ezt a terjedelmet módosítsuk, hogy az adatokat más egységbe, más skálá tektsük. Ezt skálázással lehet elér, amelyek sorá az eredet mtaelemekhez valamely számot hozzáaduk, vagy/és azokat valamely azoos számmal osztjuk. A számos skálázás lehetõség közül a vegyész gyakorlatba a mértékegységváltás, a mta ormálása 0 és érték közé (móltört, tömegtört megadás), a mta cetrálása, és a mta stadardzálása leggyakorbbak. Normált mtához jutuk, ha az eredet mta mde elemét az elemek összegével osztjuk. Eek egy eleme: z Felhívjuk a fgyelmet arra, hogy az így ormált adatok között egy már függetle a többtõl, az adatok összegébõl és a - adatból a függõ már kszámítható. Cetrált mta keletkezk, ha mde elembõl kvojuk az elemek átlagát (l..7 képlet): ( c) = ( 5. ) = k= k (.4) A cetrált mtába szükségképpe poztv és egatív értékek lépek fel, az elemek összeg 0. Ebbõl következk, hogy a cetrált adatok közül s csak - darab függetle. A stadardzált lesz a mta akkor, ha az eredet mtaelemekbõl kvojuk azok átlagát és a külöbségeket a mta emprkus szórásával (l..0 képlet) osztjuk: u = (.6) s A stadardzált mta 0-közepû, szórása..4 Az adatok ábrázolása Mtákról szemléletes képet ad a potsor, azaz a mtaelemek ábrázolása a számegyeese, az (egyváltozós) szóródás kép (uvarate scatter plot).
7.. példa: Tektsük egy 4 elemû mtát: -7,-46, 67,-8,7, 07,, -0,, -6, -, -0 99, 7, 57, -5, 60, -7, -95, -6, 4, 9. 58, 87 Redezve: -6,-0,-0,-7,-95,-8,-46,-7,-5,-7,-6,- 4, 9,, 57, 58, 60, 67, 87, 99, 07,, 7 Potsorral ábrázolva: Uvarate Scatter Plots Data o Orgal Scale C -00-00 0 00. ábra Potsoros ábrázolás. Az adatok eloszlása, a mták jellemzó Bár az adatok sorozatáak és képéek megtektése bzoyos fokg tájékoztat az adatok elhelyezkedésérõl, szükség va olya számadatokra, amelyek tömöre jellemzk a mta (a) közepét, (b) terjedelmét és (c) eloszlását. Egy-egy célra több jellemzõ közül lehet választa. A valószíûségszámítás sokaságok eloszlásáak jellemzésére potosa defált meységeket, mt várható érték, szórás, ferdeség, lapultság, korrelácós együttható stb. Levezette ezekek a meységekek tulajdoságat s. Az alábbakba smertetett tapasztalat (ksérlet, gyakra statsztkákak evezett) jellemzõk ezekek az elmélet meységekek becslése. A becslések között külööse értékeljük azokat, amelyek torzítatlaok. Torzítatla az a becslés, amelyek várható értéke megegyezk azzal a meységgel, amelyket becsül... Mtaközép jellemzõk a) számta közép, mtaátlag, (mea) A számta közép = = (.7)
8 A számta közép a hagyomáyos legksebb égyzetek elvéek megfelelõ jellemzõ, a várható érték torzítatla becslése. Hátráya, hogy érzékey a szélsõségese eltérõ ("klógó") adatokra. Az. példába szereplõ adatok számta közete: - 7.54 b) medá, (meda) A medá az változó azo értéke, amelyél a mta elemek fele ksebb, fele agyobb. % = = % = + m+ m + m + ha a mta páratla elemõ, = m+ (.8/a) ha a mta páros elemû, = m (.8/b) A medá em érzékey szélsõséges értékekre, u.. robusztus becslõ. Az. példába szereplõ adatok medája: 6 c) módusz (mode) A módusz a leggyakrabba elõforduló mtaelem értéke* * több mamumos eloszlásokál a leggyakorbb, majd a másodk leggyakorbb... d = leggyakorbb (.9) A módusz a valószíûség változó sûrüségfüggvéyéek mamumhelye. Ksérlet meghatározása agy mtákból lehetséges, ahol beszélhetük azoos értékû mtaelemekrõlrõl. Tovább, adott esetbe haszos, de gyakorlatukba rtkábba elõforduló mtaközép jellemzõk még a mérta közép: (g) =.... és a harmokus közép: ( h) = + +... +.. Kterjedés jellemzõk a) stadard devácó (tapasztalat szórás, korrgált emprkus szórás (stadard error, stadard devato): Stadard devácó ( ) s = = (.0)
9 Ez a jellemzõ az elmélet szórás becslése. Nevezõjébe a kézefekvõ helyett azért szerepel -, mert azt csak - függetle mért adatból számíthattuk k. A számta közép ugyas egy adatot az közül a többbõl kszámíthatóvá tesz. Ha a evezõbe álla, a stadard devácó torzította becsülé a szórást. Fotos megjegyzés: Ha adat között m darab megkötés létezk, az adat között csak - m darab függetle. A függetle adatokak ezt a számát szabadság fokak (degree of freedom, DF) s evezk. Az. példába szereplõ adatok stadard devácója: 98.64 b) varácós együttható (coeffcet of varato) " c. v." = V = s / (.) A varácós együttható azt mutatja meg, háyadrésze, háy százaléka a tapasztalat szórás a középértékek. Bzoyos esetekbe (pl 0 várható értékû sokaságokál) értelmetle. c) terjedelem (rage) A terjedelem a legagyobb és legksebb mtaelem külöbsége d = ma - m (.) Az. példába szereplõ adatok terjedelme: 7 - (-6) = 5 d) kvatlsek (quatles) p-s kvatls az változó azo értéke, amelyél ksebb mtaelemek háyada p) 0.-es kvatls = decls = 0. percetls 0.5-ös kvatls = elsõ kvartls (Q ) = 5. percetls 0.5-ös kvatls = másodk kvartls (Q ) = 50. percetls= medá 0.75-ös kvatls = harmadk kvartls (Q ) = 75. percetls 0.90-es kvatls = 90. percetls Az. példába szereplõ adatok elsõ kvartlsa -6.5, medája 6, harmadk kvartlsa 6.5.. Egyéb eloszlásjellemzõk.. Egyéb eloszlásjellemzõk a) ferdeség (skewess) A ferdeség γ = ( )( ) = * s (.)
0 Ez a meység a harmadk cetráls mometum/szórás módo, a γ = E [( ξ E( ξ) ) ] képlettel defált meység becslése. A ferdeség valószíûség változókak külöbözõ sûrüségfüggvéye eseté az alábbak szert alakul: σ Sürüségfüggvéy Szmmetrkus Nem szmmetrkus Csúcs elõl Csúcs hátul Ferdeség: 0 poztív egatív Az. példába szereplõ adatok ferdesége: -0.785 b) lapultság (kurtoss) A lapultság: A lapultság a γ = ( ) ( )( )( ) = γ E * s 4 [( ξ E( ξ) ) ] = 4 σ ( ) ( )( ) 4 (.4) képlettel, γ = egyedk cetráls mometum / szórás 4 - módo defált meység becslése. Ha a lapultság poztív, akkor a sokaság eloszlásáak sûrüségfüggvéye csúcsosabb, mt a ormáls eloszlás haraggörbéjéé, ha egatív, akkor laposabb, ha 0, akkor egyezõ. Az. példába szereplõ adatok lapultsága : - 0...4 Megjegyzések a középértékrõl és a szórásról. a) A középérték leárs fukcoál: E(αX + βy) =αe(x) + βe(y) b) Néháy fotos tétel a szórásról és a szóráségyzetrõl (varacáról): D (X ± Y) = D (X) + D (Y) = σ + σ y D(X+Y) = (σ + σ y ) / D (αx) =α D (X) D(αX) =αd(x) D (X ± α) = D (X) D (X ± α) = D(X) Fetekbõl következk: A középérték szórásáak becslése
s m s = = ( ) ( ) (.5) Levezetés: D ( ) D ( ) ( ) ( ) D σ σ σ = / = D = = = = Fotos összefüggés: ( ) = = ) / = ( ) = ( ) (..5 A mta eloszlásáak grafkus szemléltetése a) a hsztogram A hsztogram egy redezett mta elõre ktûzött változó-tartomáyaba esõ elemek számát vagy gyakorságát ábrázolja. A hsztogram hasábjaak szélessége a változótartomáyt, magassága az (abszolut vagy relatív) gyakorságot ábrázolja. Túl kevés tartomáy ktûzésekor az formácó szegéyes (./a ábra), túl sok eseté a kapott kép áttekthetele. (./c ábra) Hstogram 0 Frequecy 0 0-0 C./a ábra Elagyolt hsztogram
Hstogram 9 8 7 6 Frequecy 5 4 0 - - 0 C./b ábra Jól méretezett hsztogram Hstogram 7 6 5 Frequecy 4 0 - - 0 C./c ábra Túlrészletezett hsztogram b) a bo" vagy "szakállas" (bo ad whskers) ábra A bo vagy szakállas (bo ad whskers) ábra az eloszlás szemléltetéséek célszerû módja, amely a változó számegyeesé külöbözõ, jellemzõ krtkus potokat tartalmaz: medá gyaús Q Q gyaús * /////// ////////////// * Q-.5 I m ma Q+.5 I (I = Q - Q = terkvartls távolság)
Boplots.0 0.9 0.8 0.7 0.6 0.5 0.4 0. 0. ma Q medá Q 0. 0.0 m C. ábra A bo ábra. példa. Négy mtát hasolítuk össze. C4 és C adatok aszmmetrkus eloszlású sokaságokból származak, C ormáls és C egyeletes eloszlásúak. A potsor ábrák az alábbak: Uvarate Scatter Plots Data o 0 - Scale C4 C C C 0.0 0.5.0.4 ábra A. példa mtáak potsor ábrá Boplots Data o 0 - Scale.0 0.5 0.0 C C C C4.5 ábra. A. példa mtáak bo ábrá