Statisztikai alapok Leíró statisztika Lineáris módszerek a statisztikában
Tudományosan és statisztikailag tesztelhető állítások? A keserűcsokoládé finomabb, mint a tejcsoki. A patkány a legrondább állat, a pók szorosan követi. A nők arra vannak teremtve, hogy ellássák a háztartást. Szebbek-e a magyar nők, mint az olaszok? Miért? Ezek szubjektív vélekedések; és ezek kvalitatív tulajdonságok (kategóriák), azaz nehezen tesztelhetőek közvetlenül számszerű adatokkal, nehezen mérhetőek (a méréséhez kell némi módszertani ismeret és konszenzus).
A tudományosság alapfeltételei (Karl Popper) 1. Falszifikálhatóság/megcáfolhatóság: Az elméletünknek/állításunknak megcáfolhatónak kell lennie. Egy nagy szörny lakik a Loch Ness-i tóban. (?) 2. Operacionalizálás lehetősége (számszerűsíthetőség): Kérdésfeltevés úgy, hogy empirikusan megfigyelhető adatok alapján megválaszolható legyen. A mai emberek igénytelenebbül beszélnek mint a régiek. (?) 3. Reprodukálhatóság: A kísérleti dizájn és a felhasznált módszerek alapján az eredményeknek megismételhetőknek kell lenniük. Előfeltétel: módszerek részletes leírása. 4. Objektivitás: Függetlenség a kísérletvezetőtől és a kísérlet körülményeitől. Tudok egy tavat, ahol fekete hattyúk élnek, oda megyek kísérletezni!
A tudományos megfigyelések: kvalitatív és kvantitatív adatok Kvantitatív: megszámolható vagy mérhető egységek. Kvalitatív vagy kategorikus: nem számszerű, kategóriákba tartozó, pl. szemszín, vallás, vélekedés arról, hogy szép.
Az empirikus vizsgálatok néhány alapfogalma Populáció = statisztikai sokaság: az egyéneknek az a csoportja, akikre az állítás vonatozik. (Nem a teljes emberiség, hanem pl. az idősek vagy cukorbetegek, stb.) Valamely olyan közös tulajdonsággal rendelkezik, Amely alapján eldönthető, hogy egy egyed a populációba tartozik-e. A populáció tulajdonságait nem tudom a populáció egészén vizsgálni ~ Sajtból van a Hold nem tudok kimerítő vizsgálatot végezni Megfigyelési egységek: amikre/akikre vonatkozóan a megfigyelést teszem (pl. vizsgálati személyek; nyelvi egységek, pl. beszédhangok; gyümölcsfák, stb.)
Az empirikus vizsgálatok néhány alapfogalma Minta: A kutatásba ténylegesen bevont megfigyelési egységek együttese pontosabban a vizsgált változó ezeken az egységeken mért értéke (nem Kovács Sanyi, hanem 192 cm) A minta alapján megfogalmazott következtetés csak akkor utal a populációra, ha a minta reprezentatív, tehát jól leképezi a populáció tulajdonságait. Ez hogyan biztosítható? Mivel a populáció tulajdonságait nem, vagy nem jól ismerjük, a reprezentatív mintavétel úgy biztosítható, ha a mintavétel véletlen és független tehát a populáció minden tagjának egyenlő esélye van bekerülni. Irányítottan reprezentatív mintavétel: a minta rétegzettsége leképezi a társadalmat (ez nagyon ritka, főként mert nagyon nehéz)
Az empirikus vizsgálatok néhány alapfogalma A mintabeli egységek nem teljességükben, csak bizonyos jellemzőik, paramétereik tekintetében vizsgáljuk (Pl. vajdasági és mo.-i magyarok összevetése antropometriai? Pszichológiai? Szociológiai? nyelvi?). Statisztikai változó vagy változó: Meg kell határozni, milyen ismérvek hordozzák a kérdéses jelenségről az információt (pl. nem, életkor, vérnyomás, tetszés mértéke egy ötfokú skálán, formánsfrekvenciák, stb).
Értékskálák és változótípusok A számok tulajdonságai alapján négy különböző erősségű eltérő rendű értékskálát határozhatunk meg: 1. Arányskála (arányskálájú vált.) 2. Intervallum-skála (intervallum skálájú vált.) a számok minden tulajdonságával rendelkezik 3. Ordinális skála (ordinális vált.) 4. Nominális skála (nominális vált.) a számok egyik tulajdonságával sem rendelkezik
Változók további tulajdonságai Kvalitatív (kategorikus): nominális, ordinális Kvantitatív: aránysk., intervallumsk. Diszkrét: megszámolható, véges érték Folytonos: értéke egy adott intervallumban akármilyen valós számot felvehet Kategóriák vagy csoportok: változók összefoglalása (pl. 25 és 35 év közöttiek fiatal felnőttek ). Egyszerűbb kezelés, de információvesztés.
Populáció jellemzése Empirikus kutatás (statisztikai elemzés) célja: a mintából a populációra következtetni inferenciális statisztika. Minta: egy adott változó a megfigyelési egységeken mért értékei. Minta elemzése/jellemzése: leíró statisztika. A leíró statisztikában megállapított jellemzők: Gyakoriság, Eloszlás, Középérték, Szóródás. Inferenciális statisztika: ezekkel a tulajdonságokkal becsüljük a populáció tulajdonságait.
Változók populációbeli eloszlása Statisztikai elemzés célja: a mintából a populációra következtetni. Egy megfigyelési egység: nő vagy férfi a populáció: nem nő v. ffi hanem x%-a nő a populációt nem a kategóriák, hanem az összetétel jellemzi Változó eloszlása: Egy populáció egy adott változó szerinti jellegét az adja meg, hogy annak egyes értékei milyen gyakran fordulnak elő az adott populációban.
Relatív gyakoriság (%) Diszkrét változók eloszlása: gyakoriság Mo. lakosságának iskolai végzettsége: alsófokú középfokú felsőfokú OSZLOPDIAGRAM Értékek gyakorisága (db): 3 150 000 4 500 000 1 800 000 (össz. = elemszám) Értékek relatív gyakorisága (%): 35% 45% 20% (össz. 100%) Értékek kumulatív gyakorisága (%, mediánhoz jön jól): 35% 80% 100% betűhossz Az érték előfordulásának valószínűsége: p = 0,35 p = 0,45 p = 0,20 (össz. 1)
Folytonos változók eloszlása: sűrűségfüggvény Folytonos változók: értékei a számegyenes egy adott intervallumán végtelen számosságúak lehetnek. Nem tudom megszámolni ( túl sok lenne az oszlop ). Megszámlálás helyett azt kellene megtudni, hogy az értékskála egyes övezeteibe a populáció hányad része esik. sűrűségfüggvény. Sűrűségfüggvény: Ez a fv. a változó minden x értékéhez egy nem negatív egész f(x) számot rendel: f(x) nagyobb azokra az x-ekre, melyek környezetében a populációbeli egyedek jobban sűrűsödnek.
Sűrűség Sűrűségfüggvény Folytonos változóra. Egy adott intervallumhoz eső területszelet területe egyenlő az a és b érték közti intervallumra eső értékekkel jellemezhető személyek és a populáció arányával azaz az adott értékek valószínűségével. A fenti okból a sűrűségfüggvény grafikonja alatti összterület mindig 1 (= a populáció 100%-a).
Sűrűség Sűrűségfüggvény értelmezése életkor 5 9 T (a,b) = a populációban az 5 és 9 év köztiek aránya Pl.: T = 0,63, akkor a populáció 63 %-a esik ebbe az életkori sávba T = 0,63 a valószínűsége (azaz 63%), hogy ennyi idős embert választok, ha véletlenül választok.
Eloszlás jelentése és jelentősége Sorrendbe állított elemek milyen gyakran fordulnak elő. Legalább ordinális adatok kellenek hozzá! Előállítás: folytonos vagy diszkrét értékek közti interpolációval. Interpoláció: a függvénytan (matematika) eszköze, nem ismert értékekre ismert értékek alapján ad becslést. Eloszlás jelentősége: ez a valószínűségi statisztikai elemzés alapja!
Valószínűségek és statisztika kapcsolata Valószínűségszámítás: ismerem a világot (populációt). Egy betegség előfordulási gyakorisága 20%. Mekkora a valószínűsége, hogy egy 50 elemű véletlenszerűen kiválasztott mintában négy beteget találunk? Statisztika: nem ismerem a világot (populációt), hanem a mintából próbálok következtetni rá. Ha 50 véletlenül kiválasztott egyed között 4 beteget találunk, mit állíthatunk a betegség előfordulási gyakoriságáról a populációban?