STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x n, mindig véges Véletlen minta = a minta elemek véletlen kiválasztása Kiválasztási arány : Mintavételi hiba Statisztikai adatgyűjtés Abból adódik, hogy nem a teljes sokaságot figyeljük meg. A sokaság heterogén. Kísérletek (ellenőrzött) Részleges adatfelvétel Reprezentatív megfigyelés Teljes körű (cenzus) Véletlen mintavétel Nem véletlen mintavétel Véletlen mintavétel Homogén sokaság esetén FAE: független azonos eloszlású minta EV: egyszerű véletlen minta Heterogén sokaság esetén R: rétegzett mintavétel Cs: csoportos (egylépcsős) mintavétel TL: többlépcsős mintavétel Nem véletlenen alapuló kiválasztás Szisztematikus Kvótás Hólabda Koncentrált Önkényes Egyéb
A kísérlet tulajdonságai Jó kísérlet Kezeléshatások Véletlen hiba Rossz kísérlet Kezeléshatások Szisztematikus hiba Véletlen hiba Reprezentatív minta tulajdonságai Tükrözi az alapsokaság jellemzőit (lehet általánosítani) Csak a mintavételi hibát tartalmazza Meghatározható a mintavételi hiba nagysága NEM reprezentatív minta tulajdonságai Nem lehet belőle általánosítani A mintavételi hiba mellett szisztematikus hibát is tartalmaz A levont következtetések kizárólag a megfigyelt egyedekre vonatkoznak Véletlen mintavétel, szisztematikus hiba Minden elem egymástól függetlenül és azonos valószínűséggel kerül a mintába (véletlen számok) Előnye: a belőle származtatott statisztikai mutatók csak a véletlen eltérést mutatják az alapsokaság mutatójához képest Szelekció szisztematikus hiba Reprezentativitás Véletlen minta előállítása Véletlen szám generátor Pszeudó véletlen szám generátor Rnd() függvény Excel Vél() függvénye VÉL()*(b-a)+a Statisztikai Valamely paraméter ismeretlen (feltételezett) tényleges értékének közelítő megadása egy statisztikai függvénnyel. Elvileg bármelyik statisztikai függvény tekinthető nek, valójában csak azokat használjuk, amelyeknek megvannak a jó legfontosabb tulajdonságai
A jó kritériumai Kis minta tulajdonságai Torzítatlanság (becsült várható érték = valódi érték) Hatásosság (variancia) Nagy minta tulajdonságai Konzisztencia Torzítatlan és konzisztens Olyan, amelynek várható értéke az igazi paraméter (torzítatlan) Olyan, amely a minta n elemszámának növekedésével (n ) a paraméter igazi értékéhez konvergál sztochasztikusan (erős konzisztencia esetén valószínűséggel) Torzítatlan és hatásos Torzított és hatásos Torzítatlan, de nem hatásos Torzított és nem hatásos
Mi az adatbázis Egy témakör vagy cél köré csoportosuló információ. Jó tervezés = hatékony adattárolás és információkinyerés Célorientált adatbázisok Adatbázis tervezés Milyen információt akarunk kinyerni? Milyen elkülönülő tématerületeken kell tárolni az adatokat? Hogyan kapcsolódnak ezek egymáshoz? Az egyes területeken belül milyen adatokat kell tárolni? Mi az adat? Minden információ, amit tárolni kell. szám szöveg dátum hang kép, stb. A mértékegységek többszörösei kilo- k 0 mega- M 0 6 giga- G 0 9 tera- T 0 peta- P 0 exa- E 0 8 SI (Systém International d Unités) Adatbázis felépítése Tábla Tábla (table) Ismérv, tulajdonság, változó, Mező (field) Megfigyelési egység, szubjektum, Rekord (record) Oszlop = változó Sor = megfigyelési egység, rekord
A jó adatbázis (kritériumok). minden mezőnek egyedi neve van a mezők elemi információt tartalmaznak A jó adatbázis (kritériumok)..nem lehet két egyforma sora.a sorok és oszlopok sorrendje tetszőleges ID Év Hely Tömeg Hosszúság ID Év Hely Tömeg Hosszúság A jó adatbázis (kritériumok)..ne tartalmazzon származtatott, kiszámított adatot (redundancia) 6.egy mező megváltoztatása nem hathat ki más mezőkre Rossz adatbázis ID Kérdés Válasz Válasz Válasz Válasz Helyes Hol? Itt Ott Amott Emitt ID Év Nettó ÁFA Bruttó A jó adatbázis (kritériumok). 7.minden szükséges adatot tartalmaz 8.van elsődleges kulcsa ID Év Hely Tömeg Hosszúság A változók mérési szintjei A változók az alábbi típusba tartozhatnak: Nominális (kategorikus és diszkrét) Ordinális Intervallum skála Arányskála
Alacsony és magas mérési szint Az alacsony mérési szintű változók: nominális (középértéke a módusz, a leggyakrabban előforduló adat) ordinális (középértéke a medián, a középen elhelyezkedő adat) Magas mérési szintű változók: intervallum arányskála? Nominális változók Nominális változó jellemzői Megszámlálható Gyakoriság Jellemző értéke: módusz Távolság és arány nem értelmezett a kategóriák között. Számítások a gyakorisági értékekkel. Mit lehet kiszámítani belőlük? Milyen kérdéseket lehet megfogalmazni? Nominális változó ábrázolása Ordinális skála Sorrenden alapuló skála Az egyes kategóriák kvantitatív alapon sorba rendezhetők Az objektumok közötti eltérés mértéke nem ismert Jellemző értéke: medián Intervallumskála Az egyes kategóriák kvantitatív alapon sorba rendezhetők Az objektumok közötti eltérés mértéke ismert Nincs abszolút nulla pont Jellemző értéke: átlag 6
Arányskála Az intervallumskála jellemzőivel rendelkezik Abszolút nullaponttal rendelkezik Jellemző értéke: átlag Elfogadná házastársnak? 7