Statisztika Tegyük fel, hogy va egy halmazuk, és tekitsük egy vagy több valószíűségi változót, amelyek a halmaz mide elemé felveszek valamilye értéket. A halmazt populációak vagy sokaságak evezzük. Példák: 1. egy iskolai osztály taulói, a változó: magasságuk cetiméterbe; 2. egy iskola taulói, a változók: magasságuk cm-be, súlyuk (tömegük) kilóba; 3. egy iskola taulói, a változó: taulmáyi átlaguk; 4. egy almaszállítmáy, a változó: az almák átmérője milliméterbe; 5. egy elemszállítmáy, a változó: élettartamuk adott terhelés mellett órába mérve; Ezekek a valószíűségi változókak va eloszlásuk, ami azoba számukra általába em ismert. Ha ismerék, meg tudák modai bármit, pl. meyi a várható értéke, meyi a szórása, meyi a valószíűsége, hogy a sokaság egy véletleszerűe kiválasztott eleme eseté a valószíűségi változó értéke egy adott itervallumba esik, vagy hogy tíz ilyeek az átlaga milye valószíűséggel kisebb vagy agyobb, mit egy adott szám, stb. A gyakorlatba leggyakrabba előforduló kérdések: 1. Meyi a tekitett valószíűségi változó várható értéke? 2. Meyi a tekitett valószíűségi változó szórása? 3. A valószíűségi változó tekithető-e egy adott eloszlásúak? 4. Igaz-e, hogy a várható értéke egy adott szám? 5. Igaz-e, hogy a szórása em agyobb, mit egy adott szám? 6. Ha két valószíűségi változót tekitük, va-e ezek között kapcsolat, és az milye? 7. stb. Az első két esetbe paraméterbecslésről beszélük, a következő háromba hipotézisvizsgálatról, a hatodikba regresszióaalízisről. Midegyik esetbe a vizsgálat első lépése, hogy mitát veszük. A mitavételél yilvá az a szempot, hogy a mita miél jobba tükrözze a sokaság jellemzőit. A külöböző mitavételi ötletekre most em térük ki, de fotos, hogy a mitavételi algoritmust úgy határozzuk meg, hogy a sokaság bármelyik eleme " ugyaolya valószíűséggel" kerülhesse a mitába. Jelölje a mita elemszámát. Jelölje X i az i-edik mitaelemre jellemző valószíűségi változót. Midig feltesszük, hogy ezek a változók függetleek és azoos eloszlásúak. Mit jelet ez? Tekitsük pl. az almaszállítmáyt az átmérővel. Pl. elhatározzuk, hogy 10 almát foguk mitaképpe megméri. Az 1
azoos eloszlás azt jeleti, hogy aak valószíűsége, hogy az elsőek választott alma átmérője kisebb, mit pl. 70 mm, ugyaayi, mit az, hogy a másodikak vagy hetedikek választott alma átmérője kisebb, mit 70 mm, és ez igaz bármelyik választásra, és bármilye értékre. Azt, hogy ez a valószíűség meyi, em tudjuk, de az biztos, hogy ugyaayi. A függetleség azt jeleti, hogy pl. bármit is mértük az első alma eseté, aak valószíűsége, hogy a második, vagy akármelyik másik átmérője egy adott érték alatt vagy felett va, em lesz sem kisebb, sem agyobb, mit ami a sokaságra eredetileg is jellemző volt. Ezek utá a mita értékeit bizoyos képletekbe helyettesítjük, így tulajdoképpe többváltozós függvéyek helyettesítési értékeit kapjuk. Ezeket a függvéyeket " statisztikákak" evezzük. Ezekből a " statisztikákból", azaz helyettesítési értékekből vouk le azutá mideféle következtetéseket. Mivel a mita véletle, a helyettesítési érték is véletle. Egy másik mitához általába másik helyettesítési érték tartozik. Ezért ezek a helyettesítési értékek szité valószíűségi változók, amelyekek va valamilye eloszlása. Ezek szerit a következtetéseik valamilye valószíűséggel lehetek jobbak, rosszabbak. Az, hogy milye függvéyt haszáluk, függhet attól, hogy vaak-e előzetes iformációik a sokaságról, és attól is, hogy milye szempotok alapjá tekitjük az egyiket jobbak a másikál. Például, következtethetük a sokaságra jellemző paraméterekre. Ilye a várható érték, vagy a szórás. Milye statisztikákkal becsülhetjük pl. a várható értéket, azaz a " súlyozott" átlagot? Az almás példáál maradva, vehetjük 1. a 10 érték átlagát (f = ( X i )/10); 2. az ötödik mért értéket (f = X 5 ); 3. az első és utolsó átlagát (f = (X 1 + X 10 )/2); 4. a mért értékek mediáját (agyság szerit a középső érték, ebbe az esetbe ics középső, ilyekor a két középső számtai közepe); 5. a legkisebb és legagyobb érték átlagát(f = (mi X i + max X i )/2); 6. a 10 érték átlagáak a felét (f = ( X i )/20); Melyiket válasszuk? Mivel midegyik valószíűségi változó, az kellee, amelyik a legagyobb valószíűséggel a legközelebb va ahhoz, amit becsüli akaruk. Először is olya kell, amelyikek a várható értéke ugyaaz, mit amit becsüli akaruk, vagyis amelyik átlagba közel va a becsledő értékhez. Az utoló " ötlet" yilvá em felel meg eek a követelméyek. A többiről viszot belátható, hogy megfelel. A legagyobb valószíűséggel az lesz közülük a legközelebb a várható értékhez, amelyikek legkisebb a szórása. Belátható, hogy az első redelkezik ezzel a tulajdosággal. Nem csak várható értéket becsülhetük, haem bármilye más paramétert is, pl. szórást. Kézefekvőek látszik a szórást az i=1 s = (X i m) 2 2
képlettel becsüli, de a valóságba m-et legtöbbször em ismerjük. Ekkor (jobb híjjá) a mitaátlagot tehetjük a várható érték helyébe, akkor kapjuk az u. empirikus (vagy tapasztalati) szórást: s = i=1 (X i X) 2. Defiíció: Paraméterek olya becslését, amelyek várható értéke megegyezik a becsüledő paraméterrel, torzítatla becslések evezzük. Az olya becslést, amelyek a szórása miimális, hatásos becslések evezzük. Belátható, hogy a mitaátlag a várható értékek torzítatla és hatásos becslése. Az empirikus szórás viszot em torzítatla becslése a szórásak, haem 1 s várható értéke a σ-ak -szerese, azaz aál valamivel kisebb. Ez azért lehet, mert a mita átlagos eltérését em a téyleges várható értéktől, haem a " saját" átlagától számoljuk, amihez kissé közelebb va. Ha a szórás becslésére a s i=1 = (X i X) 2 1 képletet, az u. korrigált empirikus szórást haszáljuk, akkor ez már torzítatla becslése lesz σ-ak. Ha tudjuk, hogy a valószíűségi változó, amelyre iformációkat gyűjtük a mitából, milye eloszlású, és csupá a paramétereket akarjuk becsüli, akkor alkalmazhatjuk az u. maximum-likelihood becslést, azaz, a legagyobb valószíűség elvé működő becslést. Ha ics elképzelésük, hogy milye lehet a tekitett valószíűségi változó eloszlása, akkor olya becsléseket kell találi, amelyek em függeek attól, kokréta milye eloszlása va a valószíűségi változóak. A cetrális határeloszlás tétel szerit, ha elég agy, akkor azoos eloszlású, függetle X i -k eseté, függetleül attól, hogy ezek eloszlása milye, az i=1 Y = X i m σ valószíűségi változó eloszlása jó közelítéssel stadard ormális (ahol m = E(X i ), σ = D(X i )). A törtet -el " egyszerűsítve" Y = P i=1 Xi m σ, amiből az következik, hogy agy eseté a mitaátlag olya ormális eloszlású valószíűségi változó, amelyek várható értéke m, szórása pedig σ. Mivel Y - et stadard ormálisak tekitjük, akármilye valószíűséghez tuduk olya itervallumot modai, ahová az adott valószíűséggel esik. Sőt, végtele sok ilyet is tuduk. Logikusak tűik, hogy a legrövidebb ilyet modjuk, ez pedig szimmetrikus a várható értékére, a ullára. Például, ha olya itervallumot 3
akaruk, amelybe 95% valószíűséggel esek az értékei, akkor (táblázatból kiolvasva) P ( 1, 96 < Y < 1, 96) = 0, 95. Jelöljük a mitaátlagot X-sal (olvasd: " x-voás" ). Ekkor Ebből akár a P ( 1, 96 σ < X m < 1, 96 σ ) = 0.95. P (m 1, 96 σ < X < m + 1, 96 σ ) = 0.95, (1) akár a P (X 1, 96 σ < m < X + 1, 96 σ ) = 0.95 (2) valószíűségek felírhatók. Az előbbi azt mutatja, hogy egy m várható értékű σ szórású sokaságból vett elemű mita átlaga 95% valószíűséggel esik az adott itervallumba, a második pedig azt, hogy ha egy σ szórású sokaságból a mitaátlag az adott x, akkor milye itervallumba kell esie a várható értékek 95%-os valószíűséggel. Látjuk, hogy midkét esetbe az itervallum hossza egyeese aráyos a szórással, (agyobb szórás, agyobb bizoytalaság), és fordította aráyos a mita elemszámáak gyökével, amiek az a szomorú következméye, hogy ha az itervallumot felére akarjuk csökketei, égyszeresére kell öveli a mitát. Itt kell megjegyezük, hogy em szabad összekeveri az X valószíűségi változót x-sal, ami aak egy aktuális értéke. (Hasolóa: f egy függvéy, f(x) eek helyettesítési értéke az x helye.) Eek elleére még a külöböző statisztikaköyvekbe is gyakra keveredik, de szerecsére legtöbbször semmi problémát em okoz. (Mit ahogy legtöbbször f keverése f(x)-szel sem okoz legtöbbször godot.) Maga x a várható érték potbecslése, a (2)-be szereplő itervallum pedig a várható érték itervallumbecslése, más szóval kofidecia-itervalluma 95% megbízhatósági szite. Felmerül a kérdés, mit tuduk modai akkor, ha a szórást em ismerjük. Ha a korrigált szórást írjuk a helyébe, akkor a helyzet legalábbis elvileg léyegese megváltozik, mert akkor a cetrális határeloszlás-tételbe kostas helyett változó lee a evezőbe. Olyat pedig már láttuk, pl. a deriválásál is, hogyha em kostas szorzóról, haem változó szorzóról va szó, akkor egésze másképp kell eljári. Be lehet láti a következőket: Ha a mita elég agy, akkor (1)-be és (2)- be σ egyszerűe helyettesíthető s -gal. Meyi az az elég agy? Erre lehet vizsgálódásokat csiáli, de a gyakorlatba már általába elég agyak tekitik az 50 elemű mitát, sőt olykor a 30 eleműt is. Ha a mita elemszáma em elég agy, de feltehető, hogy a populációra jellemző valószíűségi változó ormális eloszlású, akkor a t = P i=1 Xi s m 4
valószíűségi változó u. ( 1) szabadságfokú Studet-eloszlású. Ezt ( 1) szabadságfokú t-eloszlásak is evezik. Eek sűrűségfüggvéye ugyaúgy szimmetrikus az origóra ézve, mit a stadard ormálisé, és a megfelelő valószíűségeket ugyaúgy táblázatból ézzük ki. A táblázat segítségével (1)-hez és (2)-höz hasolóa adhatuk meg itervallumokat m-re és X-re. Ha a mita elemszáma em agy, és ormalitást em tehetük fel, de ismerjük az eloszlás típusát, akkor legalábbis elvileg levezethető képlet a kofideciaitervallumra. Ha a mita kicsi, és mást sem tuduk, akkor e agyo akarjuk kijeletéseket tei, hogy milye jó a becslésük. Láttuk, hogy a szórás potbecslése s. Tuduk-e kofidecia-itervallumot modai a szórásra. Ige, mert be lehet láti, hogy a χ = ( 1)s 2 σ 2 valószíűségi változó ( 1) szabadságfokú χ 2 eloszlású valószíűségi változó, és a hozzá tartozó valószíűségeket, ill. adott valószíűséghez tartozó itervallumokat kiézhetjük a megfelelő táblázatból. Hipotézisvizsgálat Először példakét tekitsük egy kokrét kérdést. Tegyük fel, hogy egy automata mosóport adagol, 500 gr-osak cimkézett dobozba. Az automata típusa miatt a szórást tudjuk, de az automata idővel elállítódhat. Sem az alulsem a túladagolás em kíváatos, ezért időről időre elleőrzik a dobozokba levő mosópor meyiségét. Ha a mita alapjá úgy találjuk, hogy a várható érték em tekithető 500 gr-ak, akkor leállítjuk az adagolást, és az automatát beszabályozzuk. Ez a tevékeység költséggel jár, ezért yilvá csak akkor állítjuk le, ha az a feltevés, hogy jól működik, yilvávalóa elfogadhatatla. Tehát abból a feltevésből iduluk ki, hogy jól működik. Ez a ullhipotézis. Tegyük fel, egy-egy alkalommal 30 elemű mitát veszük. A mita átlaga persze em lesz potosa 500 gr, hol kevesebb, hol több, még akkor is, ha az átlag valóba 500 gr. Ha tehát a potbecslésből idulák ki, akkor szite mide alkalommal leállítaák a redszert. Ezért csak akkor állítjuk le, ha a mita szigifikása, azaz agyo külöbözik a kíváatostól. Milye hibát követhetük el, amikor a leállásról, vagy em-leállásról dötük. Mi csak a mitát ismerjük, a valóságot em. Ha a valóságba jó az automata, és a mita alapjá mi a em-leállást választottuk, vagy ha rossz az automata, és mi a leállást választottuk, akkor helyese dötöttük. Ha a ullhipotézis igaz, de mi mégis a leállás mellett dötük, mert véletleül épp olya szerecsétleül vettük mitát, akkor u. elsőfajú hibát követük el. Ha viszot rossz az automata, de véletleül épp olya szerecsétleül vettük mitát, hogy jóak találjuk, azaz elfogadjuk a ullhipotézist, pedig em igaz, akkor u. másodfajú hibát követük el. Az elsőfajú hiba valószíűségét úgy csökkethetjük, hogy csak akkor vetjük el a ullhipotézist, ha a mita valóba agyo messze jár a kíváatostól. Igeám, de ha a kíváatostól viszoylag távoleső értékeket még midig elfogaduk, akkor agyo megő a másodfajú hiba valószíűsége, azaz az, hogy em állítjuk le akkor sem, ha kellee. Ezek egymás elle hatak. Midkettő valószíűségét 5
egyszerre csak úgy csökkethetjük, ha a mita elemszámát öveljük, mert ezzel a mitaátlag szórása csökke, egyre kisebb itervallumba esik egyre agyobb valószíűséggel. Az elsőfajú hiba kezelése az egyszerűbb. Az (1) képlethez hasolóa meg tudjuk modai, hogy ha a ullhipotézis igaz, akkor milye itervallumba kell esi a mitaátlagak adott valószíűséggel. Legye ez a valószíűség (1 α). Ha em esik bele, akkor két eset lehetséges. Vagy téyleg em igaz a ullhipotézis, vagy olya rossz mitát vettük a külöbe jó sokaságból, amelyek a valószíűsége kisebb, mit α. Ha tehát akkor vetjük el a ullhipotézist, ha a mitaátlag kívül esik az adott itervallumo, akkor az elsőfajú hiba elkövetéséek valószíűsége α. Ezt az α-t evezzük szigifikacia szitek. A gyakorlatba em az (1) alakú itervallumot számítjuk ki, haem pl. 5% szigifikacia eseté P ( 1, 96 < Y < 1, 96) = 0.95 miatt a 1, 96 < x m σ < 1, 96 egyelőtleség teljesülését elleőrizzük, mert így a középe álló törtbe (az u. " tesztértékbe" ) szereplő kokrét számoktól függetleül, a H 0 : m = m 0 ullhipotézis eseté, midig a ( 1, 96; 1, 96) itervallumo kívüli értékekre vetjük el a ullhipotézist, ha 5% a szigifikacia szit, és a szórás ismert, vagy a mita elég agy. A 1, 96, ill 1, 96 határokat ugyais a stadard ormális eloszlás táblázatából vettük, és a mitaátlagra ez csak akkor alkalmazható, ha a szórás ismert, vagy a mita elég agy. Külöbe más eloszlás alapjá, más táblázatból kell meghatározi azt az itervallumot, amelybe még elfogaduk értéket, ill. azt, amelybe már em. A ullhipotézistől függőe lehet, hogy csak a túl agy, vagy csak a túl kicsi értékeket vetjük el. Arra, hogy a teszt-értéket milye próba eseté hogya érdemes kiszámítauk, a statisztikaköyvek adak útmutatást, de az elv midig az, amit fet bemutattuk: A mita értékeiből képezük egy olya függvéyértéket, amelyek az eloszlását ismerjük, és megállapítjuk, hogy ha a ullhipotézis igaz, akkor eek milye valószíűséggel, hova kell esie. Ha em oda esik, a ullhipotézist elvetjük. A másodfajú hiba kezelése sokkal összetettebb, azt mideki próbálja megértei valami köyvből. Megjegyzés a hipotézis felállítására: Kell leie egy ullhipotézisek H 0, és egy alteratív, vagy ellehipotézisek H a. Az " egyelőség" midig a ullhipotézisbe va, pl.: H 0 : m 40, H a : m > 40 H 0 : m = 10, H a : m 10 H 0 : p 1 = 0.2, p 2 = 0.3, p 3 = 0.5, H a : legalább az egyik em ayi H 0 : ξ ormális eloszlású, H a : ξ em ormális eloszlású 6