A 3..5 pont példájának adatai C C C3 C4 0.00000 0.00000 0.00000 0.00000 0.00000 0.96 0.003 0.437 0.458 0.7336 0.00785 0.34957 0.565 0.3308 0.0096 0.43840 0.979 0.343 0.0440 0.44699 0.3008 0.370 0.083 0.44986 0.350 0.3580 0.0300 0.5576 0.34375 0.37850 0.04450 0.603 0.3547 0.4 0.0458 0.63897 0.4065 0.4056 0.07068 0.65330 0.4708 0.4056 0.0759 0.6848 0.46875 0.453 0.0903 0.7493 0.4797 0.45093 0.096 0.7396 0.5650 0.4556 0.0864 0.783 0.58333 0.4796 0.436 0.85 0.6500 0.57944 0.4660 0.8689 0.66667 0.60047 0.49 0.88539 0.75000 0.667 0.937 0.89685 0.7967 0.6409 0.9503 0.89685 0.89 0.66 0.9634 0.9484 0.83333 0.70093 0.9634 0.9545 0.9708 0.8909 0.9450 0.98567 0.98958 0.95093 0.64398 0.9940.00000.00000.00000.00000
4. Statisztikai jellemzõk megízhatósága 4. Konfidencia tartomány, konfidencia szint A mintákól meghatározott ecslõk magukan is érdekesek lehetnek, különösen, ha minták összehasonlításáról van szó. Természetes azonan, hogy a jellemzõk akkor értékesek igazán, ha azok megízhatóságáról is van képünk. Ez a kívánalom egyenértékü azzal, hogy töé kevésé ismerjük a ecslõ statisztikák eloszlását, de legaláis alkalmazhatunk néhány valószínûségszámításól ismert egyenlõtlenséget. Emlékeztetünk arra, hogy a mintákól számított ecslések valószínûségi változók függvényei lévén maguk is valószínûségi változók. A gyakorlatan a kérdések általáan így vetõdnek fel: (a) mi a valószínûsége annak, hogy a valószínûségi változó egy realizációja (= a következõ megfigyelt adat) elõírt határok közé essék (pl a x )? () melyek azok a határok, amelyek közé a következõ megfigyelt adat elõírt valószínûséggel esik? A két kérdés lényegéen ugyanaz, egyik feladat a másik inverze. Az (a) kérdéssel egyegy megfigyelést értékelünk, a () kérdéssel követelményeket fogalmazunk meg, pl. pontasságot írunk elõ. Ha ismerjük a szóanforgó valószínûségi változó eloszlásfüggvényét, mindkét kérdésre választ kaphatunk: ( a x ) = F( ) F( a) f ( x) p < = dx (4.) a A továiakan az általánosság kedvéért folytonos valószínûségi változók esetére mutatjuk e a megoldások gondolatmenetét. 4. Nevezetes eloszlások Természettudományos gyakorlatunkan egyik leggyakori eloszlásfüggvény a normális eloszlás. Ha valamely vizsgált változóra számos, önmagáan kis hatású, a változó értékét egyforma eséllyel növelõ vagy csökkentõ tényezõ is hat, számíthatunk arra, hogy megfigyelt értéke normális eloszlású lesz. 4.. A normális eloszlás A (4.) integrál ezeseten: ( a x ) ( x µ ) < = exp (4.) σ π a σ p ahol µ az x változó várható értéke, σ pedig annak szórása. (4.) függvénynek nincs analitikusan megadható integrálja, értékeit numerikusan számítják ki az
3 u x = µ σ standardizált, 0-közepû és szórású változóra, - és x határok között. (Ezt az eloszlást szokás N(0,) röviditéssel jelölni). Miután a x Φ( x) = exp ( u / ) du (4.3) π függvény szimmetrikus, tálázatokan csak az eloszlás (második) felét adják meg, 0 és + határok között, ahol a Φ(x) valószínûség 0.5.tõl -ig nõ. Negativ x argumentumok esetén a valószínûséget x x ( ) f ( u) du = f ( u) du = Φ x (4.4) módon kell keresni. Ha arra vagyunk kiváncsiak, mi annak valószínûsége, hogy x a - és + határok között lép fel, a tálázat argumentumához tartozó érték kétszereséõl ki kell vonnunk -et. Ugyanis: ( ) = Φ f = ( u) du f ( u) du f ( u) du = f ( u) du f ( u) du = f ( u) du = Érdemes megjegyezni, hogy normális eloszlás esetén p(- x ) = Φ() = 0.686 p(- x ) = Φ() = 0.9545 p(-.96 x.96) = Φ(.96) = 0.9500 p(-3 x 3) =Φ(3) = 0.9973 illetve nem standardizált változóra: p((µ σ) x (µ+σ)) = 0.686 p((µ σ) x (µ + σ)) = 0.9545 p(µ.96σ) x µ +.96σ) = 0.9500 p((µ 3σ) x (µ + 3σ)) = 0.9973 (4.5) Azt a tartományt amelye a valószínûségi változó várhatóan p valószínûséggel esik, a változó p szintû megízhatósági vagy konfidencia tartományának nevezik. A változó természetesen α = - p valószínûséggel a konfidencia tartományon kívül is realizálódhat. Ezt az α értéket tévedési valószínûségnek szokás nevezni. A konfidencia tartományt gyakran α szintû tartománynak is nevezik.
4 A evezetésen feltett () kérdés, azaz az, hogy megkívánt, rendszerint kerek konfidencia szinthez milyen ± kσ konfidencia határok tartoznak, alkalmasan átrendezett tálázatokkal válaszolható meg. p α = - p k 0.99 0.0.5758 0.95 0.05.9600 0.90 0..6449 0.70 0.3.0364 A normális eloszlás -és a továiakan tárgyalt Student és χ eloszlások számértékeit kézikönyveken vagy pl. a http://math.uc.edu/~rycw/48/tales.htm internetcímen lehet megtalálni. 4.. A Student eloszlás Ha egy normális eloszlású sokaságól vett minta sok elemû (n > 0), akkor a mintáól számított s standard deviáció jól ecsüli az elméleti szórást, σ-t. Ha azonan nem ez a helyzet, a kevese elemû mintáól ecsült s standard deviációval szélese konfidencia tartományt kell megadnunk ahhoz, hogy iztonságunk megmaradjon. A helyes összefüggéseket ezeken az eseteken a normális eloszlás helyett a Student eloszlás adja meg, amelynél a konfidencia tartományok szélességét megadó t szorzók a minta elemszámától, pontosaan a minta szaadsági fokától függenek. A szintén szimmetrikus F ν + Γ t du, (4.6) ν+ νπ ν Γ u + ( ν t) = Student eloszlás szintén tálázatoltan található. Leghasználatosaak azok a tálázatok, amelyekkel az α tévedési valószínüséghez és a ν szaadsági fokhoz tartozó konfidencia tartomány határai kereshetõk ki. (Minta. 4. tálázat)
5 4. tálázat. Student eloszlás t értékei, különözõ mérésszámnál α = - p T n = 3 n=5 n = 0.99 0.0 9,95.977.5758 0.95 0.05 4.303.45.96 0.90 0.0.9.76.6449 0.70 0.30.386.076.0364 4..3 A χ eloszlás Mivel a valószínûségi változók négyzetei (pl. a szórás négyzete, a variancia ) gyakorlatunkan igen jelentõsek, fontos szerepû az a függvény, amelyik a független, különkülön N(0,) eloszlású változók χ = X + X +... + X ν (4.7) összegének eloszlását adja meg, a χ eloszlásfüggvény: F ( ν, x) = ν x ν u, u e du (4.7) ν 0 Γ ahol ν a szaadsági fok, a független valószínûségi változók száma. A függvény láthatóan két változótól függõen adja meg azt, mi a valószínûsége annak, hogy a változók négyzetösszege x- nél kise. 4..4 Az F eloszlás A normális és Student eloszlást sikeresen alkalmazzák normális változók különségeinek vizsgálatára. Valószínûségi változók négyzetösszegei esetén hasznosanak izonyult azok hányadosainak kritikus megítélése. Erre a feladatra (nevezetesen annak eldöntésére,.hogy egyezõnek vagy eltérõnek tekinthetõ-e két változó négyzetösszege) az Fisher féle F eloszlás alkalmas. Ez a függvény két független, χ eloszlású változó hányadosának eloszlásáról tájékoztat. Az F függvény az ν X i / ν i= F = ν (4.8) Y / ν i= i
6 hányados adott határok közötti elõfordulási valószínûségét adja meg, ahol ν és ν a számláló és nevezõ szaadsági foka. F számlálójáan és nevezõjéen varianciákat ismerhetünk fel. Az F eloszlás 0 és + között értelmezett. Eõl következõen az F törten a számlálónak kell kisenek lennie. A gyakorlatan használt F tálázatokan a választott α tévedési valószínûségnek, továá a számláló és a nevezõ szaadsági fokának ismeretéen lehet megtalálni azt a kritikus Fˆ értéket, amelynél egyezõnek feltételezett változók esetén a kisérletileg megkapott F érték nem lehet nagyo. 5. Statisztikai hipotézisek, statisztikai döntések. 5. Alapelvek Az olyan ecslések, mint a középérték, a szórás valószínûségi változók, amelyeknek megvan a maguk eloszlása, várható értéke, szórása. Ha ez így van, feltehetõk olyan kérdések, hogy két ecslés véletlenül tér-e el egymástól vagy az eltérésnek jelentõs oka van? Más szavakkal fogalmazva kérdezzük:két ecslés ugyanahhoz a sokasághoz tartozik-e, azaz, ha számértékük eltér, akkor ez annak tulajdonítható-e, hogy más sokasághoz tartoznak, vagy csak a véletlennek? Ezekre a kérdésekre válaszolnak a statisztikai próák. A válaszadás gondolatmenete ez: (a) meg kell határozni két összehasonlítandó érték eltérését (különségét). () ha ismerjük a vizsgált valószínûségi változók eloszlását, akkor a két érték különségérõl eldönthetõ, hogy mekkora annak fellépési valószínûsége. Az eltéréseket a különség szórásához viszonyítjuk, azt vizsgáljuk, nagyo-e az eltérés ennél a szórásnál, vagy annak két-, háromszorosánál. (c) ha úgy itéljük, hogy ez a valószínûség kicsiny, akkor az eltérést nem a véletlennek tulajdonítjuk és a két értéket jelentõsen, szignifikánsan eltérõnek nyilvánítjuk, tudva azt, hogy tévedhetünk is. A kis valószínûség szokásosan az α tévedési valószínûséggel egyezik. Hogy az eltérés mekkora valószínûségét tekintjük majd kicsiny -nek (mekkora tévedési valószínûséget vállalunk), az a feladat körülményeitõl függõ, elõzetes elhatározás kérdése. Belátható, hogy a választást a próa elött illik megejteni. A gondolatmenetet és a használt szakkifejezéseket szemléljük meg egy példán. Tegyük fel, hogy arra vagyunk kiváncsiak, egy valószínûségi változó konkrét x értéke eletartozik-e egy, általunk ismert µ középértékû és σ szórású normális sokasága vagy nem? Más szavakkal arra, hogy a µ -x különség eesik-e ( 3σ x µ< + 3σ ) tartománya? Ha nem, akkor egy 0.7% valószínûségû esemény következett e. Ha ezt kicsinynek ítéljük, akkor azt mondjuk, x nem tartozik a sokasághoz és een 0.7%
7 valószínûséggel tévedhetünk, hiszen elven végtelen nagy vagy kicsi elem is lehetne a sokaság eleme. Formálisan ezt tesszük: A p(µ - uσ x< µ + uσ ) (5.) valószínûség nem változik, ha a zárójeleken elüli eseményt leíró egyenlötlenséget szaályosan átalakítjuk: (µ - uσ x< µ + uσ) = (- uσ x - µ < + uσ) = ( x - µ uσ) x µ σ u Nos, ha az egyenlõtlenség aloldala, amit û módon is szoktak jelölni nagyo, mint három, akkor a x ν p > 3 (5.) σ valószínûség a normális eloszlás tálázata szerint 00-99.73 = 0.7%, ami kicsiny valószínûség, ezért x-et nem tartjuk, a sokaság elemének. 5. Statisztikai hipotézisek Mivel statisztikai vizsgálattal az igazságot aszolut izonyossággal nem sikerül megállapítani, az állításokat hipotéziseknek nevezzük, és nem azt mondjuk róluk, hogy igazak, vagy hamisak, hanem azt, hogy elfogadjuk-e õket, vagy elvetjük. 5.. Nullahipotézis és alternatív (ellen)hipotézis Feltevésünk általáan az, hogy a vizsgált ecslések megegyeznek, azaz különségük 0. Innen a nullahipotézis elnevezés és a (H 0 ) jelölés H 0 : µ = µ (5.3) A nullahipotézissel szemen alternatív hipotézist (H A ) szokás felállítani, amely lehet a nullahipotézis ellentéte, de nem szükségképpen az. H A : µ µ (5.4) vagy például H A : µ > µ (5.5)
8 5.. Egyoldalas és kétoldalas hipotézisek Az (5.3) ( egyenlõ ) hipotézissel szemeállított (5.4) ( nem egyenlõ ) és (5.5) ( nagyo ) hipotéziseket meg kell különöztetnünk! Az elsõ eseten elvetjük a hipotézist akkor is, ha a µ - µ különség túl nagy negatív, és akkor is, ha ha túl nagy pozitív szám. Ha 5% tévedési valószínûséget választottunk,.5% valószínûséget kell adni annak, hogy a különség a "haranggöre" egyik végére,.5%-ot annak, hogy a másik végére essék. A kérdésfeltevést ezért is nevezik "kétoldalas" (two sided) feltevésnek. Ha viszont a H A : µ > µ alternatív hipotézissel foglalkozunk, csak az a határ érdekel, amelynél µ 5% valószínûséggel nagyo. mint µ. (Egyoldalas, one sided kérdésfeltevés.) Más szavakkal: ha kétoldalas a feltevés, azokat az u határokat figyeljük, amelyek a sûrüségfüggvény alatti.5% - 97.5% valószínûségû területet határolják, egyoldalas eseten pedig a - - 95% valószínûségterületet. A gyakorlatan ez azt jelenti, hogy a kritikus u értékeket kétoldalas próánál a 0.05 (α/), egyoldalasnál a 0.05 (α ) oszlopan kell keresni. 5..3 Elsõfajú és másodfajú hiák Statisztikai hipotézisek elfogadásánál vagy elvetésénél kétféle hiát lehet véteni: elsõfajú és másodfajú hiákat: Egy igaz hipotézis elfogadása Egy igaz hipotézis elvetése Egy hamis hipotézis elvetése Egy hamis hipotézis elfogadása nincs hia elsõfajú, vagy α hia.- nincs hia másodfajú vagy β hia. A kétféle hia jelentõségét csak az adott helyzeten lehet mérlegelni. A körülmények döntik el, hogy mi okoz nagyo kárt: egy jo növényvédõszer elvetése, vagy egy rossz evezetése, egy eteg kezelésének elhagyása, vagy egy egészséges megoperálása. Az elsõfajú hia valószínûségét a tévedési valószínûség csökkentésével lehet kiseiteni. A másodfajú hia valószínûségének eállítása onyolulta kérdés. 5.3 Gyakori statisztikus próák A továiakan két gyakran használt példát mutatunk e. A példák tö szempontól egyszerûek, de jó megjegyezni, hogy a matematikai statisztikának a gyakorlatan felvetõdõ neheze feladatokra (nem normális, vagy ismeretlen eloszlású adatok, különözõ mérteû minták st.) is számos megoldása van. 5.3. Két számtani közép egyezésének vizsgálata Két mérési eredményt akarunk összehasonlítani. A mérési eredmények véges n és n párhuzamos mérés átlagai, számtani közepek, x.és x értékek. Tudni szeretnénk, eltér-e
9 egymástól a két eredmény. Egyszerûség kedvéért tételezzük fel, hogy a két eredményt ugyanannyi párhuzamos mért értékõl számították, és azt is, hogy a mérési módszer pontossága a két mérés között nem változott. Tegyük fel továá, hogy a mért értékek normális eloszlásúak. A nullahipotézis: H 0 : µ = µ Feltevés : σ = σ n = n Az ellenhipotézis: H A : µ µ A nullahipotézisõl következik, hogy a vizsgált valószínûségi változónk a µ µ küllönség. Kérdés, mi ennek a különségnek a szórása? Tudjuk, hogy az x számtani közép varianciáját az s /n mennyiség ecsli. A varianciák összeadhatóságáól következik, hogy az x x különség szórása ecslése: s / n + s / n, esetünken: ( s + s )/ n. A szaadsági fok: *(n-). Ismerve ezeket a mennyiséget A számított t: t$ = x x ( + ) s s / n Ezt a mennyiséget kell a tálázati kritikus t(α,ν)-értékkel összemérni. 5. Numerikus példa (L. Sachs: Statistische Methoden, Springer, Berlin 993. p. 77) Legyen x = 4.76, x = 40., s = 33.44, s =.55, n = 30 ˆ 4.76 40..55 t = = =.8666 /30.366 ( 33.44 +.55) t kritikus értéke 95%-os megízhatósági szinten, 58 szaadsági foknál: t( α / = 0.05, ν = 58) =.00 A µ - µ különség konfidencia tartománya:.55 -.00 *.366 µ - µ <.55 +.00 *.366-0.847 µ - µ < 5.847 A két középérték nem tér el egymástól szignifikánsan, H 0 -t megtartjuk, a különség konfidencia tartománya 95% valószínûséggel tartalmazza 0-t. 5.3.. Tapasztalati szórások összehasonlítása Mint errõl a 4..3 és 4..4 pontan már szó volt, valószínûségi változók négyzetei összegének összehasonlítására célszerûen nem különségük, hanem hányadosuk eloszlásfüggvénye használtatik. Végesszámú mintákól ecsült varianciák ilyen mennyiségek, a
0 döntõ függvény az F-eloszlás. Ha a szórások négyzetének hányadosa meghalad egy izonyos, α-tól függõ értéket, akkor a két variancia - α iztonsággal eltér egymástól. Az F eloszlás két másik változója a számláló és nevezõ szaadsági foka. A próa lépései a következõk: Legyen adott minta. A minták elemszáma legyen n és n. A két mintáól meghatározunk két standard deviációt: s -et és s -t. Kérdés: szignifikánsan eltér-e a két szórás? ) Fogalmazzuk meg a hipotéziseket: H 0 : σ = H A : σ σ σ (kétoldalas kérdésfeltevés) H 0 : σ H A : σ = σ < σ (egyoldalas kérdésfeltevés) ) Válasszunk tévedési valószínûséget (α) 3) Válasszuk ki a két szórás közül a nagyoat. Kapja ez az indexet. 4) Képezzük a számított Fˆ hányadost: 5) Keressük meg F kritikus értékét =. $F s s F -nek három változója van: a tévedési valószínûség (α) és a két szaadsági fok: ν = n - és ν = n -. A kritikus F értékek a tálázatok α oldalán, a ν oszlopan és a ν soran találhatók. Egyoldalas kérdésfeltevésnél az α valószínüséghez tartozó tálázatot, kétoldalasnál az α/ valószínüséghez tartozó tálázatot kell választani. Ha a számított Fˆ nagyo a kritikusnál, a nullahipotézist el kell vetni, a szórások szignifikánsan eltérnek egymástól, adott tévedési valószínûséggel. 5. Numerikus példa: Elfogadhatjuk-e azt az 5. példáan megadott hipotézist, miszerint az aan szereplõ szórások megegyeznek? (L. Sachs: Statistische Methoden, Springer, Berlin 993. p. 77) H 0 : σ = H A : σ σ σ (kétoldalas kérdésfeltevés) α = 0.05 s = 33.44, s =.55, n = 30, n = 30, ν = 9,. ν = 9 33.44 Fˆ = =.483 <.09 = F(9,9,0.05).55 A nullahipotézist elfogadjuk.