Biostatisztika e-book Dr. Dinya Elek



Hasonló dokumentumok
4. előadás. Vektorok

Mátrixaritmetika. Tartalom:

Lineáris Algebra gyakorlatok

5. Előadás. Megyesi László: Lineáris algebra, oldal. 5. előadás Lineáris függetlenség

Lineáris algebra I. Kovács Zoltán. Előadásvázlat (2006. február 22.)

KOVÁCS BÉLA, MATEMATIKA I.

matematikai statisztika október 24.

MATEMATIKA FELADATGYŰJTEMÉNY

1.1. Gyökök és hatványozás Hatványozás Gyökök Azonosságok Egyenlőtlenségek... 3

Miskolci Egyetem GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR. Analízis I. példatár. (kidolgozott megoldásokkal) elektronikus feladatgyűjtemény

KOVÁCS BÉLA, MATEMATIKA I.

METROLÓGIA ÉS HIBASZÁMíTÁS

Az elektromos kölcsönhatás

Valószín ségelmélet házi feladatok

Lineáris algebra - jegyzet. Kupán Pál

KOVÁCS BÉLA, MATEMATIKA I.

Fejezetek a lineáris algebrából PTE-PMMK, Műszaki Informatika Bsc. Dr. Kersner Róbert

BUDAPESTI KÖZGAZDASÁGTUDOMÁNYI EGYETEM. Puskás Csaba, Szabó Imre, Tallos Péter LINEÁRIS ALGEBRA JEGYZET

Statisztikai. Statisztika Sportszervező BSc képzés (levelező tagozat) Témakörök. Statisztikai alapfogalmak. Statisztika fogalma. Statisztika fogalma

Miskolci Egyetem. Diszkrét matek I. Vizsga-jegyzet. Hegedűs Ádám Imre

NUMERIKUS MÓDSZEREK FARAGÓ ISTVÁN HORVÁTH RÓBERT. Ismertető Tartalomjegyzék Pályázati támogatás Gondozó

Széchenyi István Egyetem, 2005

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

A lineáris tér. Készítette: Dr. Ábrahám István

2) = 0 ahol x 1 és x 2 az ax 2 + bx + c = 0 ( a,b, c R és a 0 )

Számelméleti feladatok az általános iskolai versenyek tükrében dr. Pintér Ferenc, Nagykanizsa

2. előadás: További gömbi fogalmak

Komputer statisztika gyakorlatok

NYUGAT-MAGYARORSZÁGI EGYETEM Faipari Mérnöki Kar. Mőszaki Mechanika és Tartószerkezetek Intézet. Dr. Hajdu Endre egyetemi docens MECHANIKA I.

Sztojka Miroszláv LINEÁRIS ALGEBRA Egyetemi jegyzet Ungvár 2013

MATEMATIKA I. RÉSZLETES ÉRETTSÉGI VIZSGAKÖVETELMÉNY A) KOMPETENCIÁK

Analízisfeladat-gyűjtemény IV.

Matematikai és matematikai statisztikai alapismeretek

Valószínűségszámítás

5. Trigonometria. 2 cos 40 cos 20 sin 20. BC kifejezés pontos értéke?

Környezetvédelmi analitika

Matematika emelt szintû érettségi témakörök Összeállította: Kovácsné Németh Sarolta (gimnáziumi tanár)

Konfidencia-intervallumok

LÁNG CSABÁNÉ SZÁMELMÉLET. Példák és feladatok. ELTE IK Budapest javított kiadás

Lineáris algebra I. Vektorok és szorzataik

Fuzzy rendszerek. A fuzzy halmaz és a fuzzy logika

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Diszkrét Matematika I.

MATEMATIKA 9. osztály Segédanyag 4 óra/hét

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

2. Halmazelmélet (megoldások)

10. Valószínűségszámítás

Bevezetés a számításelméletbe I. feladatgyűjtemény. Szeszlér Dávid, Wiener Gábor

Analízis 1. (BSc) vizsgakérdések Programtervez informatikus szak tanév 2. félév

A bankközi jutalék (MIF) elő- és utóélete a bankkártyapiacon. A bankközi jutalék létező és nem létező versenyhatásai a Visa és a Mastercard ügyek

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

TARTALOM. Ismétlő tesztek ÚTMUTATÁSOK ÉS EREDMÉNYEK...255

Valószínűségszámítás feladatgyűjtemény

Dr. Kuczmann Miklós JELEK ÉS RENDSZEREK

Lineáris Algebra GEMAN 203-B. A három dimenziós tér vektorai, egyenesei, síkjai

Philosophiae Doctores. A sorozatban megjelent kötetek listája a kötet végén található

Ferenczi Dóra. Sorbanállási problémák

1. Lineáris leképezések

1.Tartalomjegyzék 1. 1.Tartalomjegyzék

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

Félévi időbeosztás (nagyjából) házi feladat beadási határidőkkel (pontosan) Valószínűségszámítás 2. matematikusoknak és fizikusoknak, 2009 tavasz

Matematikai logika 1 A MATEMATIKAI LOGIKA ALAPJAI. Pécsi Tudományegyetem, Bevezetés

Bemenet modellezése II.

Kosztolányi József Kovács István Pintér Klára Urbán János Vincze István. tankönyv. Mozaik Kiadó Szeged, 2013

Komplex számok szeptember Feladat: Legyen z 1 = 2 3i és z 2 = 4i 1. Határozza meg az alábbi kifejezés értékét!

Összefoglaló valószínűségszámításból a Gépészmérnök Msc szak hallgatói számára

A 2011/2012. tanévi FIZIKA Országos Középiskolai Tanulmányi Verseny első fordulójának feladatai és megoldásai fizikából. I.

Ismerkedés az Abel-csoportokkal

Feladatok a koordináta-geometria, egyenesek témaköréhez 11. osztály, középszint

5.10. Exponenciális egyenletek A logaritmus függvény Logaritmusos egyenletek A szinusz függvény

Szennyvíztisztítási technológiai számítások és vízminőségi értékelési módszerek

8. Programozási tételek felsoroló típusokra

S T A T I K A. Az összeállításban közremûködtek: Dr. Elter Pálné Dr. Kocsis Lászlo Dr. Ágoston György Molnár Zsolt

Ahol mindig Ön az első! Segítünk online ügyféllé válni Kisokos

Matematika. Specializáció évfolyam

A gyakorlatok HF-inak megoldása Az 1. gyakorlat HF-inak megoldása. 1. Tagadások:

A mágneses tér energiája, állandó mágnesek, erőhatások, veszteségek

MATEMATIKA TANTERV Bevezetés Összesen: 432 óra Célok és feladatok

Vektorszámítás Fizika tanárszak I. évfolyam

Elsôfokú egyenletek, egyenletrendszerek, egyenlôtlenségek

Add meg az összeadásban szereplő számok elnevezéseit!

Bináris keres fák kiegyensúlyozásai. Egyed Boglárka

Elektromágneses hullámok - Hullámoptika

Halmazok. Halmazelméleti lapfogalmak, hatványhalmaz, halmazm veletek, halmazm veletek azonosságai.

Tómács Tibor. Matematikai statisztika

Merev test mozgása. A merev test kinematikájának alapjai

Tanmenetjavaslat 5. osztály

Matematikai programozás gyakorlatok

Hitelderivatívák árazása sztochasztikus volatilitás modellekkel

Egy emelt szintű érettségi feladat kapcsán Ábrahám Gábor, Szeged

Bevezetés a játékelméletbe Kétszemélyes zérusösszegű mátrixjáték, optimális stratégia

MITISZK Miskolc-Térségi Integrált Szakképző Központ

Illeszkedésvizsgálat χ 2 -próbával

Pontszerű test, pontrendszer és merev test egyensúlya és mozgása (Vázlat)

Bevezetés. Párhuzamos vetítés és tulajdonságai

Tartalomjegyzék. Typotex Kiadó III. Tartalomjegyzék

Méréssel kapcsolt 3. számpélda

Matematika tanmenet (A) az HHT-Arany János Tehetségfejleszt Program el készít -gazdagító évfolyama számára

Méréselmélet PE_MIK MI_BSc, VI_BSc 1

A pályázat címe: Új elméleti és numerikus módszerek tartószerkezetek topológiaoptimálására

Átírás:

TÁMOP-4../A/-/-0-005 Egészségügy Ügyvtelszervező Szakrány: Tartalomfejlesztés és Elektronkus Tananyagfejlesztés a BSc képzés keretében Bostatsztka e-book Dr. Dnya Elek

Tartalomjegyzék. Bevezetés a mátrok vlágába..... Vektorok..... Mátrok... 4.3. Determnánsok... 7.4. Fontosabb specáls mátrok... 5. Kombnatorka... 7.. Permutácók... 8.. Varácók... 8.3. Kombnácók... 9.4. Bnomáls együtthatók tulajdonsága... 9 3. Valószínűség-számítás... 3 3.. Kísérlet, esemény... 3 3.. Eseményalgebra... 3 3.3. Valószínűség fogalma... 33 3.4. Eloszlások... 4 4. Adattípusok... 60 4.. omnáls skála... 60 4.. Ordnáls skála... 60 4.3. Intervallum skála... 60 4.4. Arány skála... 6 5. Adatredukcó... 6 5.. Középérték... 6 5.. Szóródás mutatók... 69 5.3. Grafkus ábrázolás... 73 6. Konfdenca-ntervallum... 76 6.. Megbízhatóság tartomány jelentősége... 76 6.. Átlag megbízhatóság tartománya... 77 6.3. A t-eloszlás tulajdonsága:... 78 7. Hpotézs vzsgálat... 79 7.. Hpotézs fogalma... 79 7.. Szgnfkanca-sznt... 80 7.3. Statsztka próbák fajtá... 8 7.4. Hpotézs vzsgálat döntés táblázata... 83 7.5. Power-fogalma... 86 7.6. Hpotézs vzsgálat menete... 86 8. Power analízs... 87 8.. Mntaszám meghatározása... 87 9. Paraméteres eljárások... 9 9.. F - próba... 93 9.. Egymntás t-teszt... 95

9.3. Kétmntás t-teszt... 98 0. emparaméteres eljárások... 5 0.. Rangszámok tulajdonsága... 6 0.. Előjel teszt (sgn test)... 7 0.3. Wlcoon párosított teszt... 8 0.4. Mann Whtney U teszt... 8 0.5. Kolmogorov Szmrnov teszt... 9 0.6. Wald Wolfowtz runs teszt... 9 0.7. k független mnta összehasonlítása... 0 0.8. k számú összetartozó mnta vzsgálata... 0.9. Rangkorrelácós eljárások.... Regresszós vzsgálatok... 6.. Korrelácószámítás... 7.. Lneárs regresszó... 34.3. Többváltozós lneárs regresszó... 37.4. emlneárs regresszó... 38. Kontngenca táblák vzsgálata... 39.. Pearson-féle Ch-négyzet teszt (χ -teszt)... 40.. es kontngenca táblák... 4.3. Dagnosztka vzsgálatok... 45.4. Epdemológa vzsgálatok... 48.5. Terápa hatásosságát kfejező tényezők... 50 3. Túlélés analízs... 5 3.. Lfe table (Halandóság tábla) analízs... 53 3.. Kaplan-Meer eljárás... 56 3.3. Kaplan-Meer túlélés függvények összehasonlítása. Log rank módszer... 56 3.4. Co-regresszó... 58 4. Logsztkus regresszó... 6 5. Magasabbrendű eljárások... 63 5.. Általános lneárs modell (GLM)... 63 Modell komponensek... 64 5.. MIXED modell... 64 6. Idősoranalízs... 66 6.. Elmélet bevezető... 66 6.. Lneárs és nem lneárs trend modell... 68 6.3. Eponencáls smítás... 69 6.4. Wnters addtív modell... 70 6.5. Telítődés modell... 70 6.6. ARMA... 7 3

. Bevezetés a mátrok vlágába.. Vektorok Alapfogalmak: Skalármennység: konkrét számérték (terület, térfogat stb.). Vektormennység: rányított érték (erő, sebesség stb.). Szabadvektor: önmagával párhozamosan eltolható. Fvektor: f kezdőpont. Csúsztatható vektor: saját rányegyenesük mentén mozgatható. Defnícó: a tér rányított szakaszat nevezzük vektoroknak, amelyeknek adott a nagysága és ránya. Másképp fogalmazva a vektor egy rányított szakasz, vagy azzal jellemezhető mennység. Példák vektorokra: Jelölésük: a vektort megadhatjuk a kezdő és végpontja segítségével ( AB) vagy jelölhetjük ksbetűvel kétféle módon: a vagy a

Koordnáta rendszerben orgó kezdőpontú vektort rendezett számpár jellemz a síkban, térben pedg rendezett számhármas Defnícó: két vektor azonos (egyenlő), ha hosszuk (nagyságuk) s és rányuk s megegyezk.

Példa: Defnícó: vektorok egyenlősége ekvvalencarelácót jelent: - refleív: a: a a - szmmetrkus: a, b: ha a b b a - tranztív: a, b, c : ha a b és b c a c. Defnícó: a vektor hosszát a vektor abszolút értékének s nevezzük (nem negatív valós szám). A fent vektor hossza: V a + b + 3 4 5 5 Defnícó: az olyan vektort (0), amelynek megegyezk a kezdőpontja és a végpontja és abszolút értéke 0, nullvektornak nevezzük. Iránya tetszőleges, mnden vektorral párhuzamos és mnden vektorra merőleges. Ilyen vektorból csak egy létezk. Defnícó: ha egy vektor abszolút értéke, akor egységvektornak nevezzük. Ilyen vektorból végtelen sok létezk. Defnícó: az a vektor ellentettje: az a vektort, amelyk vele egyenlő abszolútértékű, egyező állású, de vele ellentétes rányú. Jelölése: a. 3

Defnícó: két vektor összegén egy harmadk vektort értünk, amelyet meghatározhatunk paralelogramma-módszer, vagy öszszefűzés (háromszögmódszer, sokszög-módszer) segítségével. Vektorműveletek A vektorösszeadás kommutatív és asszocatív: a, b esetén: a + b b + a a, b, c esetén: (a + b) + c a + (b + c). Defnícó: az a és b vektorok a b különbségén azt a c vektort értjük, melyre b + c a. 4

Koordnátákkal kfejezve: a (a,a) b (b,b) Összeadás a b a+b (a +b, a +b ) a+b Kvonás a b a-b a-b (a -b,a -b ) Megjegyzés: Két vektor különbségét megkapjuk úgy, hogy közös kezdőpontba toljuk őket, mert ekkor a különbségvektor a végpontjakat összekötő vektor lesz, a ksebbítendő felé rányítva. A vektorok összeadása, lletve kvonása során az eredmény esetleg a 0 s lehet. Bármely a vektor esetén a + 0 a és a 0 a. Defnícó: Egy a vektor és egy λ szám szorzata egy vektor, amelynek hossza λa λ a, párhuzamos a-val és λ > 0 esetén egyrányú, λ < 0 esetén ellentétes rányú a-val. 5

Vektor szorzása λ számmal (skalárral) Vektorok számmal való szorzására érvényesek a következő művelet szabályok: λ, µ skalár és a esetén: λ(µa)(λµ)a (asszocatvtás) λ és a, b vektor esetén: λ(a + b) λa + λb (dsztrbutívtás) λ, µ és a esetén: (λ + µ)a λa + µa (dsztrbutívtás) Defnícó: legyenek a, a,..., an tetszőleges vektorok a térben, c, c,..., cn pedg valós számok. Az c a +c a + +cnan kfejezést az a, a,..., an vektorok lneárs kombnácójának nevezzük. Példa: ha a, b, c vektorok, akkor 3a 4b + 6c egy lneárs kombnácójuk. Ha megadunk néhány vektort, akkor ezeknek végtelen sok lneárs kombnácója létezk, hszen az együtthatók tetszőleges valós számok lehetnek. Állítás: legyenek a, b és c a tér vektora. Ha a, b és c nncsenek egy síkban, akkor a tér mnden v vektora egyértelműen előállítható a, b és c lneárs kombnácójaként. 6

Defnícó: Az a, a,..., an vektorok trváls lneárs kombnácóján a 0 a + 0 a +... + 0 an kfejezést értjük. Megjegyzés: akkor beszélünk trváls lneárs kombnácóról, ha mnden együttható 0. Természetesen az eredmény csak a 0 vektor lehet. Defnícó: Az a, a,..., an vektorokat lneársan függetlennek nevezzük, ha csak a trváls lneárs kombnácójuk 0. Mnden más esetben a vektorokat lneársan összefüggőnek hívjuk. Állítás: két vektor lneársan összefüggő, ha párhuzamosak egymással. Állítás: A tér három vektora akkor lneársan összefüggő, ha egy síkban vannak. A tér pl. négy vektora mndenképpen lneársan összefüggő. Defnícó: A térbel vektorok egy lneársan független vektorhármasát bázsnak nevezzük. Defnícó: Ha e, e, e 3 a tér egy bázsa és v α e + α e + α 3 e 3, akkor az α, α, α 3 számokat a v vektor (e, e, e 3 bázsra vonatkozó) koordnátának nevezzük. Megjegyzés: a bázsvektorok általánosan használt jelölés rendszere (abszcssza), j (ordnata), k (kóta). Tulajdonságak: egységny hosszúságúak ( j k ), páronként ortogonálsak egymásra,, j, k sorrendben ún. jobbrendszert alkotnak. (ha k végpontja felől nézünk a másk két bázsvektor síkjára, akkor -t a j-be poztív rányú, óramutató járásával ellentétes,80 foknál ksebb szögű forgás vsz át. A tér egységvektora: 7

Defnícó: egy Q pont helyvektorán az OQ vektort értjük, ahol O az orgó. Az így defnált vector ún. kötöttvektor, mvel kezdőpontja rögzített. Defnícó: Egy Q pont koordnátán a helyvektorának a koordnátát értjük. Defnícó: Két vektor összegének koordnátá az eredet vektorok megfelelő koordnátának összegével egyenlő. Defnícó: Két vektor különbségének koordnátá az eredet vektorok megfelelő koordnátának különbségével egyenlő. Defnícó: Ha egy vektort egy c számmal szorzunk, akkor az így kapott vektor mnden koordnátája a eredet vektor megfelelő koordnátájának c-szerese lesz. Defnícó: Az a(a, a, a 3 ) vektor hossza a a a + + a 3 8

Defnícók: n koordnátával jellemzett vektorok féle megadás mód: oszlopvektor: a a a... a n sorvektor: * a [ a, a,... a ] n Adott két vektor. Számítsuk k a következőket: a+b; ab; a vektor hosszát valamnt a 3a-t, a*b! a 0 6 3a 3 0 6 Vektorokkal való műveletek 0 b 0 4 a + b 0 3 0 0 a*b [,,0, ] a ( ) + + 0 + 3 4 + 0 + 0 + 6 9

Defnícó: két vektor skalárs szorzatán az alább szorzatot értjük: Két tetszőleges a [a, a,..., a n ] és b [b, b,..., b n ] vektor skalárs szorzata alatt a következőt értjük: ahol Σ az összegzést és na vektortér dmenzóját jelöl. Skalárs szorzat tulajdonsága. Kommutatív: a b b a. A skalárs szorzás egy cskalárs tényezővel asszocatív: c(a b)(ca)b 3. Dsztrbutív: a (b+c) a b + a c Defnícó: az a és b vektorok skalárs szorzatán az ab a b cos ϕ 0

számot értjük, ahol ϕ az a és b vektorok hajlásszöge. Állítás: két vektor skalárs szorzata akkor és csak akkor 0, ha a két vektor merőleges egymásra. Két vektor skalárs szorzatának kommutatvtása ϕ cosφ b b a A kommutatvtás követezk a skalárs szorzat defnícójából vagy az ábrán látott két háromszög hasonlósága alapján, mvel, ahol a a b vet cosφ b b vet a a b vektor vetülete az a vektorra, és, b a vet cosφ a úgyhogy a bb a Defnícó: Az a és b vektorok vektoráls szorzatán azt az a b-vel jelölt vektort értjük. A vektoráls szorzatra vonatkozóan teljesülnek: - hossza a b a b sn ϕ, ahol ϕ az a és b vektorok hajlásszöge, - ránya merőleges az a és b vektorokra, a, b és a b ebben a sorrendben jobbrendszert alkot. Állítás: két vektor akkor és csak akkor párhuzamos, ha a b 0 Állítás: tetszőleges a és b vektorok és λ valós számesetén gaz az alább egyenlőség:

λ (a b) λa b a λb Állítás: az a (a, a, a 3 ) és b (b, b, b 3 ) vektorok vektoráls szorzata determnáns alakban a b a b j a b k a b 3 3 Állítás: az a és b vektorok által kfeszített paralelogramma területe a két vektor vektoráls szorzatának abszolút értékével egyenlő T a b Állítás: az a és b vektorok által kfeszített háromszög területe T a b / Defnícó: az a, b és c vektorokból képzett (a b) c kfejezést az a, b és c vektorok vegyesszorzatának nevezzük. Megjegyzések: Az elnevezés arra utal, hogy hogy a kfejezésen belül kétfajta szorzás s szerepel. A vegyesszorzat eredménye skalár. Állítás: ha a, b és c nem esnek egy síkba, akkor vegyesszorzatuk abszolút értéke megegyezk az általuk kfeszített paralelleppedon térfogatával: V (a b) c Állítás: az a, b és c vektorok akkor és csak akkor esnek egy síkba, ha (a b) c vegyesszorzatuk 0.

Felcserélés tétel (a vegyesszorzat eredménye nem változk ): tetszőleges a, b és c vektorok esetén (a b) c a (b c) Állítás: az a(a, a, a3), b(b, b, b3) és c(c, c, c3) vektorok vegyesszorzata a a b b c a b c a b c 3 3 3 Állítás: az a, b és c vektorok által kfeszített tetraéder térfogata egyenlő a vegyesszorzatuk abszolút értékének hatodrészével V abc /6 /6 Cauchy Bunyakowsk Schwarz egyenlőtlenség: ahol vagy másképpen kfejezve az egyenlőtlenséget: azaz ( a b + a b + + a b ) ( a + a +... + a )( b + b + + b )... n n n n... Mnkowsky (háromszög egyenlőtlenség): 3

4.. Mátrok Általánosságban mátrnak nevezünk egy téglalap elrendezésű, m n számú, a j valós számot (általában, de lehet komple szám s) tartalmazó táblázatot. A mátrokat nagy betűvel jelöljük és szögletes zárójelben adjuk meg: a a a a a a a a a mn m m n n A n m..................... ), ( Az adott mátr m n típusú: m sorból és n oszlopból áll, az a j a mátr -edk sorában és j-edk oszlopában lévő eleme. Ha mn, akkor a mátrot négyzetes mátrnak (vagy kvadratkus) nevezzük és a sorok száma a mátr rendjét s meghatározza. Ha egy A mátr sorat és oszlopat felcseréljük, akkor kapjuk az A* transzponált mátrt. a a a a a a a a a mn n n m m A m n..................... * ), ( A transzponálás során a kvadratkus mátr n rendje nem változk és a transzponált mátr transzponáltja az eredet mátrt adja eredményül.

5... Alapműveletek a) Mátrok egyenlősége Két mátr csak akkor egyenlő egymással, ha sorak és oszlopak száma egyenlő (azonos típusúak) és az azonos helyen álló elemek megegyeznek. b) Összeadás, kvonás A két művelet csak azonos típusú mátrokra értelmezett. Az eredmény mátr (összeg vagy különbség mátr) a két mátr típusával azonos, és eleme a két mátr azonos helyén lévő elemenek az összege vagy különbsége. A két művelet tetszőleges számú mátrokra s elvégezhető. C A + B + 7 4 0 4 4 0 3 5 0 4 3 5 3 C A - B 3 3 0 0 0 3 5 0 4 3 5 3 Egy mátr spurja (mátr nyoma) a főátlóban lévő elemeknek az összege. Pl. az A mátr spurja 5. Jelölésben Sp(A)3. c) Konstanssal való szorzás A mátr mnden elemét megszorozzuk az adott számmal C k A A 4 8 6 0 6 4 4 3 5 3 d) Mátr szorzása mátrszal Két mátr csak akkor szorozható össze, ha az A mátr oszlopanak a száma azonos a B mátr soranak a számával. Ha ez feltétel gaz az A, B mátrokra, akkor a két mátr az adott sorrendben konformábls. Vgyázzunk, mert a szorzás általában nem kommutatív művelet, vagys az A B B A nem mndg gaz. Ezalól csak a dagonál mátrok szorzása kvétel, mert az lyen mátrokra a szorzás művelete kommutatív. A műveletnél az A mátr megfelelő sorat szorozzuk a B mátr megfelelő oszlopaval:

6. Az A mátr. sora * a B mátr. oszlopával, utána a. sor* az. oszloppal, majd a 3. sor*az. oszloppal stb.. Az A mátr. sora * a B mátr. oszlopával, utána a. sor* a. oszloppal, majd a 3. sor*a. oszloppal stb. 3. az eljárást a fenteknek megfelelően mnden sorra és oszloppal elvégezzük. Példa: A B + + + + + + + + + + + + 7 7 0 0 3 0 3 0 3 3 0 3 3 0 3 0 ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (... Azonosságok E A A E A Egységmátrszal szorozva az eredet mátrt kapjuk. 0 A A 0 0 Zérusmátrszal való szorzás zérusmátrt eredményez...3. Többtényezős mátr szorzás A két tényezős konformabltást tetszőleges tagra s kterjeszthetjük és szorzás lyen sorrendben elvégezhető: D p l C l k B n k A n m ), ( ), ( ), ( ), ( Specáls eset a mátr hatványozása, amt a mátr n-szer smételt szorzásával kapunk meg: A A A A A n Megállapodás szernt A 0 E. Az egységmátr n-edk hatványa szntén egységmátr, a zérusmátr n-edk hatványa pedg zérusmátr. lpotensnek nevezzük az A mátrt, ha n-edk hatványára gaz, hogy a zérusmátrt adja eredményül:

A n 0 Idempotens az A mátr (önnmagát vsszaadó), ha teljesül rá: A n A.3. Determnánsok A két smeretlent (, y) tartalmazó un. elsőfokú (az smeretlen tényezők az elsőhatványon szerepelnek) egyenletrendszerek megoldására három lehetőségünk van: a) helyettesítő módszer alkalmazása b) egyenlő együtthatók módszerének alkalmazása c) determnánsok módszerének alkalmazása. Tekntsük az általános egyenletrendszer alakját: a +b yc a +b y c Képezzük az együtthatókból az alább másodrendű determnánsokat és adjuk meg az értéküket meghatározó formulákat s: a D ) ( ) a c b b ( a b b a D ) ( ) c a b b ( c b b c D y ) ( ) a c c ( a c c a Az egyenletrendszer megoldása a determnánsok segítségével: D D lletve y Dy D ylván D 0 esetén van csak megoldás. 7

8 Példa: Oldjuk meg az alább elsőfokú egyenletrendszert a determnánsok segítségével: 4+3y6 +y 4 Vegyük az egyenletrendszer másodrendű determnánsát, amt az együtthatókból képzünk (főátló szorzata mellékátló szorzata): D 3 4 3 4 ) ( ) ( Mvel a D 0, ezért az egyenletrendszer megoldható. 3 6 3 4 6 3 4 4 3 6 D D ) ( ) ( y 4 6 4 4 3 4 4 6 4 y D D ) ( ) ( Tehát a keresett megoldások: 3 és y-. A fent elv három vagy több smeretlenes egyenletrendszer esetén s alkalmazható, de lyenkor fgyelemmel kell lenn az aldetermnánsok előjelére..3.. Mátr determnánsa Csak kvadratkus mátrnak van determnánsa, amt a mátr elemeből képzünk. Ha a mátr determnánsa deta 0, akkor a mátr regulárs, ha deta 0, akkor a mátr szngulárs. Vzsgáljuk meg a következő mátr determnánsát: 3 0 A Fejtsük sorba a mátrt az első sora szernt. A determnánst bármelyk sora vagy oszlopa szernt kfejthetjük, csak vegyük fgyelembe az együtthatók előjelszabályát. Az előjel szabály

(sakktábla szabály) pl. egy harmadrendű determnánsra (de ez értelemszerűen kbővül a feladatnak megfelelően) + + + + + A kfejtés azt jelent, hogy a kszemelt sor vagy oszlop együtthatóval szorozzuk a hozzátartozó aldetermnánsokat. Most fejtsük k a determnánst az első sora szernt (a kfejtés technkája: pl. a -hez tartozó aldetermnánst megkapjuk, ha letakarjuk az első sort és az első oszlopot, a megmaradt elemek lesznek az a -hez tartozó determnáns eleme): 0 det A 3 3 0 3 0 + 0 + 0 0 Mvel a determnáns 0, ezért a mátr regulárs..3.. Mátr rangja Az A mátr rangja az a ρ(a) r természetes szám, ha az r-edrendű kvadratkus mnormátra között van legalább egy olyan, amely regulárs, de az összes r+-edrendű már szngulárs. Következésképp, az m n mátr rangja nem lehet nagyobb sem soranak, sem oszlopanak számánál. A rang fontos szerepet játszk pl. a lneárs egyenletrendszerek megoldásánál. Az előbb mátr rangja ρ(a) 3, mvel a determnánsa láttuk, hogy 0..3.3. Inverz mátr agyon fontosak a lneárs egyenletrendszerek megoldásában vagy egyes többváltozós statsztka módszerek elméletében. Vezessük be az adjungált mátr fogalmát: egy négyzetes mátr adjungáltján azt a transzponált hpermátrt értjük, amelynek eleme szntén mátrok, mégpedg az a j elemehez tartozó előjeles aldetermnánsok (lásd a fent előjelszabályt) alkotják a mátr elemet. 9

adja A A... A n A A... A n............ A A. A n n nn.. ézzük meg a fent mátr adjungáltját. Vegyük sorba az egyes elemekhez tartozó előjeles aldetermnánsokat: A 0 3 A 0 A 3 0 3 A 0 3 3 A 4 A 3 0 3 3 0 A 3 A 3 4 0 A 33 A kapott adjungált mátr (transzponált mátr): 0 adja 0 0 3 4 3 4 égyzetes mátr esetén, ha A 0, akkor megtudjuk határozn az nverz vagy recprok mátrt, az A - mátrt. Ekkor gazak a következő azonosságok: A A - E és A - A E Vagys akár jobbról vagy balról szorozzuk az A mátrt az nverzével, mndg az E egységmátrt kapjuk eredményül. Az nverz mátrt a következő módon határozzuk meg, ha A 0 (ellenkező esetben A-nak nem létezk nverze) feltétel esetén: 0

A - adja A Mvel az előbb mátr determnánsára gaz, hogy A 0, ezért létezk az nverze. Ismerjük az adja mátrt, végezzük el az osztás műveletét, hogy megkapjuk az nverz mátrt: A - adja A 0 0 0 3 4 3 0 4 0. 5 0 0. 5 0. 5 0. 0. 5 0. 0. 0. Önadjungált mátr: az A önadjungált, ha A*A (lásd szmmetrkus mátrok)..3.4. Sajátérték, sajátvektor A két fogalom központ helyet foglal el a bostatsztkában. Számos statsztka módszer alapszk ezeken a számításokon pl. PCA (főkomponens analízs), faktoranalízs. Ezeknél a többváltozós módszereknél az alapmátr az R (korrelácós mátr). A téma tárgyalása előtt nézzünk meg néhány alapfogalmat: Skalárs mennység (skalármennység): olyan mennység, amely jellemzésére a számérték s elegendő pl. térfogat, terület, hosszúság stb. Vektoráls mennység (vektormennység): olyan mennység, amely jellemzésére a számértéken felül a mennység rányára és rányítására s szükség van. Ezt megfelelő rányú egyenes szakasszal ábrázoljuk, melyen az rányítást a nyíl jelz. Vektorok például a rendezett zámpárok, számhármasok stb., azaz a sík- lletve térbel koordnáták. Pl. erő, gravtácós térerősség stb. Vektor-tér (vagy lneárs tér): a lneárs algebra legalapvetőbb strukturáls fogalma. A vektorokkal végezhető műveletek legelembb tulajdonságat aomatkusan defnálja. A lneárs tér a m szokásos síkunk és terünk általánosítása többdmenzós terekre. Eukldesz tér: azon T számtest felett vektortereket, melyekben a vektorterek aómán felül értelmezve van egy ún. skalárs szorzat (eukldesz norma). Legyen V egy vektortér egy T test felett (pl. a valós számok halmaza, R), és legyen A egy n- edrendű kvadratkus mátr, amely a V vektortér egy lneárs leképezését adja:

A: V V és legyen v V egy nem nulla tetszőleges vektor (v[v, v, v 3,,v n ]). A v vektort az A leképezés sajátvektorának nevezzük, ha létezk olyan λ skalárérték (λ0 s lehetséges), hogy λ T, és teljesül a következő egyenlőség: A v λ v A λ érték az A egy v sajátvektorához tartozó sajátértéke. Legyen A egy kvadratkus mátr. A sajátérték egyenlet az előzőek alapján: A v λ v Használjuk fel az E egységmátrt, amely nem változtatja meg az egyenletet: Rendezzük át az egyenletet: A v λ E v A v - λ E v 0 ahonnan (A - λ E) v 0 Az adott A mátr karaktersztkus polnomja (det a determnánst jelöl): P(λ) det(a - λ E) A polnom fokszáma megegyezk a mátr rendjével, így legfeljebb n sajátérték lehetséges, amknek a megkeresése magasrendű mátrok esetén különösen nehéz. Az alább determnánst kfejtve (A karaktersztkus determnánsa), λ-ra pontosan n-edfokú polnomot kapunk, amelynek a gyöke lesznek a keresett sajátértékek: a λ a. a n a. a. λ.. a. A λe 0 a n a n. a nn λ A λ -hez tartozó sajátvektorokat a

(A - λ E) v 0 egyenlet alapján határozzuk meg. Megjegyzés: - A sajátértékek összege, λ + λ + + λ n Sp(A), am a mátr nyoma. - A sajátértékek szorzata, λ λ λ n det(a). Példa: Határozzuk meg az egyk ún. Paul mátr sajátértéket és vektorat. Megjegyzés: a Paul mátrok -es hermtkus mátrok, amelyek nyoma 0. Három féle lyen mátr van. A mátr alakja: 0 [ A ] Írjuk fel a karaktersztkus egyenletet: 0 λ A λe λ 0 0 λ A sajátértékek: λ ±. A kapott sajátértékek teljesítk a következőket: A keresett saját vektorok: λ esetén: Sp(A) +(-) 0 és det(a) (-) - 0 Felhasználva a fent egyenletet: Végezzük el a beszorzást. v v ( ) ( ) 0 -v () + v () 0 v () v () 0 3

4 Amből a v () v () egyenlőség adódk (a felső nde a szóbanforgó sajátértéket jelöl). A keresett vektor alakja: v ) ( Ennek normált alakja ( s + felhasználásával): v ) ( λ - esetén: Felhasználva a fent egyenletet: 0 v v ) ( ) ( Végezzük el a beszorzást. -v () + v () 0 v () v () 0 Amből a v () v () egyenlőség adódk. A keresett vektor alakja: v ) ( Ennek normált alakja ( s + felhasználásával): v ) ( A saját vektorok mátra tehát: 0 0 A A főátlóban a sajátértékek állnak.

.4. Fontosabb specáls mátrok a) Sormátr (sorvektor) Egyetlen sorból álló mátr: a[a, a,, a n ] b) Oszlopmátr (oszlopvektor) Egyetlen oszlopból álló mátr: a a a a... m c) Zérus-mátr Mnden eleme 0: 0 A 0 0 0 0 0 0 0 0 d) Dagonál mátr Csak a főátlóban lévő elemek nem 0-ák. Megadás módja A a, a,., a mn e) Egységmátr 5

6 A főátlóban mnden elem, a több zérus. Megadáskor a rendszámot s feltüntetjük: E 3 0 0 0 0 0 0,, A mátr egyes oszlopa (sora) adják az egységvektorokat, pl. az oszlopmátrok: e 0 0 e 0 0 e 3 0 0 f) Szmmetrkus mátr Olyan négyzetes mátr, amelynek eleme szmmetrkusak (tükörképek) a főátlóra, vagys a j a j. Ilyen pl. a korrelácós mátr. Az lyen mátr azonos a transzponáltjával, azaz AA*. 3 6 5 6 4 5 4 S Antszmmetrkus mátr esetén nylván a j -a j. Az lyen mátr főátlójában csak 0 áll. g) Háromszögmátr A főátló alatt vagy felett csak 0 elem áll. Így megkülönböztetünk alsó és felső háromszögmátrt. Példa egy felső háromszögmátrra: H f 5 0 0 3 0 4 4 h) Mnormátr Tetszőleges sor(oka)t és oszlop(oka)t elhagyva a mátrból kapjuk az A mátr mnormátrát. Például vegyük a fent S mátrt. Hagyjuk az első sort és a harmadk oszlopot. A kapott S mátr mnormátra a következő: 6 5 4 S

) Konjugált mátr Az A mátr elemenek (komple számok) konjugálásával kapott mátr: A [ a ] eleme valós számok, akkor j) Untér mátr a j a j. A komple A untér mátr kvadratkus mátr, melyre gazak az alábbak: A A * A * A E j. Ha az A Vagys, ha az A mátrt megszorozzuk a konjugált mátr transzponáltjával (akár balról vagy jobbról), akkor az E egységmátrt kapjuk eredményül. Továbbá A mátr transzponáltja egyben nverze s. k) Ortogonáls mátr A - A * Ha az A R (az untér mátr eleme valós számok), akkor azonosság: *, és gaz a következő A A A A * A * A E l) Hpermátr: amelynek eleme szntén mátrok.. Kombnatorka A kombnatorka (kapcsolástan) az elemek csoportosításával foglalkozó önálló tudományága a matematkának. Elsődleges feladata az elemek csoportjanak előállítása, valamnt a csoportok számának meghatározása. Az elemek egy elrendezését kompleónak nevezzük. Az elemek elrendezésének három legfontosabb fogalma a permutácó, a varácó és a kombnácó témaköréhez tartozk. 7

.. Permutácók Ha n db egymástól különböző elemünk van és ezeket az elemeket az összes lehetséges módon sorba rendezzük (sorba rakjuk őket), akkor azt mondjuk, hogy az elemeket permutáljuk. Az egyes elrendezések a kompleók. Ha az elrendezendő elemek mnd különbözők, akkor smétlés nélkül, ha az elemek között azonosak s vannak, akkor smétléses permutácóról beszélhetünk. Megegyezés szernt az azonos elemek felcserélését nem tekntjük különböző sorrendnek. Az smétlés nélkül permutácók száma: P n 3... n n! vagy rövden P n n! az n elem től n g terjedő egész számok szorzata. Jelölésben n! (ejtsd: n faktoráls), am az n elem faktoráls értékét jelöl. Megállapodás szernt 0!. Ismétléses permutácók száma: k p, k, k 3,..., k n n n! k!, k!, k 3!,..., k n! ahol k,k,k 3,...,k n az egymás közt megegyező elemek számát jelöl... Varácók Ha n számú különböző elemből kválasztunk k(k n) számú elemet úgy, hogy fgyelembe vesszük ezek sorrendjét s, akkor n elem k ad osztályú varácójáról beszélünk. Az összes varácó számát a kfejezés adja. V k n k! n( n ) ( n ) ( n 3)... ( n k + ) ( n k)! Ha az n elemből úgy választunk k elemet tartalmazó csoportokat, hogy a csoportban egy elem többször s szerepelhet és az elemek sorrendje s fontos, akkor az n elem k ad osztályú smétléses varácóját határozzuk meg: 8

V k, n n A felső ndeben az betű jelöl az smétléses varácót. k.3. Kombnácók Ha az n számú különböző elemből úgy választunk k k (k n) számút mnden lehetséges módon, hogy a kválasztás során a csoportokon belül az elemek sorrendje nem fontos, akkor n elem k ad osztályú kombnácójáról beszélünk. Az összes lehetséges kválasztás száma: C k n n n! n( n ) ( n ) ( n 3)... ( n k + ) k k!( n k)! k( k )... n Az k jelölést úgy olvassuk, hogy n alatt a k. Ha a k elem között egy elem többször s előfordulhat, akkor n elem k ad osztályú smétléses kombnácójáról beszélünk. Az összes kválasztás lehetőségek száma: C k, n n + k k Az Ecelben a COMBI függvénnyel lehet kombnácót számítan..4. Bnomáls együtthatók tulajdonsága Az olyan kfejezéseket amelyek két tagból állnak bnomáls kfejezéseknek nevezzük, pl. (a+b) vagy (a b). agyon érdekes tulajdonságot fedezett fel Pascal (63 66) franca matematkus a bnomok hatványozásával kapcsolatban. Vegyük az (a + b) bnom hatványat sorba egészen az 5. hatványg (n 0,,,3,4,5): (a + b) 0 (a + b) a + b (a + b) a + ab + b (a + b) 3 a 3 + 3a b + 3ab + b 3 (a + b) 4 a 4 + 4a 3 b + 6a b + 4ab 3 + b 4 (a + b) 5 a 5 + 5a 4 b + 0a 3 b + 0a b 3 + 5ab 4 + b 5 9

Ha az egyes tagok együtthatót egymás alá írjuk, akkor az ún. Pascal háromszöget kapjuk, ahol a külső szárak mentén csak es áll. A háromszög belsejében álló bármely szám a közvetlen felette lévő és attól balra álló két szám összege: n 0 n n n 3 3 3 n 4 4 6 4 n 5 5 0 0 5 Pascal háromszög A Pascal háromszög ktöltését tovább lehet folytatn az n értékének megfelelően (az n tetszőleges, nem negatív egész szám). A Pascal háromszög révén bármely (a±b) n bnom kfejtett polnomáls alakját fel lehet írn, mvel az egyes sorok a kívánt polnom tagjanak együtthatót tartalmazza. Az egyes tagok hatványanak a meghatározása úgy történk, hogy az első tagnak az a nak a hatványa balról jobbra gyel csökkennek, n től 0 g, a b együttható hatványa balról jobbra gyel nőnek. (0 tól n g). Vegyük fgyelembe a hatványozásnál, hogy a 0 és b 0, így ezen tagokat nem s írjuk k a hatványozás során. Pl. a teljes alak az (a+b) kfejezésnél a következő lenne: (a+b) a b 0 + a b + b a 0 a + ab + b Vezessük be az tételt: n n 0, n jelöléseket és írjuk fel a ewton féle bnomáls n n n n n n ( a b) a n a n b a n b n... ab n n b n + + + + + + 0 n k 0 n k a nk b k ahol az n k együtthatókat bnomáls együtthatóknak nevezzük. A bnomáls együtthatókra gaz az alább kfejezés: 30

n n n + k k + k A tételt a kfejtett bnomáls együtthatókkal s felírhatjuk: n ( ) ( a b) a a n n b + + + a b +... +!! n n n n n A tételnek egy következménye az alább kfejezés: (+) n +n (n közel van a 0 hoz). 3. Valószínűség-számítás 3.. Kísérlet, esemény Véletlen kísérlet: olyan folyamatot, jelenséget értünk, amelynek a kmenetele előre bzonyosan nem mondható meg, de az gen, hogy mlyen módon fejeződhet be. Azaz előre tudható, hogy mlyen végállapotok lehetnek. A véletlen kísérletet azonos feltételek mellett, függetlenül meg lehet fgyeln, akárhányszor végre lehet hajtan. Esemény: a véletlen kísérlettel kapcsolatos eseménynek nevezünk mnden olyan logka állítást, melynek gaz vagy hams értéke egyértelműen megállapítható a kísérlet befejezésekor. Az esemény bekövetkezk, ha az állítás gaz értéket kap a kísérlet végén, és nem következk be, ha logka érték hams. Jelölésük. A, B stb. Eseménytér: az elem események halmaza. Jelölés: Ω Defnícó: az A esemény maga után vonja a B eseményt, ha az A esemény bekövetkezéséből a B esemény bekövetkezése s következk. Jelölés: A B Aóma: A véletlen kísérlettel kapcsolatos összes események Ω rendszere (eseménytér) a) I Ω O Ω b) ha A Ω A C Ω c) Ha A, A, A 3,., A n Ω A Ω 3

3.. Eseményalgebra HALMAZOK ESEMÉYEK Uno: A B Összeg: A+B Metszet: A B Szorzás: AB Komplementer: A C Ellentett esemény: A C Alaphalmaz: H Bztos esemény: I Üres halmaz: Lehetetlen esemény: O Részhalmaz: A B A maga után vonja B-t: A B Egymást kzáró események: ha A és B-re gaz, hogy ABO Elem esemény: a K véletlen kísérlet egy A O eseménye, ha nncs olyan B esemény, amely A-t maga után vonná. Azaz B ( O és A) olyan, hogy B A. Az elem események jelölése ω. A+BB+A (A+B)+CA+(B+C) A+AA A+II A+OA Esemény algebra Összeadás Kvonás Szorzás Komplementer Több művelet A-BAB ABBA c A(B+CAB+AC (AB)CA(BC) ( A C ) A AOO AAA AII I C O O C I A+A C I AA C O De Morgan: (A+B) C A C B C (AB) C A C +B C 3... Teljes esemény rendszer Az A, A, A 3, A 4,..A n események teljes esemény rendszert képeznek, ha a) A +A +A 3 +A 4 +..+A n I b) A A j O, ha j (,, 3,,n és j,, 3,,n) 3

3.3. Valószínűség fogalma Valószínűség aómája Adott P: Ω [0, ] valószínűség függvény. A P kelégít az alábbakat:. P(I). Ha A, A, A 3, A Ω, és A A j O akkor gaz a σ-addtívtás(ha n, akkor véges addtvtás): P ( A ) P ( A ) ahol P(I): Bztos esemény valószínűsége P(O): Lehetetlen esemény valószínűsége 33

Kolmogorov-féle valószínűség mező: (I, Ω, P) Valószínűség alapfogalmak. Valószínűség: Eseményeken értelmezett számértékű függvénymérték. Jelölésben P(A)p Kolmogorov aómák: 0 P(A) P(O)0 és P(I) Ha AB O P(A+B) P(A) + P(B). Valószínűségszámítás: klasszkus valószínűség modell: k kedvez ő események száma P ( A) p n összes események száma 3. Statsztka próba (teszt): A mért adatokon értelmezett függvény. 4. Szgnfkanca értelmezése : p < 0.05 A valószínűség másk smert megadás módja a százalékos forma, amkor pl. p 0.60 helyett 60 % os esélyt mondunk egy esemény bekövetkezésére. Ha magát az A eseményt s jelöljük a valószínűségével együtt, akkor a P(A) jelölést használjuk. 34

Feltételes valószínűség P(AB) P(A B) P(B) Teljes valószínűség tétele Ha B, B, B 3,., B n események teljes esemény rendszert alkotnak és P(B I ) 0, akkor egy tetszőleges A esemény valószínűsége P(A)Σ P(A B ) P(B ) Bayes elmélet Ha a B, B, B 3,., B n események teljes esemény rendszert alkotnak és P(B) 0, valamnt egy tetszőleges A eseményre gaz, hogy P(A) 0, akkor a B eseményekre gaz posteror valószínűség P(A B ) P(B ) P(B A) Σ P(A B k ) P(B k ) k a pror valószínűség Markov-egyenlőtlenség Legyen ξ poztív valószínűség változó véges M(ξ) várható értékkel. Ekkor tetszőleges λ > 0 valós számra gaz az alább egyenlőtlenség: P ( ξ λ M( ξ)) λ 35

Csebsev-egyenlőtlenség Legyen ξtetszőleges valószínűség változó, melynek van szórása. Ekkor ε > 0 esetén gaz: P( ξ ξ ε D ( ) M( ) ) ε ξ Ha ξsmeretlen (várható érték és szórás gen), akkor felső korlátot tudunk megadn a várható érték körül szmmetrkus ntervallumokba esés valószínűségere. agy számok Bernoull-féle gyenge törvénye Legyen ξbnomáls eloszlású valószínűség változó, mely k k(k0,,,,n)értéket vesz fel, ha az A esemény az n kísérlet során k-szor k következett be. Legyen az A esemény n relatív gyakorsága, P(A) p az esemény valószínűsége. Ekkor ε> 0esetén gaz: q p P(A) P ( k n p ) ε p q ε n k P ( n p < ) ε p q ε n 36

. agyszámok gyenge és Erős törvénye 3.3.. Valószínűség változók jellemzése A valószínűség változó egy olyan függvény, amely az eseménytér elemehez valós számokat rendel: ξ: Ω R Valószínűség változó: ha az elem események mndegykéhez egyértelműen hozzárendelünk egy számot, akkor az eseménytéren egy függvényt értelmezünk, és ezzel megadunk egy valószínűség változót. Dszkrét eloszlások: értékkészletük megszámlálhatóan véges vagy. Eloszlásfüggvénye: A ξ dszkrét valószínűség változó F() eloszlás lépcsős függvénye: F() P(ξ < ) k< p k Az F() eloszlásfüggvény tulajdonsága: balról folytonos, 37

monoton növekedő, értéke 0 és l között. Folytonos eloszlások: értékkészletük megszámlálhatatlanul. Sűrűségfüggvénye: a ξ adateloszlását, sűrűségét jellemző folytonos függvény. Jelölése: f() Eloszlásfüggvénye: F() P(ξ < ) és értékkészlete a [0, ] között ntervallum. Grafkonja folytonos: görbe A sűrűségfv. "görbe alatt területét" egy [-, ] ntervallumban az eloszlásfv. adja meg. F ( ) f ( ) d A sűrűségfüggvény tulajdonsága, hogy értéke 0 (hszen a valószínűség nem lehet negatív értékű), a függvény görbe alatt területe l. f() Infleós pont Π 34, % 34, % 3,6 % 3,6 %, %, % 0, % 0, % µ-3σ µ-σ µ-σ µ µ+σ µ+σ µ+3σ ormáleloszlás sűrűségfüggvénye 38

Sűrűségfüggvénye f e σ π ( µ ) σ ( ) ormáleloszlás eloszlásfüggvénye.000.96; 0.975 0.900 0.800 0.700 0.600 0.500 0; 0.500 0.400 0.300 0.00 0.00 -.96; 0.05 0.000-4 - 0 4 39

Eloszlásfüggvénye F ) e ( µ ) σ ( σ π d 3.3.. Valószínűség változók várható értéke és szórása Várható érték (M(ξ)): az a szám, amely körül megfgyelt értékenek átlaga ngadozk. Dszkrét esetben: M ( ξ ) n k p k k Folytonos esetben: M (ξ ) f ( ) d Szórás (D(ξ )): a ξ várható értékétől való átlagos eltérését jellemz. égyzete a varanca: V(ξ) D (ξ) 40

A szórásnégyzet: Var(ξ) D (ξ) M[(ξ M(ξ)] M(ξ ) M (ξ) Dszkrét esetben: Var(ξ) D (ξ) n k pk k n pk k k Folytonos esetben: ) D( ξ ) f( ) d( f( ) d 3.4. Eloszlások 3.4.. evezetes dszkrét eloszlások 3.4...Bnomáls eloszlás Végezzünk el egy kísérletet n szer egymástól függetlenül. A kísérlet során egy A esemény bekövetkezésének valószínűsége legyen P(A) és az ellentett esemény valószínűsége pedg P( A) q p. A p ről feltesszük, hogy konstans a kísérlet folyamán. A ξ valószínűség változó az A esemény bekövetkezésenek a számát jelent. Ekkor annak valószínűsége, hogy a kísérlet során az A esemény k szor következk be a következő alakban adható meg: p k P(ξ k) n p k k q nk (k 0,,,..., n) A ξ valószínűség változó eloszlását bnomáls eloszlásnak nevezzük, amelynek várható értéke: és szórása: M(ξ) n p D(ξ) n p q 4

3.4...Hpergeometrkus eloszlás Az számú elemből jelöljünk meg M darabot. Random módon vsszatevés nélkül válasszunk k n darabot az számú elemből úgy, hogy teljesüljön a választásra az n M és n M feltétel. Jelölje ξ azoknak a megjelölt elemeknek a számát, amelyek az n kválasztott elemek között előfordulnak. Ekkor ξ értékere az alább valószínűségek adódnak. M M k n k p k P(ξ k) (k 0,,,.., k) n A ξ valószínűség változó eloszlását hpergeometrkus eloszlásnak nevezzük. Az eloszlás várható értéke és szórása: M(ξ) n p D(ξ) n M M n M 3.4..3. egatív bnomáls eloszlás Végezzünk el több egymástól független kísérletsorozatot, amelyben egy A esemény valószínűsége P(A) konstans a kísérlet folyamán és az ellentett esemény valószínűsége a P(A) p. Legyen r egy természetes szám és ξ olyan valószínűség változó, amely ha az A esemény r szer éppen az r+k adk kísérletben következk be az k k+r értéket vesz fel. ylván az ezt megelőző kísérletekben az A esemény r szer, az A esemény k szor következk be. Ekkor annak valószínűsége, hogy az A esemény a k+r kísérletsorozatban r szer következk be. k + r p k P(ξ k ) p r r ( p) k (k 0,,,...) A ξ eloszlását r ed rendű negatív bnomáls eloszlásnak nevezzük. Az eloszlás várható értéke és szórása: 4

M(ξ) r p D(ξ) r( p) p 3.4..4. Posson eloszlás A p k P(ξ k) λ k k! e λ (k 0,,,...) eloszlást a ξ valószínűség változó Posson eloszlásának nevezzük, ahol λ>0 egy tetszőleges valós szám. Posson eloszlást követnek pl. adott dő alatt lejátszódó események száma, baktérumok, sejtek száma.egy adott téfogatban, balesetek száma egy dőntervallumban, stb. A Posson eloszlás és a bnomáls eloszlás között szoros a kapcsolat. Ha a bnomáls eloszlásban n nagy és a vzsgált esemény valószínűsége a p értéke 0 hoz közel érték (az n p szorzat értéke < 5), lyenkor a λ n p választással a bnomáls eloszlás jól közelíthető a Posson eloszlással: n k p k q nk k λ k! e A Posson eloszlás várható értéke és szórása: M(ξ) λ λ D(ξ) λ 43

3.4.. evezetes folytonos eloszlások 3.4... Egyenletes eloszlás Az egyenletes eloszlás sűrűségfüggvénye: 0 ha a f() ha a < b b a 0 ha > b Eloszlásfüggvénye: F() P(ξ<) 0 a b a ha a ha a < b ha > b A várható érték és szórás: M(ξ) a + b D(ξ) b a 44

Az egyenletes eloszlás eloszlásfüggvénye Az egyenletes eloszlás sűrűségfüggvénye 3.4...Eponencáls eloszlás Az eponencáls eloszlás sűrűségfüggvénye: 0 ha 0 f() λe λ ha > 0 ahol >0 tetszőleges poztív szám. Az eponencáls eloszlásfüggvény alakja A várható érték és szórás: F() P(ξ<) 0 ha 0 λ e ha > 0 M(ξ) λ D(ξ) λ 45

Eponencáls eloszlás Az eponencáls eloszlás sűrűségfüggvénye: Eponencáls eloszlás A valószínűség változót paraméterű eponencáls eloszlásúnaknevezzük, ha eloszlásfüggvénye: ahol rögzített Az eponencáls eloszlásfüggvény Az eponencáls eloszlás általánosított alakja a Webull eloszlás, amelynek sűrűségfüggvénye (c > 0 és α > 0 állandók): 46

f() c α 0 α e c α ha ha 0 > 0 Eloszlásfüggvénye: e F() 0 c α ha 0 ha < 0 A Webull eloszlás egyk sajátságos felhasználás területe a gyógyszerknetka vzsgálatok. 3.4..3.Gamma eloszlás A ξ valószínűség változó λ paraméterű, Γ edrendű λ eloszlás sűrűségfüggvénye az alább formában adható meg: f() p p λ Γ( p) 0 e λ ahol λ>0 és p>0 állandók. Ha p egész szám, akkor: Γ(p) (p )! A várható érték és szórás: ha ha 0 < 0 M(ξ) p λ D(ξ) p λ 47

3.4..4.Béta eloszlás A ξ valószínűség változó (p, q) rendű béta eloszlású, ha sűrűségfüggvénye: f() Γ p + q) Γ( p) Γ( q) 0 ( p q ahol p > 0 és q > 0 állandók. Az eloszlás várható értéke és szórása: M(ξ) ( ) p p + q ha 0 < < egyébként D(ξ) p q p + q p + q + A szabadságfok fogalmát Sr R.A. Fsher vezette be. Egy statsztka szabadságfokát amelyet df el (degrees of freedom) jelölünk a továbbakban, úgy defnáljuk, hogy az mntaszámból levonjuk az adott statsztka kszámításhoz szükséges, az adatokból már meghatározott paraméterek k számát. df k 3.4..5.F eloszlás Legyen az összehasonlítan kívánt két mnta normáls eloszlású, elemszámuk és, az egyes populácók varancája (szórásnégyzete) σ és σ. Az F statsztkát a következőképpen defnáljuk: ahol s és s szabadságfoka: F ( ( s s ) σ ) σ a mntákból számolt korrgált varancák (lásd később). Az eloszlás df és df 48

Az eloszlás sűrűségfüggvénye: f f, f f+ ( ) f K F F + ahol K a df és df szabadságfokoktól függő konstansérték. Az eloszlás görbe alatt területe. Az eloszlás alakja az df és df értékektől függ. f f f Az F eloszlás várható értéke: M ha 3 és szórása D ( + ) ( ) ( 4) (ha 5) F eloszlás f (n-) f (n-) 49

3.4..6. ormáls eloszlás Általános jelölése: (µ, σ). Az eloszlást Gauss-görbének vagy harang görbének s hívjuk. Sűrűségfüggvény f e σ π ( µ ) σ ( ) f() Infleós pont Π 34, % 34, % 3,6 % 3,6 %, %, % 0, % 0, % µ-3σ µ-σ µ-σ µ µ+σ µ+σ µ+3σ ormáls eloszlás tulajdonsága 50

Eloszlásfüggvény F ) e ( µ ) σ ( σ π d ormáleloszlás eloszlásfüggvénye.000.96; 0.975 0.900 0.800 0.700 0.600 0.500 0; 0.500 0.400 0.300 0.00 0.00 -.96; 0.05 0.000-4 - 0 4 5

Standard normáls eloszlás jelölése: (0, ) ϕ() nfleós pont ~ 0,4 Π nfleós pont 34, % 34, % 3,6 % 3,6 %, %, % 0, % 0, % -3 - - 0 3 z Standard normáls eloszlás -µ z σ z a transzformácós képlet, amely segítségével tetszőleges normáls eloszlást standard normáls eloszlásba (egyetlen lyen alak van) transzformálhatunk. 5

Standard normáls eloszlás sűrűségfüggvénye φ( ) e π Standard normáls eloszlás eloszlásfüggvénye Φ ( ) e π d 53

Aszmmetrkus normáls eloszlások: POSITIVELY SKEWED EGATIVELY SKEWED 54

BI-MODAL 3.4..6.. ormáls eloszlás aszmmetra mutató Pearson-féle A mutató: A mérőszám (önmagában a számláló) előjele az aszmmetra rányát mutatja. Bal oldal, jobbra elnyúló aszmmetra esetén A > 0, jobb oldal, balra elnyúló aszmmetra esetén A < 0. Szmmetrkus eloszlás esetén A 0. A mérőszám abszolút értékének nncs határozott felső korlátja, azonban már -nél nagyobb abszolút érték a gyakorlatban rtkán fordul elő és meglehetősen erős aszmmetrára utal. A Mo σ F- mutató: E mutatószám ugyanolyan feltételek mellett ad nulla, poztív és negatív eredményt, mnt az A mutató. Az F mutató lényegesen ksebb értékkel jelz a már nagyfokúnak teknthető aszmmetrát, mnt az A. (Q F (Q 3 3 Me) (Me Q ) Me) + (Me Q ) 55

Kurtoss: a görbe csúcsosságát jellemz. Poztív érték esetén csúcsosabb, negatív érték esetén lapultabb a görbe. Értéke lehetőleg legyen 0 vagy 0 közel. Skewness: a szmmetra tengelytől való eltolás mértékét jellemz. Poztív érték esetén jobbra, negatív érték esetén balra eltolt az eloszlás. Értéke lehetőleg legyen 0 vagy 0 közel. Ha mndkét érték egyszerre 0 vagy 0 közel, akkor az eloszlás normáls. 3.4..7.. Inverz normáls eloszlás (vagy Wald): agyon sok hasonlóságot mutat a normáls eloszláshoz. Balra eltolt eloszlások esetén használatos. 3.4..7. t-eloszlás Az ξ valószínűség változót n szabadság fokú Student-eloszlásúnak (t-eloszlásúnak vagy t n - eloszlásúnak) nevezzük, ha sűrűségfüggvénye: 56

Látható, hogy fent sűrűségfüggvény a 0-ra szmmetrkus: n szabadság fok esetén a Student-eloszlás a (λ, µ0) paraméterű Cauchy-eloszlás. 3.4..8. Lognormáls eloszlás Egy ξvalószínűség változó lognormáls eloszlású, ha a változó logartmusa: ϕ ln ξ normáls eloszlású. Az eloszlás sűrűségfüggvénye: f() e πσ 0 ( ln m) σ ha ha > 0 0 Sűrűségfüggvénye: 57

Az eloszlás várható értéke és szórásnégyzete: M(ξ) e m+ σ D m+ σ σ (ξ) e ( e ) 3.4..9. Érdekes eloszlások 3 dmenzós normáls eloszlás sűrűségfüggvénye 58

z.00 0.33-0.33 4.9.6 -.00 4.9.6 y -.7-5.0-5.0 -.7 z 5.00 8.33-8.33 4.9.6-5.00 4.9.6 y -.7-5.0-5.0 -.7 59

4. Adattípusok A statsztkában egy ξ változó mérésének a skálája olyan osztályozást jelent, amely lehetővé tesz a változón különböző matematka műveletek végrehajtását. A megjelenítés módszerét egyrészt a megfgyelt ξ változó természete (dszkrét vagy folytonos valószínűség változó), lletve a vzsgálat célja határozza meg. Ennek megfelelően a következő négy fontosabb skálatípust különböztetjük meg, megjegyezvén, hogy mnden következő skálatípus örökl a felette lévő művelet tulajdonságat lletve újabbakkal bővülnek: 4.. omnáls skála A legegyszerűbb skálatípus, ahol a mérés eredménye között csak az egyenlőséget és a nem egyenlőséget tudjuk defnáln. A statsztka vzsgálat eredményet osztályokra, kategórákra osztjuk. A nomnáls adatok nem számszerűsíthetőek, és így a legtöbb tárgyalt statsztka művelet nem használható velük kapcsolatban. A skálaértékeket pusztán kódszámoknak tekntjük, amelyek között semmlyen matematka vszonyt nem feltételezünk pl. nem (férf) és nem (nő). A nomnáls skála esetében a skálaérték előfordulásának gyakorsága (modusz) vzsgálható, vagy kontngencatábla s készíthető, azonban sem medán, sem átlag használatának nncs értelme a nomnáls skálánál. ξ -n értelmezhető műveletek:, 4.. Ordnáls skála Az ordnáls (rendezett) adatokról nem csak egyezőségüket állapíthatjuk meg, hanem valamlyen elv szernt sorba s rendezhetjük őket. Az skola osztályzatok tpkus ordnáls skálájú adatok. Megállapítható, hogy egy négyesnél jobb az ötös, de nem mondható, hogy a hármas és a négyes között ugyanakkora a tudáskülönbség, mnt a négyes és az ötös között. Továbbá nem gaz, hogy egy négyes kétszer jobb, mnt egy kettes (sem az, hogy fele annyt tud). Szntén ordnáls pl. a dohányzás mértéke (nem, mérsékelt, erős dohányos). A legtöbb ordnáls skálán mért adatot elvleg arány vagy ntervallum skálán s mérhetnénk, de ezt valamlyen okból nem tesszük (például jegyek helyett a szerzett pontok jobban tükröznék az skola teljesítményt). E skálatípus esetében a medán vzsgálható, az átlag használatának ellenben tt nncs értelme. Ordnáls adatok esetében általában a nem paraméteres statsztkákat kell alkalmaznunk. ξ -n értelmezhető műveletek:,, <, > 4.3. Intervallum skála Az ntervallum skálánál az egyes értékek között különbség azonos, de mvel nncs eleve adott 0 pontjuk, így arányaknak sncs értelme. A számértékek mnd a nagyság szernt vszonyokat 60

megmutatják, mnd az eltérés mértékét meghatározzák, a skálaértékek különbségét tt már értelmezn tudjuk. Legsmertebb ntervallumskála a Celsus-fok skála vagy Fahrenhet skála. Igaz, hogy a 0 C és a C között különbség azonos a 3 C és 34 C között különbséggel. Azonban nem gaz, hogy a 0 C kétszer olyan meleg, mnt az 5 C. Intervallum skálán adjuk meg a dátumokats vagy az IQ értéket s. Az ntervallumskála nullapontjának és egységpontjának a meghatározása s megállapodás kérdése. Itt már számolhatunk átlagot, mvel a nullapont eltolása nem változtatja meg az átlag relatív helyét az átlagolt számok között. ξ -n értelmezhető műveletek:,, <, >, 4.4. Arány skála Az arányskála az ntervallumskála jellemzővel rendelkezk, emellett tartalmaz egy abszolút nullapontot s. Az arányskálára gaz, hogy az értékek arányának jelentése van, például a 6 kgos cukroszacskó kétszer anny tömegű, mnt egy 3 kg-os. Ehhez az kell, hogy legyen a skálának nulla pontja, és ezen nulla pont ne önkényes legyen. Magasságméréseknél a nullapont a 0 magassághoz tartozk, ugyanígy tömegmérésnél a 0 tömeghez. A Kelvn hőmérsékletsálának 0 pontja s adott, nem úgy a Celsus skála 0 pontja, amelyek önkényesen választottak (pl. víz fagyáspontja). A legtöbb mért adatunk aránysálán mért, a legtöbb tt tárgyalt statsztka alkalmazható arányskálára. ξ -n értelmezhető műveletek:,, <, >,, / 5. Adatredukcó Azt az eljárást, amelynek során az adatokból olyan számértékeket (paramétereket), statsztka mutatókat határozunk meg, amelyek az adatok statsztka vselkedését jól jellemzk, statsztka redukcónak nevezzük. Az eljárás révén az adatok jellemzőt egyetlen számértékbe tömörítjük. 5.. Középérték M a középérték: azonos fajta számszerű adatok közös jellemzője. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el az adatok között, azaz 6

mn középérték ma b) Helyzet középérték: tpkus értékek legyenek (az adatok között gyakran forduljon elő). c) Legyenek könnyen meghatározhatók és egyértelműen defnálva. Középérték fajták: Középértékek Számított középértékek Helyzet középértékek Artmetka Harmonkus Módusz Medán átlag: X átlag: Mo Me X h Geometra átlag: Xg Kvadratkus átlag: Xq 5... Számított középértékek 5... Artmetka átlag (Számtan átlag) Az a szám, amelyet az átlagolandó értékek helyébe téve azok összege nem változk + + 3 +... + + + +... + Súlyozott számtan átlag A mért értékek között egyes értékek többször s előfordulnak változó gyakorságokkal. Ebben az esetben a számtan átlag meghatározásának módja 6

f ahol f az egyes értékek gyakorsága és f. f Az artmetka átlag általános formája + + 3 +... + n Megjegyzések: a) Az általánosan elfogadott szokás az átlag értékének megadására, hogy jegyenek száma egy értékkel legyen több, mnt a mért adatok jegyenek száma. b) Az átlagtól való eltérések algebra összege 0 mert a ( ) 0 -kra vonatkozó azonosságokat felhasználva rható ( ) 0 c) Hányzó értékek esetén (ha számuk nem nagy), ha ezeket az értékeket az adatok átlagával helyettesítjük, akkor a helyettesítéssel elkövetett hbák négyzetösszege a mnmáls lesz. d) Ha egy mnta két (vagy több) részmntából állítható elő, akkor a teljes mnta átlagára gaz + ahol és az első mnta, és a másodk mnta nagysága és átlaga, az egyesített mnta nagysága ( + ). e) A számtan átlag out lers (klógó vagy etrém) adatok esetén nem jellemz jól a sokaságot, érzékeny az lyen adatokra. 63

5... Mértan átlag A mértan átlag tulajdonsága, hogyha a megfgyelt értékeket a mértan átlaggal helyettesítjük, akkor szorzatuk az eredet értékek szorzatával egyezk g g g... g g 3... Az,, 3,..., megfgyelt poztív értékek mértan (geometra) átlaga g 3... ahol a produktum jele. A mértan átlagot gyorsabban megkaphatjuk, ha az eredet adatok logartmusának összegét elosztjuk az elemszámmal log g Innen az átlagot az antlogartmus felhasználásával nyerjük g ant log(log g ) A mértan átlag kszámításánál ügyeln kell arra, ha az értékek között az 0 érték s szerepel akkor a szorzat s és a mértan átlag s 0 lesz. Ilyen esetekben a mértan átlag meghatározásának nncs értelme. Súlyozott mértan átlag kszámítása a log g K f f f3 3... f k k formulával történk ahol K f + f + f 3 +... + f k A mértan átlagot akkor célszerű alkalmazn, ha az értékek szorzata 0 nál nagyobb szám és a mért értékek eponencáls eloszlásúak (eponencálsan nőnek vagy csökkennek). 64

65 Etrém adatokra kevésbé érzékeny. A számtan és a mértan átlag vszonyára a következő relácó az gaz g 5...3. Harmonkus átlag Ha az megfgyelt értékek helyébe a harmonkus átlagot tesszük, akkor recprokak összege az eredet értékek recprokanak összegével egyezk + + + + + + + + 3 h h h h h... n... A harmonkus átlag kszámítás formulája h A harmonkus átlag kevésbé érzékeny a szélsőséges értékekre. Az h értéket mnt átlagos túlélés dőt, átlagsebességet, átlagteljesítményt (azonos dőtartamra vonatkozóan) számítjuk. A súlyozott harmonkus átlag meghatározása h f f formula alapján történk. Az h g, és értékek között érvényes a következő összefüggés h g 5...4. égyzetes átlag

Meghatározása q Ha az értékek helyébe az q t tesszük, és vesszük négyzetek összegét, akkor fennáll a következő egyenlőség q A súlyozott négyzetes átlag a következő módon határozható meg q k k f f A négyzetes átlag érzékeny a out lers adatokra. Alkalmazása akkor kerül előtérbe, ha a mért értékek között poztív és negatív értékek egyaránt előfordulnak, de csak az értékek abszolút nagyságát kívánjuk középértékkel jellemezn. Ilyen esetben az előjelek jelentőségétől eltekntünk. Jelentősége az adatok szórásánál lesz. Az q és az értékek között a kapcsolat q Átlagokkal kapcsolatos megjegyzések a) Poztív értékek esetén, a négyfajta átlag vszonyára mndg gaz az alább összefüggés: mn < h q q < Konstans értékek esetén nylván mndegyk átlag azonos. b) A mértan és a harmonkus átlag a nagyon alacsony, a kvadralkus átlag a nagyon magas értékekre érzékeny. c) Használatos az ún. trmmed mean, amkor klógó értékek matt pl. elhagyjuk a mnta alsó és felső 5%-át. 66 ma

5... Helyzet középértékek 5... Módusz A módusz (M o vagy sűrűsödés középpont) a mntában az az érték, amely a leggyakrabban fordul elő. Ha az értékek egyforma gyakorsággal fordulnak elő a mntában, akkor a móduszt nem lehet egyértelműsíten. Elsősorban ntervallum vagy arányskálán mért adatok jellemzésére szolgál, de kvaltatív adatok esetén s használható. Több csúcsú eloszlásnál szntén hasznos az adatok jellemzésére. Folytonos eloszlás esetén (pl. normáls eloszlás) a módusz a görbe mamum értékénél van. Ebben az esetben nem beszélhetünk olyan értékről, amely a leggyakrabban fordul elő az adatok között. Meghatározása az osztályközös gyakorság ntervallumok alapján becsléssel történk. Csoportosított adatok (egyenlő hosszúságú ntervallumok) esetén a módusz meghatározása a formulával történk, ahol 0 Mo : a modáls osztályköz alsó határa 0 Mf + Mf + Mf Mf : a modáls osztályköz és az azt megelőző osztályköz gyakorságának különbsége Mf : a modáls osztályköz és az azt követő osztályköz gyakorságának különbsége h : a modáls osztályköz hossza * h 5... Medán A medán (Me) a nagyság szernt növekvő (csökkenő) sorrendbe rendezett adatok között a középső érték, az az 50%-os metszés pont vagy az adatok felező pontja (. kvartlse), mvel a nálánál ksebb lletve nagyobb értékek gyakorsága azonos. A medán a kugró értékekre nem érzékeny, mvel a szélső értékek nem befolyásolják nagyságát. A medán a számtan közepet pótolja ferde (aszmmetrkus) eloszlásoknál vagy etrém értékek előfordulása esetén. Ordnáls, ntervallum vagy arányskálán mért adatok 67

jellemzésére használatos. evezetes tulajdonsága, hogy az adatoknak egy c konstanstól vett eltérésenek összege akkor mnmáls, ha a konstans a medánnal azonos: c mnmum ha c Me Értékét (raconáls szám) a nagyság szernt rendezett adatokból kétféle módon lehet meghatározn a) Ha az adatok száma páros: akkor a két középső érték számtan közepe lesz a medán értéke. b) Ha az adatok száma páratlan: akkor a középső érték a medán. Csoportosított adatok esetén kszámítása a Me képlettel határozható meg, ahol 0 0 : a medánosztály alsó határa, + f f ' h ' f : az előző osztályközhöz tartozó kumulált gyakorság, f : a medánosztályba eső elemek száma, h : az osztályköz hossza, n : a mnta elemszáma. 5...3. Kvantlsek A kvantls értékek a méréssel, megfgyeléssel nyert elsősorban kvanttatív adatok rendezésére, azok eloszlásának megsmerésére szolgálnak. Ezek az értékek az adatok elhelyezkedésének tömör leírását adják. A különböző kvantls értékek meghatározása úgy történk, hogy az első lépésben az adatokat nagyság szernt növekvőleg rendezzük, majd a mnmum és mamum értékek által meghatározott tartományt k számú, egyenlő részre osztjuk. Az egyes tartományok felső határának értéke lesznek a kvantls értékek. 68

evezetes kvantls értékek: a) medán (Me): a rendezett adatokat két részre osztjuk a medán alatt és fölött az értékek 50 50% a szerepel. b) kvartlsek (Q 4 ): a rendezett adattartományt 4 részre osztjuk, így 3 kvartls értéket kapunk: Q 5% os rész értéke (alsó kvartls) Q 50% os rész értéke (medán) Q 3 75% os rész értéke (felső kvartls) c) kvntlsek (K 5 ): a rendezett tartományt 5 részre osztjuk d) declsek (D 0 ): a rendezett tartományt 0 részre osztjuk e) percentlsek (P 00 ): a rendezett tartományt 00 részre osztjuk. Ennek különösen az epdemológában van jelentős szerepe (5% és 95%-os értékek tartománya). 5.. Szóródás mutatók Az adatok egymástól való eltéréset, varabltását nevezzük szóródásnak vagy dszperzónak, amelyet egyetlen számmal fejezzük k. Meghatározására több statsztka mutató használatos a terjedelem (R) az nterkvartls terjedelem (IQT) átlagos abszolút eltérés szórás (s) relatív szórás (V). 5... Terjedelem Az adatok közt előforduló legnagyobb és legksebb érték különbséget nevezzük a szóródás terjedelmének R ma mn 69

Az érték az outler adatokra nagyon érzékeny. 5... Interkvartls terjedelem A nagyság szernt sorbarendezett adatok tartományát negyedelve kapjuk meg a 4 db egyenlő elemszámot tartalmazó ntervallumot. Az egyes ntervallumokat elválasztó értékeket (Q, Q Me, Q 3 ) nevezzük kvartlsnek. A felső (Q 3 ) és alsó (Q ) kvartls különbsége az nterkvartls terjedelem IQT Q 3 Q Adatank mnél kevésbé varáblsak, annál közelebb vannak egymáshoz a kvartlsek, lletve az ellentetje s gaz: mnél távolabb vannak egymástól annál nagyobb az eltérés az adatok között. Az IQT annak az ntervallumnak a hossza, amelyben az adatok középső 50% a helyezkedk el. A szóródásnak ez a mutatója az outler értékekre nem érzékeny, de segítségükkel ezen értékek kderíthetők. 5..3. Átlagos abszolút eltérés A szóródásnak ez a mérőszáma az outler értékekre kevésbé érzékeny. A mérőszám az átlagtól számított eltérések abszolút értékenek a számtan átlaga d δ ahol d Csoportosított adatok esetén δ f f d 5..4. Szórás A leggyakrabban használt szóródás mutató, a statsztka módszerek zöme ugyans a szórásanalízsre épül. A szórás (standard devaton, SD) az adatoknak az átlagtól vett átlagos 70

eltérését jellemz. A szórást s el, ennek négyzetét a szórásnégyzetet (varancát) s el jelöljük. Az s meghatározására két lehetőség van a) Tapasztalat szórásnégyzet a mntaátlagtól való eltérések négyzetének az átlaga égyzetgyöke a tapasztalat szórás s*. s * ( ) A tapasztalat szórásnégyzet egy véletlentől függő valószínűség változó, amelytől azt várjuk el, hogy a várható értéke a populácó szórásnégyzetével (σ ) legyen azonos. Gyakorlatlag azonban ez nem teljesül, ezért a s * értékét módosítan kell. b) Korrgált emprkus szórásnégyzet várható értéke az elmélet szórásnégyzet (σ ) lesz, ha a nevezőben az helyett szerepel (df-) és s ( ) M(s ) σ agy mntaszám esetén s * és s között eltérés nem jelentős, gyakorlatlag elhanyagolható. Ha a mntabel elemek gyakorságukkal adottak (csoportosított adatok esetén), akkor a korrgált emprkus szórásnégyzet s f ( ) 5..5. Varácós együttható Arányskálán mért adatok szóródásának relatív nagyságát mér. Dmenzó nélkül mutató, amely a szórás átlaghoz vszonyított nagyságát fejez k% os formában: 7

V s 00% A relatív szórás az adatokon végrehajtott transzformácóknak megfelelően az alábbak szernt változk: 5..6. Relatív varácós együttható A varácós együttható másk használt formája V r s 00% ormáls eloszlástól való eltérés esetén a relatív szórás használata kerülendő. 5..7. Átlag szórása Az átlag szórása vagy standard hbája (standard error of mean, SEM) s s n s 5..8. Medán szórása em normáls eloszlás esetén az adatok jellemzésére az átlag helyett a medánt és annak szóródását használhatjuk. Ez az adatoknak a medántól vett abszolút eltérésenek medánja. Például tekntsük az alább adatokat: 30, 40, 50, 80, 90 Az adatok medánja az Me 50. Vegyük az adatok abszolút eltéréset a medántól 30 50 0, 40 50 0, 80 50 30, 90 50 40 Rendezett formában a különbségek: 0, 0, 30, 40 7

~ 0 + 30 Ennek medánja Me 5 Így a medán szórása ~ Me ± Me 50±5 ormáls eloszlás esetén a medán szórására ~ 3Me robusztus becslést használhatjuk. ormáls eloszlás mellett ha a mntaszám nagy, akkor a medán szórása s Me s. 53 amely kfejezés pontosabb eredményt ad. 5.3. Grafkus ábrázolás 5.3.. Átlag±szórás ábrázolása A tudományos szaklapokban megjelenő közlemények sznte mndegyke alkalmazza az adatok tulajdonságanak bemutatására az átlag és a szórás egydejű ábrázolását. A közös ábra neve az ún. kalapácsos ábrázolás: az átlagot oszlopdagramal ábrázoljuk, s erre helyezzük rá az adatok szórásértékét ks kalapács formájában. Az lyen ábráknál jól érzékelhető az átlag és szórás vszonya és különösen csoportok megadása esetén vzuálsan összehasonlíthatók az egyes csoportok átlaga és szórása. 5.3.. Bo and whskers plot ábrázolás 73

A bo and whskers ábrázolás mntegy kterjeszt az átlag±szórás által nyújtott nformácókat, átfogóbb, teljesebb áttekntést ad. agy előnye ennek az ábrázolás technkának, hogy az összes nformácót egy ábra tartalmazza. 5.3.3. Kugró értékek (outler) vzsgálata Az olyan adatokat, amelyek az eloszlás közepétől távol helyezkednek el kugró, vagy etrém (szélsőséges) értékeknek nevezzük. Az alapsokaságtól való "elszakadás" származhat téves egyén mérésekor, megfgyelés hbából, a műszer téves leolvasásakor, de származhat olyan egyed tulajdonságból s (am az élő szervezetben nem rtka), amely nncs meg a több egyednél. Ilyen adat(ok) esetén a helyes eljárás az, ha dupla statsztka számítást végzünk: egyszer benthagyva az adatok között, egyszer pedg elhagyva végzünk statsztka próbát, 74

hogy befolyásának hatását megsmerjük. Az lyen értékek grafkus ellenőrzésére a bo-plot eljárást alkalmazzuk, amely a bo and whskers ábrázolás továbbfejlesztésének s teknthető. Az ábrázolás során kugró értéknek bzonyult adatokat mndg meg kell vzsgáln. Ha csak adathba lépett fel azt egyszerű korrekcóval javítan lehet. Ha a kugró adat egyed hatásból adódk, amely a több egyedre nem lehet jellemző, akkor az lyen értéket célszerű khagyn a tovább elemzésből. A bometra vzsgálatok során általában nem teszünk különbséget az enyhe és etrém kugró értékek között. Éppen az élettan vzsgálatok fontossága matt csak a belső határokat hagyjuk meg, és az azon kívül értékek mndegykét kugró értéknek tekntjük. 75

6. Konfdenca-ntervallum 6.. Megbízhatóság tartomány jelentősége Konfdenca-ntervallum (jelölésben: CI) adott szgnfkanca sznten a becsült változó (pl. populácós átlag, a µ) alsó és felső korlátja: olyan ntervallum értékű becslést ad egy paraméterre nézve, hogy az -α valószínűséggel esk ezen korlátok közé. Ez sok esetben jobb, mnt egyetlen becsült értéket megadn. Ezt az -α szntet sokszor százalékban adják meg; például 95% a tpkus érték. Az ntervallumbecslés szembeállítható a pontbecslésekkel. A pontbecslés egyetlen értékkel becsl meg az adott paramétert: azt mondja, hogy pl. 95%-os valószínűséggel közel van ehhez az értékhez. Ilyen paraméter pl. várható érték (µ) vagy a szórás (σ). A konfdenca-ntervallum elemzésnek három előnye van a később smertetendő hpotézs vzsgálatokkal szemben: a) a vzsgálatok eredménye értelmezhetők a használt mértékegységre nézve, b) tájékoztatást ad a hpotézs relatív pontosságáról, c) az eredmények vzuálsan s megjeleníthetők. A grafkus ábrázolás célja az, hogy mndegyk csoportra (pl. a vzsgált paraméter átlagára) meghatározzuk a 95% os konfdenca-ntervallumot és ábrázoljuk a tartományokat. Az alább három eset valamelyke lehetséges (függetlenül a konfdenca-ntervallum megbízhatóság valószínűségétől) a) Ha a két ntervallum egyáltalán nem fed egymást, akkor a két csoport átlaga között szgnfkáns különbség van. b) Ha az egyk ntervallum a másk átlagát s tartalmazza, akkor az átlagok között nncs szgnfkáns különbség. 76

6.. Átlag megbízhatóság tartománya a) Ha smert a σ értéke ahol σ CI L z* µ + z* σ CIU : a mntaátlag σ: az alapsokaság szórása : a mntanagyság z*: a megbízhatóság valószínűséghez tartozó standard normáls eloszlásból származó z érték (leggyakorbb értékek) Megbízhatóság sznt z* 80%.8 90%.64 95%.96 99%.58 99.9% 3.9 Az re szmmetrkus σ σ z, + z konfdencantervallum az eseteknek 00( α) % ban tartalmazza az alapsokaság smeretlen µ várható értékét. Ha α 0,05 (5%), akkor µ 95% ban ebben a konfdencantervallumban lesz benne és 5% ban pedg ezen kívül. A számolás elvégzéséhez szükségünk van az elmélet szórás (σ) smeretére, amt rodalom kutatás alapján megbecsülhetünk, vagy követelményként defnálunk. b) Ha csak a mntabel szórás (s) smert 77

CI L t σ µ + t σ CI U vagy * s CI L t µ +t * s CI U A t* értékét a Student eloszlás alapján határozzuk meg df szabadság fok smerete mellett. A CI számításokra vonatkozóan, ha a megbízhatóság ntervallumok pl. 95% a tartalmazza az alapsokaság becsült, smeretlen µ várható értékét az alább módon rható fel: α 0,05 értéke mellett a) ha σ smert σ σ P( 96. µ + 96. ) α 0. 95 b) ha csak az s smert s σ P( t0. 05 µ + t0. 05 ) α 0. 95 6.3. A t-eloszlás tulajdonsága: ) várható értéke 0 ) a varanca nagyobb -nél, határtértékben -hez közelít 3) szmmetrkus 4) értelmezés tartománya: -, 5) eloszlás-család, n- a szabadság fok, mnél ksebb a mnta (n), annál nagyobb a bzonytalanság, nagyobb a szórás 6) a t-eloszlás a normáls eloszláshoz tart, ha n. Mnél nagyobb mntából becslünk annál jobb lesz az átlag szórásának becslése s. Általában, n>30 esetre a konfdenca ntervallumhoz a normáls eloszlás táblázata megfelelő. 78

A konfdenca-ntervallum általános módja mntából számolt szórással (s) CI L t( α,) CI + U t( α,) s s ahol -: szabadság fok t (α, -): az ún. t-krtkus érték, amelyet a t-táblázat α oszlopából és - sorából lehet kolvasn. 7. Hpotézs vzsgálat 7.. Hpotézs fogalma Hpotézs: az alapsokaság paraméterere vagy az alapsokaság eloszlására vonatkozó feltevés. A gyakorlatban két hpotézssel dolgozunk: H 0 : null - hpotézs H : alternatív hpotézs. Pl. két mnta átlagokra vonatkozóan formalag megfogalmazva H 0 : µ µ vagy µ - µ 0 H : µ µ Hpotézsellenőrzés: az a statsztka módszer, amelynek segítségével egy véletlen mnta alapján eldöntjük, hogy az adott hpotézs (H 0 ) elfogadható-e vagy sem. Az olyan eljárást, amelyk a mnták alapján dönt, statsztka próbának nevezzük. 79

Hpotézsek megfogalmazása 7.. Szgnfkanca-sznt p-érték (emprkus szgnfkanca-sznt) Az a legksebb valószínűség, amely mellett a vzsgált H 0 hpotézst elutasíthatjuk a H hpotézssel szemben, azaz, ahol éppen az elfogadásból az elutasításba váltunk. Döntés a p értéke alapján: p < α : H 0 -t elvetjük (elfogadjuk H -t) p α : H 0 -t elfogadjuk 80

Döntés (H -t elfogadjuk) 7.3. Statsztka próbák fajtá Próbák Kétoldal próba: két oldalról állít alsó és felső korlátot (a feltételtől való eltérés tényét vzsgáljuk, rányát nem). Egyoldal próba: csak az egyk rányban állít korlátot (csak lyen rányú eltérés lehetséges vagy fontos számunkra). 8

Kétoldalú próba: H 0 : H : (nncs változás az átlagok között) (az átlagok nem egyenlőek (van változás: növekedés vagy csökkenés a beavatkozás után) Krtkus tartomány 0,95 Elfogadás tartomány Krtkus tartomány 0,05 0,05-3.0 -.5 -.0 -.5 -.0-0.5 0 0.5.0.5.0.5 3.0 H : elfogadás H 0 elfogadása H : elfogadás Kétoldalú hpotézs vzsgálata Egyoldalú próba: H 0 : H : (nncs változás az átlagok között) < (az átlag nő a beavatkozás után) 8

0,95 Elfogadás tartomány Krtkus tartomány 0,05 µ H 0 elfogadása H : elfogadás Egyoldalú hpotézs vzsgálata 7.4. Hpotézs vzsgálat döntés táblázata Meg kell határozn az alább hpotézseket a vzsgálat ndítása előtt: H 0 : ull-hpotézs H : Alternatív hpotézs Döntés táblázat Valóshelyzet H 0 gaz H 0 hams H 0 elfogadása H 0 elutasítása Helyes döntés (-α) Elsőfajú hba (α hba) Másodfajú hba (β hba) Helyes döntés (Power -β) 83

Elkövethető hbafajták Type I error (α hba vagy szgnfkanca érték): annak valószínűsége, hogy elutasítjuk a valós H 0 hpotézst. Type II error(β hba): a hbás H 0 hpotézs elfogadásának valószínűsége. Power: a téves H 0 elutasításának valószínűsége. Power - β. Értelmezések - α: elfogadom a H 0 mkor az gaz, és elutasítom a nem gaz H : µ µ α: elutasítom H 0 mkor az gaz, és elfogadom a nem gaz H : µ µ - β: elutasítom a H 0 mkor az hams, és elfogadom az gaz H : µ µ β: elfogadom a H 0 mkor az hams, és elutasítom az gaz H : µ µ 84

Type II error (β) PhD Kurzus, KOKI Sokal: Bostatstcs, 98, 64. oldal. ábra: ha az alternatív hpotézsben (H ) megjelölt várható érték (µ 54) távol esk a H 0 -ban megjelölt várható értéktől (µ 0 45.5), akkor kcs az átfedés, kcs a β értéke s. 5. ábra: ha az alternatív hpotézsben megjelölt várható érték (µ54) közel van a H 0 -ban megjelölt várható értékhez (µ 0 45.5), akkor nagy az átfedés, annál nagyobb a β értéke. A mntaelemszám növelése csökkent a β-t. 85

7.5. Power-fogalma A statsztka próba ereje A valód különbség kmutatásának valószínűsége P-β. Gyakorlatlag egy gaz munkahpotézs vagy alternatív hpotézs elfogadásának a valószínűsége. Mnél ksebb az α, annál rtkább, hogy H 0 -t tévesen elutasítjuk, de annál gyakorbb, hogy H 0 -t tévesen elfogadjuk (másodfajú hba) Az elso- és másodfajú hba csökkentése Mnta elemszámának növelése. Pontosabb mntavételezés (szórás csökken). Lehet-e az elso- és másodfajú hbát nullára csökkenten? Válasz: EM. A véletlen hatásokat nem tudjuk kktatn. 7.6. Hpotézs vzsgálat menete 86

A hpotézs vzsgálat menete A null- és alternatív hpotézs megfogalmazása. Próbafüggvény keresése/szerkesztése. Előre rögzített szgnfkancasznt mellett az elfogadás és elutasítás tartomány megszerkesztése. A próbafüggvény emprkus értékének meghatározása. Döntés: az eredmény klnkalag releváns-e?! 8. Power analízs 8.. Mntaszám meghatározása A mntaválasztásnál arra törekszünk, hogy olyan mntát válasszunk, amely szükséges és elegendően nagy a szgnfkáns különbség bztos kmutatásához. Ugyans, ha a mntánk ndokolatlanul nagy, akkor csökkentjük a CI-t (megbízhatóság tartományt) és klnkalag érdektelen különbségeket s szgnfkáns különbségként mutatunk k. Fordítva: a szükségesnél ksebb mntaszám pedg nem alkalmas ténylegesen meglévő különbségek kmutatására. 8... Az átlag becsléséhez szükséges mntaszám Az elsőfajú (α) és a másodfajú (β) hba értéke lehetőséget ad a mntaszám meghatározására. Kétoldalú próbát feltételezve, meghatározhatjuk a z α és z β értékeket (a β ra mndg egyoldalú próbát alkalmazunk): Az α és β értékekhez tartozó krtkus értékek 87

z α µ 0 és z σ β µ σ Az egyenletekből t kfejezve és egyenlővé téve a két oldalt az meghatározható (z α zβ ) σ µ µ 0 8.. Két átlagérték összehasonlításához szükséges mntaszám A két mnta középértéke között szgnfkáns eltérés kmutatásához (azonos varancájú és normáls eloszlásból származó független mnták esetén) szükséges mntaszám (z α zβ ) σ µ µ 0 Az értéke mndkét csoportra vonatkozk, (azonos létszámú csoportok). A szükséges mntaszám megállapításánál vegyük fgyelembe az alábbakat: a) A számításnál feltesszük, hogy a két populácó szórása azonos. A becsült szórást rodalm adatok vagy plot study (elővzsgálat) alapján meghatározhatjuk. Mnél nagyobb a szórás, annál nagyobb lesz az értéke s. b) A szgnfkanca sznt (α) értéke általában 0.05. Alacsonyabb érték az értékét növel. c) A másodfajú hba (β) értéke szntén befolyásolja az értékét. Mnél alacsonyabbra választjuk értékét (vagys emeljük a Power nagyságát (P β), annál nagyobb a mntaszám. A leggyakrabban a 80% vagy 90% os Power értékeket használjuk vzsgálatankban, am β 0. és β 0. értékeknek felel meg. d) Mnél ksebb eltérést akarunk kmutatn szgnfkáns értékként, annál nagyobb lesz az értéke. A mntaszám meghatározása során még a vzsgálat megkezdése előtt el kell dönten, 88

hogy a z α esetében egyoldalú vagy kétoldalú próbát alkalmazunk e. A z β értéke mndg az egyoldalú próbának megfelelő éréket vesz fel. Az alább táblázat azt mutatja, hogy különböző power és α értékek mellett a szükséges mntaszám hogyan változk α(kétoldalú próba) power β 0.0 0.05 0.0 0.0 80 0.0 8 3 9 34 90 0.0 5 3 38 43 95 0.05 3 38 46 5 8..3. Adott arány különbségéhez szükséges mntaszám A szükséges mntaszám meghatározásához az alább kérdésekre kell a választ előzetesen megadn: a) M a nullhpotézs (Π 0 ) és a hozzátartozó α érték? b) K kell jelön az alternatív hpotézst (Π ) és a power nagyságát c) A két arány különbsége (Π Π 0 ) klnkalag elég jelentős e? A kérdések megválaszolása után a mntaszámot az alább módon határozhatjuk meg: z α Π z 0( Π0) β Π( Π) Π Π0 ahol z α az α hoz tartozó kétoldalú teszt z értékét, z β a β hoz tartozó egyoldalú teszt z értékét jelent. Az alább táblázat ugyanerre a problémára vonatkozó mntaszámokat mutatja különböző power és α értékek esetén: 89

α (kétoldalú próba) Power β 0.0 0.05 0.0 0.0 80 0.0 6 34 44 5 90 0.0 33 4 53 6 95 0.05 39 49 6 7 8..4. Két arány összehasonlításához szükséges mntaszám A számítások egyszerűsége végett a csoportokban azonos mntaszámot tételezünk fel. Π jelent az egyk csoportban, Π a másk csoportban a vzsgált arányszámot. A két arány különbségének kmutatásához szükséges mntaszám: π ( π )( zα + z β ) Π + Π ahol π ( Π Π ) 8..5. Mntaszám meghatározás konfdencantervallum alapján A CI meghatározásánál láttuk, hogy az ntervallum hossza a mntaszám nagyságától függ: nagy mntaszám esetén a CI rövdebb. 8..5.. Átlagra vonatkozó mntaszám Az értékének meghatározásához három adatra van szükség: a CI megbízhatóság valószínűségére, a becsült szórásra (s) és az előre defnált ntervallum hosszának a felére (HCl). Ezen adatok alapján a kívánt CI hez szükséges mntaszám nagysága: z α s HCI A kapott érték csak egy becslése a tényleges mntaszámnak, hszen az s értékét pontosan nem smerjük. Az s értékét rodalm adatok vagy plot study alapján határozhatjuk 90

8..5.. Két átlag különbségére vonatkozó mntaszám A mntaszám meghatározása során feltesszük, hogy a szórás mndkét populácóban közös, valamnt a számított mntaszám mndegyk csoportra vonatkozk. Két átlag különbségének konfdencantervallumára vonatkozó mntaszám az alább módon határozható meg s zα HCI Az alább táblázat a különböző CI értékekhez tartozó mntaszámot tüntet fel. Konfdencantervallum (CI) értékek 80% 90% 95% 98% 99% 34 49 68 83 8..5.3. Arányra vonatkozó mntaszám A kérdést úgy fogalmazhatnánk meg, hogy adott pontosságú becslés mellett hány elemű mntára van szükségünk egy arány értékének meghatározásához. A szükséges mntaszám: z α Π( Π) HCI Ha a π értékét nem tudjuk megbecsüln a számításhoz, akkor legyen a π0.5, mvel akkor lesz mamáls értékű a π( π) kfejezés. Ebben az esetben legfeljebb a szükséges mntaszámot felülbecsüljük. Konfdencantervallum (CI) értékek 80% 90% 95% 98% 99% 370 609 865 8 493 9

8..5.4. Két arány különbségre vonatkozó mntaszám Ahhoz, hogy két csoport arányanak különbségét adott pontossággal becsüln tudjuk az alább mntaszámokra van szükségünk csoportonként: Π( Π) Π zα ahol π HCI Π Az alább táblázat különböző CI értékekhez tartozó mntaszámokat mutatja. Konfdencantervallum (CI) értékek 80% 90% 95% 98% 99% 899 480 0 307 369 A szükséges mntaszám meghatározását könnyebbé tehetjük olyan esetekben, amkor nem tudjuk a Π átlag értékét megbecsüln, mvel a csoportokra vonatkozólag nncsenek smeretenk. Ilyen esetekben célszerű a Π 0.05 értéket venn, ugyans ebben az esetben mamáls mntaszámot kapunk, am legfeljebb felülbecslést eredményez. 8..6. em egyenlő mntaszámú csoportok Ezen számítások komplkáltabbak és erre a célra számítógépes programokat használunk. Ilyen esetben a számításhoz vagy az egyk csoportra vonatkozólag adjuk meg a mntaszámot és a program kszámítja adott Power mellett a másk csoporthoz tartozó mntaszámot, vagy a tervezett arányát adjuk meg a csoportoknak. Tovább lehetőségként megadjuk a két csoport összegét, s ezt bontja fel a program két nem egyenlő számú csoportra. 9. Paraméteres eljárások A csoportba tartozó statsztka eljárások közös jellemzője, hogy a vzsgált valószínűség változók eloszlása normáls eloszlást követ. A számítás eljárások erre a tulajdonságra épülnek. 9

9.. F - próba Igen gyakran használt eljárás két varanca homogentásának (homoszcedasztctás) eldöntésére, azaz a kétmnta azonos varancájú alapsokaságból származk-e. H 0 : H : s s s s s azaz 0 s s azaz 0 (varancák azonosak) s (varancák nem azonosak) A két mnta elemszáma: és a két szabadság fok df n - és df n. Az F krt, (-, -) két szabadság foktól függ valamnt α-tól..mnden F eloszlás aszmmetrkus, ezért az F-táblázatok küszöbértéke egyoldalas tesztre vonatkoznak. Az F krt értékek közvetlenül használhatóak egyoldalú alternatív hpotézs esetén, pl. kétmntás t-tesztnél. Az F-próba esetében (alapeset) kétoldalú alternatív H hpotézst vzsgálunk ( 0 ). s s 93

Az F értékének kszámítása egyszerű F df, df Ahol df jelent a számláló szabadságfokát (df ), df a nevező szabadságfokát (df ). A számításnál mndg a nagyobb szabadságfokú tagot tesszük a számlálóba. s s Kétoldalú F próba esetén az α szgnfkanca sznthez tartozó értéket az egyoldalú próbához megadott F-táblázat α/ jelű sorából keressük k, vagys általában 0,05-nél. (Ha külön táblázatok vannak a különböző szgnfkanca-szntekhez, akkor az α0,05-höz tartozó táblázatot kell használn.). 9... Döntés a hpotézsek felől Elfogadjuk H 0 -t, ha F<Fkrt: a két mntából becsült varanca nem különbözk egymástól szgnfkánsan, a mnták azonos varancájú alapsokaságból származnak. Elvetjük H 0 -t, ha F>Fkrt: a két mntából becsült varanca szgnfkánsan különbözk, a mnták nem származnak azonos varancájú alapsokaságból. 94

Megállapíthatjuk: - ha F-próbával a két varanca azonos, akkor pl. használhatunk kétmntás t-próbát; - ha a két varanca nem azonos, akkor az ún. d-próbát (Welch próbát) használunk.. 9.. Egymntás t-teszt 9... Egyetlen mnta várható értékének vzsgálata Az eljárást akkor használjuk, ha azt vzsgáljuk, hogy egy a populácó várható értéke megegyezk e egy feltételezett várható értékkel vagy pedg szgnfkánsan eltér attól. Feltétel, hogy a változó legyen normáls eloszlású. Hpotézsek: H : a mntából kapott átlag µ becslése o H : az átlag nem a µ becslése Formálsan megfogalmazva: H : µ 0 (nem tér el szgnfkánsan µ-től) o H : µ 0 (szgnfkánsan eltér) Mvel a populácót mérn nem tudjuk, ezért a várható értékét lletően feltételezéssel kell éln. A vzsgálathoz szükségünk van az alább statsztkára t am egy t eloszlás, df szabadságfokkal. A táblázat használatakor t abszolút értékével kell számoln, azt kell hasonlítan a táblázat adott szabadság foknál és α értéknél lévő krtkus értékhez. Amennyben a számolt t értékünk abszolút értéke ksebb, mnt t, úgy a H 0 krt nullhpotézst α szgnfkanca sznten elfogadjuk; ellenkező esetben elvetjük és a H -t fogadjuk el. s 95

Általánosabb formában, amkor egy C-értékhez hasonlítjuk az átlagot C t s 9... Egyoldalú egymntás t-próba adott α és df - értékeknél. H : µ 0 (nem tér el szgnfkánsan µ-től) o H : µ > 0 (az átlag nagyobb) Itt a t krt értéket a kétoldalú próbához megadott táblázatból a α jelű oszlopból keressük k: α 5% esetén a 0%-hoz tartozó t krt értéket használjuk, következésképpen ksebb eltérés s elég H o elvetésére. 9..3. Párosítottt-próba Egy kezelés hatásosságát gyakran úgy értékeljük, hogy ugyanazokon a betegeken két mérést (önkontrollos vzsgálat) végzünk különböző dőpontokban: kezelés előtt (t 0 ) és után (t ), így a két -elemű összetartozó párokból álló mntát kapunk. A két mnta, a kezelés előtt és a kezelés után nem független, hszen ugyanazok a betegek szerepelnek a mntákban. Mnden betegre kszámítjuk a kezelés okozta különbségeket (d) és ezt a dfferencát tekntjük valószínűség változónak, erre alkalmazzuk az egymntás t-próbát. Vzsgált hpotézsek: H 0 : d 0 vagy 0 H : d 0 vagy 0 kfejezést s használhatjuk. 96

97 A különbség értékek varancája s d d d ( ) ahol a párosított adatok számát, d az eltérések átlagát jelent. Az átlagos eltérés standard hbája s s d d A hpotézs ellenőrzéséhez szükséges t statsztka értéke d f s 0 d t ahol a df szabadságfok értéke. A számítások egyszerűsítése végett a d d d t kfejezés s használható. 9..4. Matched pars- módszer Előfordulnak olyan esetek, amkor azonos alanyokon nem végezhető el mndkét mérés valamlyen ok matt, lyenkor a betegeket összekapcsoljuk pl. szocáls körülmények, nem, betegség súlyossága stb. alapján, és ezekből képezünk egy párt: random módon a párból az egyket a kezelt a máskat a kezelés nélkül csoportba tesszük. Az lyen vzsgálatot a párosított t-próbához hasonlóan a párok két tagja között különbségekkel értékeljük k, és alkalmazzuk az egymntás t-próbát.

9.3. Kétmntás t-teszt Két független mnta összehasonlítására használjuk. A függetlenség azt jelent, hogy mndegyk csoport szeparált a másktól. Például lyen csoportokat kapunk, ha a férfak és nők között végzünk összehasonlítást. A csoportok tagja nem keveredhetnek és az egyes csoportokon belül sem szabad az adatokat megduplázn, mert ezzel megsértenénk a csoportok függetlenségét. A próba használatának feltétele: a) csoportok függetlensége b) adatok normaltása c) csoportok varancája legyen azonos (F-próba). Az utóbb feltétel nem teljesülése esetén s használható azonban a próba, mvel erre az esetre s van módosított eljárás. Használt hpotézsek: H 0 : H : (csoportok között nncs szgnfkáns eltérés) (van szgnfkáns eltérés) A próba nem követel meg a csoportok azonos elemszámát, így eltérő elemszámú csoportokra s használható. A próbának két változata van attól függően, hogy teljesül e a csoportok között varanca azonosság vagy sem. 9.3.. Csoportok között varanca egyenlő A két csoport esetén a populácó torzítatlan becslése (pooled varance) a következőképpen írható s ( ) + ( j ) j + 98

99 ahol a számlálóban az egyes csoportok átlagtól való eltérésének négyzetösszege, a nevezőben a szabadságfok áll. Összesen két szabadságfokot veszítünk a számolás során, mvel mndegyk mnta átlagát külön külön határozzuk meg. A két átlag eltérésének standard hbája s s s s + + Ezen értékek alapján a t statsztka értéke t s s s + A fent formula a következőképpen s megadható s j j j j + + 9.3.. Csoportok között varanca nem egyenlő Olyan esetekben, amkor nem teljesül a csoportok között varanca feltétele módosított összehasonlító eljárást alkalmazunk. Ilyen két eljárás a Cochran Co és a Welch eljárás. Az első módszer a t értékét korrgálja az adott szgnfkanca sznten (leggyakrabban ez 5%), míg a Welch módszer a szabadságfokot módosítja. Cochran Co módszer esetén a két mnta különbségének standard hbája ( ) ( ) s s s j j + ( ) ( )

Ennek megfelelően a t statsztka értéke t s * A t értékét az adott szgnfkanca sznten (a számítások során legyen 5%) a következőképpen módosítjuk t 0.05 t s s ahol t az, t az szabadságfokhoz tartozó t krtkus érték az 5% os szgnfkanca szntnek megfelelően. A csoportok átlaga között eltérést akkor mnősítjük szgnfkánsnak, ha t 0.05 < t. Ellenkező relácónál az eltérés nem szgnfkáns. + t + s s Welch eljárásnál (d próba) a t értékének meghatározására szntén a fent *-al jelölt képletet használjuk, de a szabadságfok meghatározása nem a mnta elemszám alapján történk df ( s + s ) ( s ) ( s ) + + + A kapott df értéke nem lesz egész érték (a hozzá legközelebb eső egész számot vesszük). Döntés a számított t-értékek alapján - t < t krt : elfogadjuk H -t, a két mnta azonos alapsokaságból származk (a két átlag 0 különbözősége csak a véletlennek tudható be), - t t krt : elvetjük H -t, a két mnta nem azonos alapsokaságból származk; a két átlag 0 különbözőségét szsztematkus hatásnak tudjuk be. 9.3.3. Kétmntás z teszt Legyen két populácónk X és Y smert σ populácóból származó mnta. és σ y varancákkal, az X, az Y 00

Kérdés: a populácók átlaga a µ és µ y azonosak e? Hpotézsek H 0 : µ µ y (átlagok azonosak) H : µ µ y (átlagok nem azonosak) A választ a z statsztka segítségével adjuk meg z y σ σ + y A z statsztka standard normáls eloszlást követ, így ennek táblázatot használhatjuk a z krtkus értékének meghatározására (adott α szgnfkanca sznten). A változókról feltesszük, hogy normáls eloszlásúak. Ha ez nem teljesül, akkor a mntaszámot kell megnöveln (>30 mntaszámnál az eloszlás már közel normálsnak teknthető). 9.3.4. t próba ereje A számítások a standard normáls eloszláson alapulnak. Két lépésben hajtsuk végre a számítást: a) Meghatározzuk az eloszlás z p értékét. A t a már smert módon határozható meg t s z p t t ( *) t * + df és t* az adott szabadságfokhoz tartozó krtkus érték. k a különbség standard hbája A z p értékhez kkeressük a megfelelő power értéket tartalmazó táblázatból. 0

9.4.Több folytonos, normáls eloszlású adatsor összehasonlítása (AOVA) Az AOVA (Aalyss Of VArance) módszert olyan esetkben használjuk, amkor több mntát kell egydejűleg összehasonlítan. A t-tesztek az AOVA eljárás specáls esetének teknthetők: a) Párosított t-teszt: smételt méréses AOVA lényegében, csak két dőpontra vonatkoztatva. b) Kétmntás t-teszt: egyszempontos AOVA lényegében, két csoportra vonatkoztatva. Az AOVA lényege, hogy a mntákból számolt összvarancát két részre osztjuk, mntákon belül (wthn) és mnták között varancára (between). A statsztka analízs során ezt a két részvarancát hasonlítjuk össze F próbával és attól függően, hogy melyk hatás (csoporton belül vagy csoportok között) a domnáns, döntünk a vzsgálat felől. Pl. ha négy fajta készítmény (referens és három új készítmény) terápás hatását vzsgáljuk, akkor az előbbek értelmében azt vzsgáljuk, hogy az összvarabltásból mlyen jelentőséggel bír az egyes csoportokon belül egyed varabltás, s mennyt jelent a csoportok között varabltás (a tulajdonképpen gyógyszerhatás). Ha a kezelések (gyógyszerhatások) között eltérés jelentős, akkor a csoportok között varabltás lesz a domnáns rész a két varanca között és lyenkor az F próba szgnfkáns eredményt ad. Azt, hogy melyk kezelések okozzák az eltéréseket a varancaanalízs után végrehajtott post hoc tesztek adják meg. Attól függően, hogy hány szempont (független faktor) szernt csoportosítjuk a vzsgált változót egy és többszempontos AOVA elrendezésekről beszélhetünk. 9.4.. Egyszempontos AOVA A teszt használatának feltétele: a. A vzsgált változó eloszlása legyen normáls (az AOVA a normaltásra robosztus, a közel normáls eloszlást s elvsel ) b. Három vagy több független (dszjunkt) csoportunk legyen. c. A csoportok között a varanca legyen homogén (pl. Bartlett-próba, Leveneteszt). 0

d. Legalább mnmum 6 beteg adata kerüljön analízsre csoportonként. e. Ajánlott, hogy mnden csoportban az esetszám legyen azonos (balanced), mert a teszt ereje lyenkor a mamáls, de nem krtérum. Unbalanced csoportok esetén s használható a teszt. Ha a feltételek nem teljesülnek, akkor a megfelelő nemparaméteres statsztkát kell választan (Kruskal-Walls teszt). Teszteljük: () az átlagértékek között különbség szgnfkáns mértékű-e vagy sem. Formálsan a a hpotézseknek megfelelően a következőképpen fogalmazható meg a feladat: H 0 : µ µ µ 3 µ n, ha p 0.05 H : µ µ µ 3 µ n, ha p < 0.05 () a csoportok között varanca homogén-e (F statsztkával ellenőrzve): A lneárs modell általános alakja: ahol: H 0 : σ σ σ 3 σ n, ha p 0.05 H : σ σ σ 3 σ n, ha p < 0.05 y j µ + α + e j y j : a függő változó értéke µ: a kísérlet főátlaga, f hatás α : f hatás e j : hba, vagy eltérés A vzsgálat elrendezését az alább táblázat mutatja. csoport. csoport 3. csoport k. csoport 3 k 3 k 3 3 33 3k............ 03

3 3 k k Mntaszám 3 k Összeg 3 3 k Átlag 3 k k A táblázatban az első nde a csoporton belül elemet, a másodk nde a csoportot azonosítja. A teljes mntaszámot az + +...+ k kfejezés, a teljes mntára vonatkozó átlagot (Grand Mean) az jelöl a továbbakban. A mntára vonatkozó teljes varabltást, az egyes mntaelemeknek a nagy átlagtól való eltérésének négyzetösszegeként defnáljuk (Total Sum of Squares) j ( j ) SS( teljes) k j ahol k nde a csoportszámot, j a csoport elemszámot jelöl, vagys j a j edk csoportban az edk elemet azonosítja. Egyszerű számolással gazolható, hogy a teljes négyzetösszeg két részre bontható: egy csoporton belül (Wthn group) és egy csoportok között (Between group) négyzetes összegre SS T SS W + SS B AOVA táblázat Source of SS df MS F p varaton (Sum of Suares) (Degrees of Freedom (Mean Squares) Between SS g- B s B s F s B W Wthn SS -g W s Total SS B + SS - W W 04

05 ahol az egyes értékek a) a j edk csoport mntaelemenek összege S j j j b) a teljes mnta összege S j j k j c) teljes mntára vonatkozó négyzetes összeg ( ) SS S T j j k j j k j j d) csoportokon belül négyzetes összeg ( ) SS S W j j j k j j j j k j k j j e) csoportok között négyzetes összeg ( ) S S SS k j j j k j j j B A fent számítások egyaránt használhatók egyenlő vagy nem egyenlő mntaszámok esetén. Egyenlő elemszámú csoportok esetén az (n... k ) SS S n W j j k j j k j és SS S n S B j j k

9.4.. Kétszempontos varancanalízs smétlés nélkül Kétszempontos varancaanalízs esetén a vzsgált paramétert két szempont (faktor) hatásaként értékeljük. Azt vzsgáljuk, hogy az egyes faktoroknak van e hatása az értékek alakulására. Tekntsük azt az elrendezést, amkor a faktorok által meghatározott cellákban csak egy érték szerepel. Az oszlop kezelés hatásnak c szntje, a sor kezelés hatásnak r szntje legyen:. faktor 3... c 3... c. 3... c. 3 3 3 33... 3c 3...................... r r r r3... rc r. 3... c Az 3 a. sorban és 3. oszlopban álló értéket, az 3. a 3. sor átlagát, az. a. oszlop átlagát, az.. az megfgyelés átlagát jelöl (grand mean). Az. faktort blokknak s nevez az rodalom. A teljes négyzetösszeg a következő alakban írható r c j (.. ) Ezt a négyzetösszeget három részre partconálhatjuk: sorok szernt négyzetösszeg, oszlop szernt négyzetösszeg, nterakcós vagy resduáls négyzetösszegre. Az értékeknek a grand mean től való eltérésére gaz (.. ) (... ) + (... ) + (.. +.. ) j j j j Emeljük mndkét oldal négyzetre, végezzük el az összegzést és j nde ek szernt és egyszerűsítsük a kfejezést 06 j

r c j ( r c r c j..) c (...) + r (.j..) + ( j..j +..) j j Az első tag tehát a sor szernt négyzetösszeg, amely a sorátlagokban fellépő varabltást határozza meg. A másodk tag az oszlop szernt négyzetösszeg, amely az oszlop átlagokban fellépő varabltást határozza meg. A harmadk tag az nterakcós tag. A számítás formulákat egyszerűsíthetjük. Vezessük be a következő jelöléseket: S. az edk sorösszeget, S.j a j edk oszlopösszeget, S j az edk sorban és j edk oszlopban álló értéket, S az megfgyelés összegét jelent. Ennek megfelelően az előbb formulákat a következőképpen írhatjuk: Sor szernt négyzetösszeg r c S. S Oszlop szernt négyzetösszeg c r j S. j S Interakcó r c j r j S. S.j + c r c j S Teljes négyzetösszeg r c S j j A kétszempontos varancanalízs matematka modellje: ahol j µ + α + β j + I j + ε j µ: a teljes mnta átlagértéke α : edk sorhatás β j : j edk oszlophatás vagy blokkhatás α β j j 0 0 I j : az edk sor és j edk oszlop nterakcója (a két faktor között nterakcó, amt 0 nak tételezünk fel) ε j : hbatag (normáls eloszlású valószínűség változó 0 átlaggal az σ varancával). 07

Ennek megfelelően j s normáls eloszlású valószínűség változó µ átlaggal és σ varancával. Az AOVA tábla Forrás égyzetösszeg (SS) df Varanca (MS) F Sorok r c (...) S r r s r Sr s r s r rc Oszlopok r c j (. j..) Sc c s c Sc s c s c rc Interakcó r c j (.. +.. ) S j j rc (r ) (c ) s rc Src ( r )( c ) Total r c j (.. ) S j t r c Az F próbánál a két szabadságfok a számláló és a nevező szabadságfokával azonos. Az analízs során két nullhpotézst tesztelünk. H () 0 : mnden sorátlag egyenlő. 3... r... H () 0 : mnden oszlopátlag egyenlő... 3.... c 9.4.3. Kétszempontos varancaalízs smétléssel Azokat a kísérlet elrendezéseket, amelynek során a vzsgálatot kétszer vagy többször megsmételjük, smétléses eljárásoknak nevezzük. A varancanalízs modellje ebben az esetben jk µ + α + β j + I j + ε jk ahol jk a k adk megfgyelés érték az edk sor és j edk oszlophatásra vonatkozóan, ε jk a hozzátartozó hbatag. Az egyenlet több tagja azonos a replkácó nélkül modell tagjaval. A vzsgálat során három nullhpotézst vzsgálunk H () 0 : mnden sorátlag egyenlő. 3... r.... 08

H () 0 : mnden oszlopátlag egyenlő... 3.... c. H (3) 0 : nncs kereszthatás a faktorok között I j 0 A varancaanalízs táblázata Forrás égyzetösszeg df Varanca (MS) F Sorok r nc (..... ) S r r s r Sr s r s r e Oszlopok c nr (. j.... ) j S c c s c Sc s c s c e Interakcó r c n ( j.... j. +... ) S j rc (r )(c ) s rc Src ( r )( c ) s s rc e Resduál j n j k ( j. ) S jk e rc(n ) s e Se rc( n ) Total j n j k (... ) S jk t nrc A korább nterakcóval kapcsolatos észrevételeknek megfelelően az ellenőrzést mndg az nterakcó szgnfkancájával kezdjük: a) Ha ez nem szgnfkáns akkor a H () 0 és H () 0 hpotézseket ellenőrzhetjük az adott α szgnfkanca érték mellett. Elvben létezk egy korrekcós hányados s k Src + Se ( r )( c ) + rc( n ) amvel az F próbánál a nevezőben szereplő s e t helyettesíten lehet. Ezt ellenőrzésképpen használjuk, ha a két nullhpotézs p értéke nagyon a szgnfkancasznt határán van. () b) Ha az érték szgnfkáns, akkor a H 0 () és H 0 hpotézsükre vonatkozó eredményt óvatosan kezeljük. 09

Ilyen esetben érdemes a hpotézseket oly módon vzsgáln, hogy mndkét hpotézsre vonatkozó F értéket más módon állítjuk elő H () sr 0 esetén: F s és H 0 () s esetén: F s A szabadságfok értelemszerűen módosul mndkét F értéknél. rc c rc 9.4.4. Többszörös összehasonlítás eljárások Az egyszempontos varancanalízs végrehajtásakor arra nem kaptunk választ, vajon mlyen csoportok átlagértéke között van eltérés. Ehhez páronként összehasonlítások szükségesek, amnek a száma k(k )/n. A többszörös összehasonlítás azzal a veszéllyel jár, hogy megnövekszk az elsőfajú hba elkövetés valószínűsége. Az elsőfajú hba elkerülésének valószínűsége n számú összehasonlításnál ( α) n. Megfordítva, annak valószínűsége, hogy n számú összehasonlítás során legalább egyszer hbásan döntünk és elkövetjük az elsőfajú hbát: ( α) n. A többszörös (Multple Comparson) összehasonlításnál szükséges, hogy csökkentsük az elsőfajú hba elkövetésének valószínűségét. Ezt az ún α korrekcós eljárásokkal tehetjük meg. Ezeket az eljárásokat post-hoc teszteknek nevezk. a) Szgnfkanca sznt csökkentése Többszörös összehasonlítások esetén, ha a csoportok száma 0, a legegyszerűbb módja az α korrekcónak, ha az α értékét elosztjuk az összehasonlítások számával. Ezt az ökölszabályt nyugodtan alkalmazhatjuk a gyakorlatban b) Bonferron-eljárás Egyaránt alkalmazható ortogonáls és nem ortogonáls összehasonlításokra. Az eljárás ereje alacsony, és ne használjuk öt vagy ennél nagyobb számú csoportok összehasonlítására, mert növel a tévesztések számát. Használható csak kjelölt párok vagy az összes lehetséges párok között összehasonlításra. 0

c) Scheffé - eljárás Az egyk legkonzervatívabb összehasonlító eljárás, mert kevesebb szgnfkáns eltérést jelez, mnt a több eljárás. Egyaránt használható csak kjelölt párok vagy csoportok halmazának teljes összehasonlítására. Közel azonos esetszámú csoportokra működk jól. A normaltástól való eltérés és a csoportok között nhomogentás kevésbé befolyásolja. d) Dunett- eljárás Arra a specáls esetre vonatkozó vzsgálat módszer, amkor a kísérlet elrendezésben egy kontroll és több kezelt csoport szerepel. A feladat a kezelt csoport és a kontroll csoport páronként összehasonlítása. A kezelt csoportok páronként összehasonlítása lyenkor nem megengedett. A teszt vszonylag alacsony küszöbértékkel rendelkezk, de megfelelő erővel. e) Holm-eljárás A teszt lényegében a Bonferron eljáráson alapul, annak a hpotézseket szekvencálsan vzsgáló és elutasító változata. A teszt nagy előnye, hogy egyaránt használható parametrkus és nem parametrkus modellekre egyaránt, továbbá nncs megszorítás a csoportok összehasonlítására vonatkozó tesztekre (csak a p értékekre van szükség az eljárás alkalmazásához). f) ewman Keuls eljárás Gyakran használt szekvencáls összehasonlító eljárás. A vád vele szemben, hogy szgnfkáns eltérést "fölöslegesen" s találhat. Ezért a szgnfkáns eltéréseket (és nem szgnfkánsokat úgyszntén) fokozott szakma krtkával fogadjuk. g) Tukey eljárások Két fajtája létezk: a HSD (Honest Sgnfcant Dfference) am egyenlő elemszámú csoportokra használható, és a nem egyenlő elemszámú csoportok összehasonlítására vonatkozó HSD for unequal eljárás. Konzervatívabb mnt a euman Keuls eljárás, mvel kevesebb szgnfkáns eredményt jelezhet. h) Duncan eljárás

Azonos elvet használ mnt a ewman Keuls eljárás, de a használt szgnfkanca sznt nagyságában eltérnek. Hátránya s ebből fakad, már ksebb eltéréseknél s szgnfkancát jelez. Kerüljük a használatát. ) LSD eljárás Az egyk legrégebben kdolgozott összehasonlító eljárás (LSD least sgnfcant dfference). Gyakorlatlag kétmntás t tesznek felel meg. Az összehasonlító tesztek közül a legksebb hatékonyságú. Különösen nagyobb számú összehasonlításoknál hátrányos, ksebb eltéréseket s szgnfkáns különbségeknek jelöl. 9.4.5. Kovarancaanalízs (ACOVA) Élettanban gyakorak az olyan vzsgálatok, amkor egy vzsgált változóra egy másk változó (pl. életkor) hatást gyakorol, azt befolyásolja. Az lyen változók az ún. kovaráns változók. Ezek hatását nem szabad fgyelmen kívül hagyn az analízs során, mert az eredmény nem lesz valós. A kovaráns hatását az AOVA kezel, az lyen modell neve az ACOVA (kovaranca hatásával bővített modell). 9.4.6. Randomzált faktoráls elrendezés 9.4.6.. Randomzált blokkok A randomzált blokkok elkészítéséhez tekntsük a következő példát: patkányokon végzünk kísérletet a súlygyarapodásra vonatkozóan. Összesen 36 állatunk van és háromfajta kezelés hatását akarjuk vzsgáln: osszuk testsúlyuk alapján két csoportba (blokkba) az állatokat, így mndegyk blokkba 8 8 állat kerül. Az egyk blokk legyen a közepes, a másk a nagy súlyú állatok blokkja. ylván a csoportosító változó korrelál az állatok súlyához. Ezután blokkon belül random módon osszuk szét az állatokat a három kezelés között. Egy blokkon belül így mndegyk kezelés csoporthoz 6 állat tartozk. Az alább ábra egy lehetséges blokk elrendezést mutat

Kezelés.. 3. I. blokk C B A II. blokk B A C A randomzált blokkok analízse kétszempontos AOVA módszerrel történk (a példa pl. replkácós módszerrel oldható meg). Igazából a kezelés hatását vzsgáljuk, am csak akkor ad megbízható eredményt, ha az nterakcó kcs (ez általában gaz s). A blokk elrendezéssel csökkentjük a hba nagyságát, ezáltal a kezelés hatására vonatkozó F próba érzékenyebbé és megbízhatóbbá válk. A bostatsztka vzsgálatok során nagyon gyakor probléma, hogyan vegyük fgyelembe pl. az életkornak a befolyásoló hatását. A kort zavaró (confounded) változónak nevezzük, mert nem lehet gazából tudn, hogy egy vzsgálatban egy adott hatásért a ténylegesen vzsgált faktor vagy a kor a felelős. Ilyen esetekben a randomzácós blokk segít a blokkok között eltérés kszűrésében. 9.4,6.. Latn négyzetek Az olyan véletlen blokk elrendezéseket, amellyel két confoundng (két hbaforrás) változó hatását akarjuk kegyenlíten Latn négyzeteknek nevezzük. Az elrendezés tulajdonsága, hogy mnden kezelés csak egyszer fordul elő a sorokban és oszlopokban. Az lyen elrendezést kegyensúlyozott (balanced) elrendezésnek s nevezzük. Az elnevezés onnan ered, hogy a kezelések jelölésére a latn betűket használjuk. Általános alakja 3

Latn négyzet elrendezés # Önkéntesek Kezelés peródus csoportja I II III IV A B C D B D A C 3 C A D B 4 D C B A A D a vzsgálatban alkalmazott gyógyszerdózsok A Latn négyzet elrendezést három vagy magasabb szempontú AOVA eljárásokra s alkalmazhatjuk replkácóval vagy anélkül. A faktoráls kísérleteket, ha lehetséges akkor Latn négyzet elrendezésbe kell szervezn. 9.4.6.3. Cross-over vzsgálat Gyógyszervzsgálatoknál nagyon gyakran alkalmazott ksérlet elrendezés, amelynek során az alkalmazott készítményeket egy kmosás peródus uán felcseréljük (ak az A készítményt kapta először az később a B kezelést kapja és fordítva s gaz az eljárás), és a kezelés az új készítménnyel folytatódk tovább. A legegyszerűbb elrendezés a -es crossover vzsgálat: kezelés szekvencát (AB és BA) és két peródust tartalmaz. Lehetséges elrendezések 4

Keresztezett elrendezésű klnka vzsgálat (cross-over) A, B: aktív kezelés P: placebo a) Két kezelés típus, egyszeres keresztezés A B (vagy P) B (vagy P) A b) Két aktív kezelés placebó vagy gyógyszer nélkül kmosás peródus bevezetéssel (W washout) P vagy A B W B A 0. emparaméteres eljárások Ha egy paraméteres statsztka eljáráshoz kapcsolódó feltételeket nem tudjuk bztosítan, akkor annak megfelelő nemparaméteres eljárást válasszuk. A nemparaméteres vagy eloszlásmentes (dstrbuton free) tesztek nem génylk a változók normalítását lletve a varancák homogentását, de felteszk, hogy az összehasonlítandó mnták formája közel azonos. Ezek a feltételek gyengébb krtérumok mnt a normaltás krtéruma. A nemparaméteres eljárások egyaránt érvényesek nomnáls, ordnáls és ntervallum skáláról származó adatokra, éppen ebből fakad a nemparaméteres eljárások népszerűsége, mvel szabadon használhatók. A nemparaméteres tesztek ereje gyengébb mnt a nek megfelelő paraméteres teszté, am a háttérfeltételek hányából adódk. A nemparaméteres eljárások esetén pl. két mnta összehasonlításakor nem tesztelhetjük a populácó átlaganak azonosságát, H 0 : µ µ (H : µ µ ) mvel az eljárás eloszlásmentes. E helyett azt a hpotézst (H 0 ) vzsgáljuk, hogy a mnták eloszlása azonos. Természetesen ha feltesszük, hogy a populácók eloszlása szmmetrkus, akkor a teszt az átlagok tesztelésére vezethető vssza a medán használatán keresztül (szmmetrkus eloszlásnál a medán és az átlag azonos). A 5

teszteket rendstatsztkáknak s hívják, mert képzésükhöz nem az eredet adatokat használjuk, hanem az adatok növekvő sorrendbe rendezett sorszámat (rangjat). 0.. Rangszámok tulajdonsága A rangsorolásos eljárás vszonylag egyszerű két műveletből áll: a) az adatokat növekvőleg nagyság szernt sorba kell állítan b) a rendezett adatokat a legksebbtől kndulva egész számokkal megszámozzuk (,, 3,..., ). Például Eredet adatok 5,, 0, 5, 7, 4,, 3, 9, Rendezett adatok, 3, 4, 5, 7, 9, 0,,, 5 Rangszámok (r ),, 3, 4, 5, 6, 7, 8, 9, 0 Ha az adatok között azonosak s előfordulnak, akkor az lyen értékek az ún. kapcsolt rangot (ted rank) kapják. Ez a közös rang a rájuk jutó különböző rangszámok átlaga Eredet adatok,, 4, 4, 4, 7, 8, 8 Kosztott rangok,, 3, 4, 5, 6, 7, 8 Valós rang (r ),, 4, 4, 4, 6, 7.5, 7.5 Az adatok között 3 db 4 es szerepel, ezeknek közös rangjuk lesz, am a különböző rangjak átlaga Hasonló a helyzet a db 8 as esetén s. 3+ 4 + 5 3 3 4 7 + 8 5 7. 5 A kapcsolt rangokhoz két megjegyzés tartozk 6

a) nem mndg egész számok b) a nagyon sok azonos érték rontja az alkalmazott próba érzékenységét. A rangokra vonatkozóan az alább műveletek érvényesek: a) rangszámok összege ( + ) R r b) rangszámok négyzetösszege + + R r ( )( ) 6 c) rangszámok átlaga és varancája R + A nemparaméteres próbák számolástechnkalag vszonylag egyszerűek. Különösen nem számszerű adatok (pl. kérdőívek) esetén előnyös a használatuk. 0.. Előjel teszt (sgn test) Páros mnták összehasonlításának egyszerű nemparaméteres eljárása. Tulajdonképpen az egymntás t teszt nemparaméteres változatának teknthető. Az eljárás abból áll, hogy a két összetartozó mnta különbségének előjelét vesszük és azt elemezzük: a + és előjelek különbségére kszámítjuk a következő statsztkát D z és standard normáls eloszlás alapján határozzuk meg a z hez tartozó p értéket. Ez a formula tartalmazza a folytonosság korrekcót. Mvel a bnomáls eloszlás normáls eloszlást követ ezért a p z µ σ pq 7

statsztka s használható ahol pl. a + jelek számát jelent és µ p. A folytonosság korrekcó azt jelent, hogy az értékét megnöveljük 0.5 tel ha < p és csökkentjük, ha > p, mvel az dszkrét változó. 0.3. Wlcoon párosított teszt Igen gyakran használjuk önkontrollos (párosított mnták) vzsgálatok során a két mnta eltérésének tesztelésére. A vzsgálat során azt tesszük fel, hogy a mnták medánja között nncs eltérés. Az előjel tesztnél erőteljesebb, és csaknem ugyanolyan hatékony, mnt az egymntás t teszt. A teszt teljes neve Wlcoon sgned ranks teszt, mvel az adatok rangsorát és különbségük előjelét használja fel a számítások során. 0.4. Mann Whtney U teszt Akkor használjuk, ha a kétmntás t-teszt feltétele (a normaltás vagy a varancák homogentása) nem teljesülnek, de a d-teszt helyett s használhatjuk. A teszt több lépésből áll:. A két mnta elemet összevonjuk, növekvő sorrendbe állítjuk és mnden értékhez hozzárendeljük a megfelelő rangszámot.. Mnden mntára meghatározzuk a csoportok rangszámanak összegét (R, R ). Ha a csoportok nem azonos elemszámúak, akkor a ksebb csoportot jelölje, a nagyobb létszámú csoportot pedg. 3. Számoljuk k a ksebb mntához tartozó U-statsztkát U ( + R + ) am egy szmmetrkus eloszlás. Az eloszlás átlaga és szórása: U s U ( + Ha és 8, akkor az U közelítőleg normáls eloszlású. A standard normáls eloszlás + ) z U s U U 8

értéke alapján dönthetünk a H 0 : R R hpotézs felől. Ha 5% os sznten a.96 z.96 relácó gaz, akkor a H 0 hpotézst elfogadjuk, egyébként elutasítjuk. A H 0 elutasítása a mnták között szgnfkáns különbséget jelent. A számolást az vel s elvégezhetjük U ( + R a több lépés azonos az előbbekkel. A két U és U statsztkára gaz, hogy azonosságok. U U + ) ( + )( + + ) + lletve R + R 0.5. Kolmogorov Szmrnov teszt A tesztet a két mnta eloszlásának tesztelésére használjuk. Azt a H 0 hpotézst ellenőrzzük, hogy a két eloszlás azonos-e. Az eljárás a két mnta kumulatív eloszlásának összehasonlításán alapul. 0.6. Wald Wolfowtz runs teszt Wald és Wolfowtz a tesztet a véletlenszerűség vzsgálatára fejlesztette k az ún. sorozatok (runs) használatán keresztül. A sorozat tagjat 0 val és el használták, de bármlyen más jelölés alkalmazható megkülönböztetésükre. A tesztet egyébként sorozatpróbának s nevezk. Tekntsük a 0 és jelekből álló sort 000 00 0 0 Az és y betűk bármlyen eseményt jelenthetnek: beteg nem beteg; kezelt nem kezelt stb. A sorozat defnícója a következő: a sorozat egy olyan blokk, amelyben csak azonos jelek szerepelnek. Így a példában az elválasztó vonalak egy egy blokkot defnálnak hszen bennük vagy csak 0 vagy csak szerepel. Ennek megfelelően a példasor 8 sorozatot (blokkot) tartalmaz. ylvánvaló, hogy a sorozatok elhelyezkedése nem csak a véletlentől függ, hszen a következő cklkus sor adott számú 0 és esetén a legtöbb sorozatot tartalmazza: 0 0 0 0 9

Azt sem tekntjük véletlennek, ha egy sor túl kevés sorozatot tartalmaz. Ha képezzük az összes olyan jelből álló sort, amelyben számú 0 és számú es van ( + ), akkor ezek a sorok együttes eloszlása normáls eloszlást követ, amely az, növelésével felgyorsul. A sor sorozatanak a számát jelöljük ψ el. A normaltás felhasználásával meghatározható a ψ eloszlás átlaga és varancája (, 5) : ψ + Az eloszlás standardzálásával + s ( ) ( + ) ( + ) ψ z ψ s ψ ψ a standard normáls eloszlás táblázatával a véletlen hatása tesztelhető. Az eljárást két mnta (, ) eltérésének a vzsgálatára s felhasználhatjuk: a) a két mntát egyesítjük ( + ) és növekvően sorba rendezzük, majd pl. és y al megjelöljük az adatokat b) a z értéke alapján döntünk a mnták különbözőségéről: H 0 : a mnták ugyanabból a populácóból származnak Ha a vzsgált sor véletlenszerű, akkor a mnták nem különböznek, egy populácókból valók (.96 < z <.96). Ellenkező esetben a H 0 t elutasítjuk. 0.7. k független mnta összehasonlítása A próbát Kruskal Walls féle H próbának nevezk. A Mann Whtney vagy a Wlcoon rank sum teszt általánosításának s teknthetjük k független mntára, vagys a módszer az egyszempontos varancaanalízs nemparaméteres változata. A vzsgálat során a H 0 hpotézs, hogy a k független mnta ugyanabból a populácóból való. A hpotézs ellenőrzése a következő lépéseket tartalmazza ) a megfgyelt értékeket összevonjuk, vagys a k db,, 3,..., k mntákat egy mntává egyesítjük ( + + 3 +...+ k ) ) az adatokat növekvőleg sorba állítjuk, majd meghatározzuk rangszámakat (r ) és az egyes mnták rangöszeget (R ) 0

3) a H 0 hpotézs tesztelésére kszámoljuk a H statsztkát k R H 3( + ) ( + ) amely k szabadságfokú χ eloszlást követ. A p értékét a χ táblázatból lehet meghatározn (IV. táblázat). Abban az esetben, ha a rangok között kapcsolt rangok s előfordulnak, akkor korrekcóra van szükség és a korrekcós tag Tj j 3 ahol T j t 3 t és t a kapcsolt rangok száma. A H értékét elosztjuk a H k értékkel így kapjuk meg a korrgált H értéket H k ( + ) k R 3( + ) j 3 T j A korrekcóval H értéke s nő. Mvel több mnta összehasonlítását végezzük, szgnfkáns eltérés esetén szükségünk lehet a mnták páronként összehasonlítására, vagys a post hoc teszt eredményére. A Kruskal Walls teszt után post hoc tesztként a Mann-Whtney U tesztet (vagy a Wlcoon rank sum tesztet s lehet) és a Holm eljárást alkalmazhatjuk a megfelelő α korrekcó mellett. 0.8. k számú összetartozó mnta vzsgálata Az smertetésre kerülő Fredman teszt a kétszempontos varancaanalízs nemparaméteres változata. A mntaelemeket (a sorok jelentk az egyéneket) random módon választjuk k, így bztosítjuk a mntaelemek függetlenségét. A kezelések (oszlopok) sorrendjét a kezelés blokkon belül szntén randomzácóval határozzuk meg. A Fredman teszt a kezelések (oszlopok) között eltérést vzsgálja a következő lépésekben:

a) mnden sorban meghatározzuk az adatok rangját (r ) (először az adatokat növekvő sorrendbe állítjuk majd utána határozzuk meg rangjukat) b) meghatározzuk az oszlopok rangjanak összegét (R ) c) kszámítjuk az alább statsztkát ahol a sorok száma k az oszlopok száma k χ r R k( k + ) 3( k + ) R az oszlopok rangösszegének négyzete. Az eloszlás χ eloszlást követ k szabadságfokkal, ha a sorok és oszlopok száma nem túlságosan kcs. Módosított statsztkával a sorok között eltérést s lehet ellenőrzn. k( k + ) rk R j 3k( + ) Az így meghatározott χ eloszlás szabadságfoka. A Kruskal Walls teszt után post hoc tesztként a Mann-Whtney U tesztet (vagy a Wlcoon rank sum tesztet s lehet) és a Holm eljárást alkalmazhatjuk a megfelelő α korrekcó mellett. 0.9. Rangkorrelácós eljárások 0.9.. Spearman féle rangkorrelácó A módszer a lneárs korrelácós együttható specáls esetének teknthető. A kapcsolat szorosságának mérésére a két változó rangszámanak különbségét használjuk fel: r s 6 3 d

ahol d y az és y rangjanak különbsége a mntaszám. Az együttható értéke a r s ntervallumba esnek: mnél közelebb vannak ezek az értékek a hez vagy + hez, annál szorosabb a kapcsolat a két változó között. A r s estén a kapcsolatot úgys értelmezhető, hogy a két smérv szernt rangsor fordított sorrendben van. Kapcsolt rangok estén az r s kszámítása a következőképpen módosul ahol r s 6 3 ( j j) T t t j ( ) ( ) T + T d 6 3 y 3 3 ( ) ( ) T Ty 6 t: a kapcsolt rangok száma j,, 3,..., az azonos rangszámú csoportok száma. A számítás során az a hpotézs (H 0 ), hogy a korrelácós koefcens 0, az alább t statsztkával ellenőrzhető t r s r s amely szabadságfokú t eloszlást követ. Ha az így kszámított t > a táblázatbel krtkus értéknél, akkor az r s értékét a két változó kapcsolatának a jellemzésére használhatjuk. Ellenkező esetben nncs valós kapcsolat a két változó között. Az r s és a lneárs korrelácós együttható (r) eloszlása nagy mntaszám esetén azonos (hszen a t statsztka s megegyezk). Ennek ellenére a két korrelácós együtthatót nem szabad egymással helyettesíten, mert egészen más a jelentésük. 3

0.9.. Kendall féle rangkorrelácó Kétváltozó kapcsolatát mérő τ együttható a Spearman féle korrelácós együttható alternatívája. A számításhoz az egyes változók rang adatanak természetes sorrendjét vzsgáljuk, pl. X: 3 4 5 Y: 5 3 4 az X rangja természetes sorrendben szerepelnek míg az Y rangja nem. Az Y változóban a rangok eltérésenek a súlyát az S értéket úgy határozzuk meg, hogy mnden különböző Y rangpárhoz vagy a (+) vagy a ( ) súlyt rendeljük annak megfelelően, hogy a párok adata természetes sorrendben vannak e vagy sem. Pl. az Y változó esetén az (, 5) pár (+) az (5, 3) pár ( ) súlyt kap. Ennek megfelelően a súlyok: +, +, +, +,,,,, +, + S a súlyok összege, így az S. A súlyoknak megfelelően Sma ( + ), ha mnden pár súlya (+) és Smn ( + ) ha mnden pár súlya ( ). A τ értékét a következő formula határozza meg S τ ( ) A τ éréke a [, +] ntervallumban helyezkedk el: + érték jelent, hogy a rangpárok sorrendje természetes és jelent a fordított sorrendet. A példa alapján a 4

τ 0. 5(5 ) am jelentéktelen kapcsolatra utal. Kapcsolt rangok esetén az olyan Y pár, amelyben azonos kapcsolt rangok szerepelnek 0 súlyt kapnak, de ha két Y pár felett az X értéke kapcsoltak, szntén 0 súlyt kap az lyen pár pl. X:.5.5 4 5.5 5.5 Y: 3 3.5 3.5 6 Rendre a súlyok:, +, +,, +, 0, +,, +, 0,, +,, +, 0 S Kapcsolt rang esetén a S τ ( ) ( ) T Ty képlet alapján számoljuk, ahol T X az X változó, T Y az Y változónak kapcsolt rangjanak a számát jelent: TX t ( t ) és TX t j( t j ) j A példa alapján Így a τ értékére τ T X [ + ] ( ) ( ) T y [ ] ( ) ( ) ( ) 6 6 6 6 048. A τ szgnfkanca érékét a 5

S z ( )( + 5) 8 formula alapján határozzuk meg: 5% os szgnfkanca sznten.96 z +.96 relácó estén a H 0 hpotézst megtartjuk, ellenkező esetben elvetjük. A H 0 hpotézs az, hogy a változók között nncs valós kapcsolat. Az utóbb példára vonatkozóan z 0.88 6(6 )( 6 + ) 8 így a H 0 hpotézst megtartjuk. A két változó között nncs valós kapcsolat. A Spearmann r s és a Kendall féle τ korrelácós együtthatók noha azonos feladatot látnak, mégs különböznek. Ha ugyanazon az adathalmazon számítjuk k őket, az r s értéke nagyobb lesz mnt a τ értéke. A τ számítása bonyolultabb, különösen kapcsolt rangok esetén, ezért az lyen problémák megoldását számítógéppel végezzük. A két értéket nem lehet összehasonlítan, mert más értelemmel bírnak.. Regresszós vzsgálatok Leggyakorbbak azok a vzsgálatok, amelynek során két vagy több változó között kapcsolatot számszerűen akarjuk kfejezn lletve azt vzsgáljuk, hogy egy vagy több változó (független változók) mlyen hatással van egy ktüntetett változóra (függő változó). A kapcsolat elemzésnek az elsőfajtáját korrelácószámításnak az utóbb típusát regresszószámításnak nevezzük. Mndegyk elemzés módszer specáls feladatot lát el, de szoros kapcsolatban s állnak egymással. A regresszószámítás a változók között sztochasztkus kapcsolatban lévő törvényszerűségeket, tendencát gyekszk kfejezn függvények formájában. A korrelácószámítás a változók között kapcsolat erősségét vzsgálja. ylvánvaló, hogy a két vzsgálat módszer egymást kegészít: a változók között erős korrelácó azt jelent, hogy nyugodtan használhatjuk a regresszószámítással nyert függvényt a változók között kapcsolat jellemzésére, míg gyenge korrelácó épp az ellenkezőjét sugallja. Attól függően, hogy 6

egyszerre hány változó kapcsolatát vzsgáljuk beszélhetünk két vagy több változós korrelácó lletve regresszószámításról. Az utóbb esetben a korrelácót többszörös korrelácónak nevezzük. A vzsgálatokat aszernt csoportosítjuk, hogy a változók között kapcsolat lneárs vagy attól eltérő. Általában lneárs kapcsolatra törekszünk, mert ez a kapcsolat a legjobban érthető, ugyanakkor matematkalag s a legjobban kezelhető függvényt ad. Ha a probléma nem lneárs kapcsolatra utal, akkor különböző transzformácók segítségével megpróbáljuk azt lneárssá tenn... Korrelácószámítás Mnden olyan esetben, amkor feladatunk két vagy többváltozó között a kapcsolat erősségének a megállapítása, korrelácó-analízst kell végeznünk. Ez két fajta lehet a változók eloszlásától függően: a) lneárs korrelácó: a változók normáls eloszlásúak, b) nemlneárs korrelácó: a változók nem normáls eloszlásúak. A korrelácós együttható értéke [-, +] tartományban van, és - a mamáls negatív, + a mamáls poztív korrelácós kapcsolatot, a 0 közel érték a korrelálatlanságot (de nem függetlenséget) jelent a változók között. A lneárs korrelácós együtthatók közül a Pearsonféle r együtthatót, a nemlneárs korrelácós együtthatók közül a Spearman-féle ρ együtthatót használjuk leggyakrabban a kapcsolatok mérésére. A korrelácó-számítás szoros kapcsolatban van a regresszós eljárással, gyakran együtt s használjuk őket. Általánosan az alább hpotézseket vzsgáljuk: H 0 : nncs korrelácós kapcsolat az és y változók között vagy H 0 : r 0. H : van kapcsolat az és y változók között vagy H : r 0... Kovaranca 7

Két egymástól különböző valószínűség változó közös (együttes) eloszlására jellemző érték, amely megadja a két változó együttmozgását. Tulajdonképpen a várható értékektől vett eltérések szorzatának várható értékét fejez k vagy Cov(X,Y) M[(X-M(X)) (Y-M(Y))] Cov(X,Y) M(XY) - M(X) M(Y) Értéke Cov(X, Y) ( ) ( A függvény értékkészlete: (-, ). Ha a kovaranca poztív, akkor a két változó átlagosan ugyanabba az rányban tér el a saját átlagától, X növekedésével átlagosan Y s nő, ha negatív y y) az X növekedésével Y csökken. Ha XY, akkor Cov(X,Y) Var (X)... Lneárs korrelácó Az alább scatter-plot (felhő dagram) ábra az X és Y változók kapcsolatat mutatják 8

A lneárs korrelácós vagy Pearson féle együttható értékét a következő módon számítjuk r ( ) ( y y) ( ) ( ) y y ahol az értékek, y az y értékek átlaga. Számításának feltétele: a) Az X és Y változók legyenek normáls eloszlásúak. b) Az összes kovaranca legyen lneárs. c) Az X és Y értékeket egymástól függetlenül mérjük. d) Kugró (outlers) értékek erőteljesen befolyásolják r értékét. Megjegyzések: 9

a) Tulajdonképpen a változók között kapcsolat jellemzésére a kovaranca értéke s megfelelő lenne, de nagyságát a változók értéke befolyásolják. Így a korrelácós együtthatók nem válnának összehasonlíthatóvá. Ezért szerepel a nevezőben standardzáló tényezőként a két változó szórásának szorzata: így lesz az r értéke standardzált érték és válk összehasonlíthatóvá. b) Akkor értelmes, ha X és Y kapcsolata (jó közelítéssel, az adott tartományon belül) lneárs. Ha más természetű a kapcsolat, a korrelácós formula akkor s csak a lneárs komponensét mér. c) Ha r 0, (lletve ha r nem különbözk szgnfkánsan a 0-tól) akkor korrelálatlanságról (nem függetlenségről) beszélünk. d) A korrelácós értékeket r 0.7 felett mondjuk erős kapcsolatnak, de az r értéknek valós tartalmát a szakma megfontolások adják valójában. 30

..3. Determnácós együttható Az r írható fel értéket nevezzük determnácós együtthatónak, amely két varanca hányadosaként r s y' s y ahol s y' : Y varancájának az a része, amt az X megmagyaráz s y : Y teljes varancája. Hasonlóan írható fel a korrelácó szmmetrája matt X re s r s' s Az r értéke tehát azt fejez k, hogy az X változó a Y varancájának hány % át magyarázza (hány százalékért a felelős). Mnél magasabb ez az érték, annál szorosabb a két változó között a kapcsolat. Az r értéke 0 és között szám és r < r...4. Korrelácós együttható szgnfkancája Ha vesszük az X és Y változók összes populácóbel számú mntáját, akkor az így kapott sokaságot kétváltozós sokaságnak nevezzük, amelyről feltételezzük a kétváltozós normáls eloszlást. E kétdmenzós normáls eloszlás korrelácóját az elmélet korrelácós együttható mér, amt ρ val jelölünk. A mntából meghatározott r ennek a ρ elmélet korrelácós együtthatónak a becslése. A ρ értéke a [, ] ntervallum. Az r eloszlása nem szmmetrkus eloszlás, a ρ t a, 0, + értékek kvételével csak jól közelít. Az r eloszlása épp a végpontok matt ferde eloszlás, am ρ 0 estén válk szmmetrkussá. 3

Az r szgnfkanca értékének ellenőrzésére t statsztkát használhatunk t r r szabadságfokkal. Szgnfkáns eltérés esetén a H 0 : ρ 0 hpotézst elvetjük és az r értékét valós kapcsolatnak mnősítjük. A mntaszám () erőteljesen befolyásolja, hogy eldönthető-e a korreláltság. Döntés a t értéke alapján: - Ha t<t krt, akkor H -t elfogadjuk, vagys az r érték nem különbözk szgnfkánsan a 0-tól. 0 - Ha t>tkrtt, akkor H -t elvetjük az adott szgnfkancasznten. Ez esetben r olyan mértékben 0 különbözk 0-tól, amt az adott mntaelemszám mellett a mntavétel hba már rtkán okoz. A ρ 0 vagy ρ ρ (ρ 0 populácós korrelácós érték) hpotézsek tesztelésénél az r eloszlása aszmmetrkus, de az ún. Fsher féle Z transzformácóval normáls eloszlást kapunk + r z ln r 0 es alapú logartmus használata esetén + r z.53 lg r Az eloszlás átlaga és szórása µ z + ρ ln és σ z ρ 3 A z értékét a korrelácós együttható konfdenca ntervallumának a meghatározására s felhasználhatjuk, amely 5% os szgnfkancasznten: alsó érték: z z A 96. 3 felső érték: z z F 96. 3 3

Az adatokat vsszatranszformálva kapjuk az r A és r F értékeket r A e e ZA ZA + és A Z transzformácó segítségével két korrelácós együttható (r, r ) eltérésének szgnfkancáját s tesztelhetjük a r F e e z z µ z µ z z σ zz képlet alapján, ahol ZF ZF ) + µ, µ : az r és r együtthatók z eloszlásbel átlaga z z σ z z : az r és r együtthatók z eloszlásbel szórásanak különbsége: σ z z 3 + 3..5. Többszörös korrelácó Ha kettőnél több változó kapcsolatrendszerét vzsgáljuk, akkor lneárs többszörös korrelácóról beszélünk, de ebből nem érzékelhető a több változó befolyásoló hatása a másk változóra. Ilyen esetben ahhoz, hogy az X és X változók között a kapcsolatot más változó(k) hatásától megtsztítsuk, a zavaró hatást el kell távolítan. Erre szolgál a parcáls korrelácó, amely két változó kapcsolatát úgy vzsgálja, hogy a több változó hatását konstansnak teknt. Legyen három változónkx, X és X 3, a közöttük lévő korrelácók r, r 3 és r 3. Az r hatásából az X 3 hatását a következő módon szűrjük k (elsőrendű parcáls korrelácós együttható) r. 3 r r r 3 3 ( r3 )( r3) Az r.3 együtthatót parcáls együtthatónak nevezzük: az.3 nde ben a pont után szám jelent azt a változót, amelynek hatását kszűrjük. Az r.3 a rezduálok között korrelácót jelent, az X 3 hatásának kszűrése után. 33

A parcáls korrelácós együttható szgnfkancáját, a H 0 : r.3 0 hpotézst, a következő statsztkával ellenőrzhetjük. t r. 3 r. 3 3 amely df 3 szabadságfokú t eloszlást követ. Az R determnácós együtthatót a kétváltozós r hez hasonlóan értelmezzük ahol R s 3 s magyaráznak s 3 : az varancájának az a része amt az és 3 változók együttesen s : az változó teljes varancája... Lneárs regresszó Kétváltozó között kapcsolatot becslő regresszós függvény alakja ŷ a + b ahol ŷ : a függő változó : a független változó a: az y tengely metszete b: az egyenlet meredeksége (az α szög tangense). 34

A regresszíószámítás feltétele, hogy az Y változó eloszlása legyen normáls és a mnta legyen random módon kválasztva (reprezentatív). Az X változóra egyedül a hbamentes adatfelvétel a krtérum. Az egyenes paraméterenek meghatározásakor keressük azokat az a és b értékeket, amelyek mellett a mérés pontokra a regresszós egyenes a legjobban lleszkedk. A feladatot a legksebb négyzetek módszerével végezzük el. Határozzuk meg az egyenlet (a, b) paraméteret, hogy az y D rezdum értékek eltérésének négyzetösszege mnmáls legyen: y y y$ ( ) D mnmáls Helyettesítsük be az egyenletbe a regresszós függvény általános alakját D ( ) y y a + b mnmáls kfejezést kapjuk. A feltételnek eleget tevő a és b értékét szélsőérték számítással kapjuk meg b ( )( y y) ( ) 35

és a y b A b paraméter jelentése: az X független változó egységny változása mlyen nagyságú változást okoz az Y függőváltozóban. Az a értéke a tengelymetszet magasságát adja. A regresszós összefüggés szgnfkancáját az AOVA táblázat alapján vzsgáljuk. A regresszó eredményének tanulmányozását s ezzel a táblázattal kell kezden, ugyans a H 0 : nncs kapcsolat X és Y változók között H : van kapcsolat X és Y változók között Ha az eredmény szgnfkáns az adott α érték mellett, akkor fogadhatjuk csak el a valósnak a változók között kapcsolatot. Az AOVA táblázat felépítése Forrás SS df MS F p Regresszó Rezduáls (hba) Total ( ) $y y SS R ( y y$ ) SS ( y y) H SSR s R SSH s H s s R H Az F krt krtkus értéket az F-táblázatból df, szabadságfoknál keressük Ez egy egyoldalú próba (s R sh ), az AOVA-hoz hasonló, tehát az 5%-os F-táblázatot kell használn, ha α5%-os szgnfkanca sznten kell döntenünk. Ha F>F krt akkor elvetjük H 0 -t és a b eltérése a 0-tól szgnfkáns, és predkcóra használhatjuk a lneárs egyenletet: az y várt értéke adott érték mellett jósolható. 36

Megjegyzés: a) Az egyenlet használata csak azon a tartományon belül vald, ahol a regresszót végeztük. A kívül eső tartományokban használatával óvatosan bánn. b) Kétféle regresszó lehetséges: vagy segítségével becsüljük vagy y segítségevel becsüljük értékét. c) Az egyenes alakjától függően lehet: poztív rányú regresszó ( és y értéke együtt nő) vagy negatív rányú regresszó ( értéke nő az y értéke csökken). Lásd poztív és negatív korrelácó..3. Többváltozós lneárs regresszó A keresett egyenlet általános alakja: ^ b 0 b b y + + +... + b n n Az alább hpotézseket vzsgáljuk: H 0 : nncs kapcsolat az és y változók között vagy H 0 : b 0. H : van kapcsolat az és y változók között vagy H : b 0 Az eljárás arra s választ ad, hogy az változók közül melyek az y szempontjából fontos változók, melyek azok, amelyek tényleges befolyásolják az értékét. K lehet szűrn a fontos változókat. A módszer használatának feltétele: a) az változók és y között a kapcsolat lneárs b) változók legyenek függetlenek (kollneartás vzsgálat) A független változók között nemcsak folytonos, hanem nomnáls (dummy változók) változók s megengedettek. A többváltozós vzsgálatok (több változó bevonása a vzsgálatba) értékesebb, kompleebb vzsgálat, mvel a nyerhető nformácó s sokoldalúbb. Azonban azt szemelőtt kell tartan, hogy több változó esetén az eredmény nehezebben értelmezhető. 37

A többváltozós vzsgálatnál az egyk legfontosabb szempont, hogy változók függetlenek legyenek egymástól, vagys a változók között ne legyen kapcsolat. A problémát multkollneartásnak nevezzük. Az egymással kapcsolatban lévő változókat k kell hagyn a vzsgálatból. A multkollneartás vzsgálatára a változók korrelácós mátrának determnánsa s felhasználható: R 0 estén a változók között a kapcsolat mamáls, R nél a változók függetlenek. A számítógépes programok kszámolják az R t és az ún. módosított R t (adjusted R ). Az R jelentése ebben az esetben s az, hogy az Y varancájának a változók hány % át magyarázzák. A módosított R érték ksebb, és megbízhatóbb mértéke a regresszó jóságának, mvel ez az érték már mntafüggetlen. Az analízs eredményét a kugróérték erőteljesen befolyásolhatja, hasonlóan a kevés esetszám s. Többváltozós analízsnél az esetszámra vonatkozó ökölszabály: a szükséges esetszám legalább hatszorosa legyen az X változók számának..4. emlneárs regresszó Olyan esetekben, amkor a függő és független változók között a kapcsolat nem lneárs, az y becslésére a nemlneárs regresszós eljárást alkalmazzuk. Hangsúlyozn kell, hogy a probléma megoldása bonyolultabb a lneárs problémánál, és nagy segítség, ha a kapcsolat jellegéról van előzetes nformácónk pl. polnommal írható le a kapcsolat, smerjük a polnom fokszámát stb. Mvel a becslő függvény bonyolult lehet, ezért arra kell törekedn: a) mnél kevesebb paramétert tartalmazzon, b) jól lleszkedjen a modell c) a resduálsok kcsk legyenek. H 0 : nncs kapcsolat az és y változók között. H : van kapcsolat az és y változók között. 38

A feladat megoldását különböző statsztkák segítk, de előzetesen mndg ajánlatos a scatterplot ábra tanulmányozása az analízs kezdetekor. A feladat megoldása során keressük a lehető legjobb modellt, de gyakran ennek megtalálásához több lépésben jutunk el: több modell llesztést kell elvégezn és értékeln.. Kontngenca táblák vzsgálata A nomnáls és ordnáls skáláról származó változókat, dszkrét vagy megállapítható valószínűség változónak nevezzük. Az lyen változók analízse más típusú vzsgálat módszereket gényelnek, mvel gyakorság értékeket (megfgyeléseket) tartalmaznak. Ha kontngenca (gyakorság) táblákat készítünk az adatokból és mnél nagyobb a mntaszám, annál megbízhatóbb lesz a következtetésünk az lyen táblázatok segítségével. A legegyszerűbb méretű kontngenca tábla a -es tábla ( sort és oszlopot tartalmaz), amely pl. nfluenza vírus ellen készítmény eredményét tartalmazza 39

Készítmény Betegség Kapott em kapott Total Van g g g + g ncs g 3 g 4 g 3 + g 4 Total g + g 3 g + g 4 g + g + g 3 + g 4 Általános formában a kontgenca táblázat mérete rk, és szabadságfoka a df(r-) (k-)... Pearson-féle Ch-négyzet teszt (χ -teszt) A kontgenca táblák egyk leggyakorbb elemző eszköze: függetlenség vzsgálatra, homogentás vzsgálatra, eloszlás vzsgálatra használhatjuk. Különösen fontosak azok az összehasonlító vzsgálatok, amelyek két független bnomáls arány vzsgálatára rányul. A kontngenca táblák méretét a sorok és oszlopok száma határozza meg. Jelentőségüknél fogva a táblák vzsgálata különösen fontos pl. dagnosztka vzsgálatok (szenztvtás stb.). A khí-négyzet teszt használatának feltétele: a) a megfgyelt értékek táblázatában bármely cella értéke lehet 0, sőt sorok és oszlopok teljesen 0 értékűek s lehetnek, b) a várható értékek között nem lehet 0 érték, c) a várható értékek táblázatában az olyan cellák száma, ahol az érték -5 között, nem lehet több, mnt az össz cellaszám 5%-a, d) a teszt ereje 30 mntaszámnál a legerősebb, alatta ne használjuk, e) a teszt aszmptótkus p értéket ad (általában). A kontngenca táblák analízse során a megfgyelt és a várható gyakorságoknak az eltérését vzsgáljuk. A nullhpotézs szernt nncs eltérés az értékek közt, amt a gyakorságokból készített Pearson féle χ statsztkával ellenőrzünk, am kétdmenzós eloszlás esetén a 40

χ k ( ) e j j n g j e j formulával határozható meg, ahol g j : az -edk sor és j-edk oszlopban lévő cella megfgyelés értéke e j : az -edk sor és j-edk oszlopban lévő cella várható értéke Egy cella várható értékét úgy kapjuk meg, hogy a hozzátartozó sor és oszlopösszeg szorzatát elosztjuk a mntaszámmal, az el e j g. g.j A statsztka értékét tehát úgy kapjuk meg, hogy mnden cellára vonatkozóan a megfgyelt gyakorságból kvonjuk a cellához tartozó várható gyakorságot, az eredményt négyzetre emeljük, majd osztjuk a várható gyakorsággal és a kapott értékeket celláról cellára összegezzük. Az így kapott eloszlás egy folytonos eloszlás, a jól smert χ eloszlás. Mvel a χ eloszlást a szabadságfokok különítk el egymástól, így a szabadságfok meghatározása gen fontos szempont. Ks mnták esetén a χ statsztka eredménye pontosítható, ha folytonosság korrekcót alkalmazunk ( 05. ) k j j χ korr n g e j A korrekcó azt jelent, hogy a cellák értékeből levonunk 0.5 t. Ezt a korrekcót Yates féle korrekcónak hívják. Az így módosított χ érték ksebb lesz, mnt a korrgálatlan érték. e j Ha a változók pl. nem függetlenek egymástól, a kapcsolat szgnfkáns, a két változó között kapcsolat erősségének megállapítására ún. szmmetrkus asszocácós mérőszámokat használunk Kontngenca együttható: 4

C χ χ + jelent. Értéke [0, ] ntervallumban van: 0 a függetlenséget, a tökéletes kapcsolatot Ph-együttható Csuprov- együttható φ χ T χ (k )(n ) Értéke [0, ] ntervallumban helyezkedk el. Cramer-együttható: V χ ( k ) nevezk. Értéke: 0 V. A V t egy es tábla esetén tetrakorkus korrelácónak s.. es kontngenca táblák Ktüntetett szerepük van az olyan kontngenca tábláknak, amelyeket két dchotom változó határoz meg. Az lyen táblák es méretűek, vagys négy cellát tartalmaznak (fourhold táblák). Tekntsük a következő példát: egy rég és egy új dagnosztkus teszt eredményét hasonlítjuk össze. A megfgyelés eredménye általánosan a következőképpen foglalható táblázatba: 4

B teszt + Total A + a b a + b teszt c d c + d Total a + c b + d a + b + c + d A χ statsztka kszámítása egyszerűbb módon s lehetséges: ( ad bc) ( a + b)( c + d)( a + c)( b + d) χ A folytonosság korrekcóval módosított érték A szabadságfok mndkét számítás módnál. χ ad bc ( a + b)( c + d)( a + c)( b + d)... Fsher egzakt teszt A tesztet azért hívják egzakt tesztnek, mert pontos p értéket ad, ellenben a folytonos χ eloszlással, amelynek p értéke aszmptótkus. Mnden olyan esetben amkor a mntaszám ksebb mnt 30, vagy van olyan cella, amelyben a várható érték ksebb, mnt 5, akkor ezt a tesztet kell használn. Maga a számolás eléggé fáradtságos eljárás: a margnáls értékek változatban hagyása mellett megkonstruáljuk az összes lehetséges altáblát, mndegykhez kszámoljuk a hozzátartozó valószínűséget és ezeket összeadjuk. Ez az érték lesz az eredet táblázat p értéke. Az egyes táblák p értéket a következő formulával határozhatjuk meg 43

( a + b)!( c + d)!( a + c)!( b + d)! p! a! b! c! d!... em független mnták vzsgálata Olyan esetekben használjuk az eljárást, amkor ugyanazon személyeken végzünk vzsgálatot két különböző dőpontban vagy párosított mntákat (case control study) használunk. Pl. két orvos s megvzsgálja a betegeket és a véleményeket kontngenca táblázatba foglaljuk: B orvos véleménye + A orvos + a b r a + b véleménye c d r c + d c a + c c b + d A Mcemar szmmetra teszttel a főátló mellett lévő cellák egyensúlyát vzsgálhatjuk: kegyenlített e az eltérő vélemény az átló két oldalán. A teszt kszámításához csak a mellékátló elemet használjuk χ ( b c ) b + c Az így kszámított χ eloszlás szabadságfoka. Szgnfkáns eltérés esetén a mellékátló, vagys az eltérő vélemény a domnáns. A teszt a változások rányának a tesztelésére s alkalmas. A Mcemar teszt mnden k k méretű kontngenca tábla esetén használható. Összetartozó mnták esetén nkább ezt a tesztet használjuk sem mnt a Pearson féle χ próbát. A számítógépes programok az lyen típusú kontngenca táblák vzsgálatakor az ún. κ együtthatót (kappa), a megegyezés arányt s meghatározzák (a főátló hatását vzsgáljuk). A κ értéke [-, ] között szám. A vélemények hasonlósága 0.4 alatt κ érték esetén gyenge, 0.4 44

0.75 között jó és 0.75 felett nagyon jónak mondható. A κ együttható szntén mnden k k méretű kontngenca táblára meghatározható. A κ értéke a következő módon számolható: ahol a p 0 és p e értéke es tábla esetén: κ p0 p p a d p + a b a c c d b d 0 és p ( + )( + ) + ( + )( + ) e k k tábla esetén (g jelöl a megfgyelt a, b, c, d értékeket a táblában): e e A κ standard hbája p g 0 és p e rc Se κ p0( p0) ( ) p e és 95% os konfdenca ntervalluma (κ.96 Se κ ; κ +.96 Se κ )..3. Lkelhood-becslés kontngenca táblák esetén függetlenség vzsgálatra gyakran alkalmazott eljárás. Értéke nagyon közel van a Pearson-féle khí-négyzet értékhez. Ha lehetséges, akkor ezt a statsztkát alkalmazzuk, mvel pontosabb p értéket ad G g j j g ln e j j A G statsztka khí-négyzet eloszlást követ..3. Dagnosztka vzsgálatok Tekntsük az alább vzsgálat általános -es kontgenca táblázatát, amelyben egy rég (Gold Standard) és egy új szűrés eljárás eredménye található 45

Standard teszt Új Beteg em beteg Total teszt (+) ( ) Beteg a b a + b (+) em beteg c d c + d ( ) Total a + c b + d a + b + c + d ahol az egyes betűk jelentése: a: az új teszttel kszűrt betegek (valód poztívak) b: tévesen kszűrt nem beteg egyének (álpoztívak) c: betegek, de a teszt nem jelz (álnegatívak) d: a teszt által nem betegnek mnősített egyének (valód negatívak) A táblákkal kapcsolatosan az alább fogalmakat használjuk: Szenztvtás: a ténylegesen beteg egyének helyesen besorolt része a Szenztvtás a + c 00 Specfctás: a nem beteg egyének helyesen besorolt része Specfctás d b + d 00 Besorolás pontosság: a valód poztív és a valód negatív besorolások aránya. Pontosság a + d 00 Poztív predktív érték: azt jelz, hogy egy valód poztív teszt eredményű egyén mlyen valószínűséggel beteg. 46

Poztív predktív érték a a + b 00 egatív predktív érték: egy valód negatív teszt eredményű egyén mlyen valószínűséggel mentes a betegségtől..3.. ROC analízs egatív predktív érték d c + d 00 Dagnosztkus vzsgálatoknál ( -es táblák), arra s lehetőség van, hogy együttesen vzsgáljuk a specfctás, szenztvtás együttes alakulását. Erre a feladatra a ROC (Recever Operatng Charastercs Curve) analízs szolgál. Az átfedés mértéke az osztópont (cutoff pont) megválasztásától függ az X tengelyen. A cutoff pont mozgatásával változtatn tudjuk a szenztvtás és a specfctás arányát. Az osztópontok révén es táblázatokhoz jutunk, amelyből meghatározhatjuk a már smert dagnosztkus paramétereket. A szenztvtás és a specfctás kapcsolatát grafkusan s ábrázolhatjuk a ROC görbe (Recever Operatng Characterstc) megrajzolásával, amely gen szemléletesen mutatja a vszonyokat. 47

Egy teszt akkor hatásos, ha a görbe a bal felső sarokba koncentrálódk, mert lyenkor a szenztvtás és a specfctás s magas. Ha a görbe az átlóhoz közel, akkor a teszt hatástalan, nem tudja a csoportokat szétválasztan. A ROC görbe nagyon hasznos olyan esetekben, amkor több dagnosztkus tesztet kell összehasonlítan. Ilyen esetben egy ábrán ábrázoljuk a különböző tesztek ROC görbét és a kapott ábra alapján döntünk a tesztek hatásossága felől. A másk lehetőség a görbe alatt területek összehasonlítása módosított Wlcoon rank sum teszt révén.4. Epdemológa vzsgálatok Az epdemológa tanulmányok gondosan megtervezett, kontrollált vzsgálatok. Az értékelő módszerek attól függnek, hogy mlyen formáját választjuk a vzsgálatoknak. Három vzsgálat módszert használhatunk: a) Prospektív vzsgálat (prospectve vagy cohort vagy longtudnal study): a vzsgálat számú random módon kválasztott egyénnel kezdődk. A mntát kétfelé osztjuk a kockázat tényező megléte vagy nem léte alapján és a két csoportot bzonyos deg követjük mközben regsztráljuk a csoportokban az új megbetegedéseket. A két csoport összehasonlítása a kockázat tényező jelentőségére ad felvlágosítást. b) Retrospektív vzsgálat (retrospectve vagy case control study): a betegséget elődéző kórok tényezők hatását a betegség bekövetkezése után vsszamenőleges értékeljük. Random módon pl. kórház kórlapok alapján, kválasztunk egy betegcsoportot és ugyancsak random módon hozzájuk rendelünk egy kontrollcsoportot. A kontrollcsoport mentes a betegségektől, de a rzkótényezőktől nem. c) Cross sectonal study (prevalence study): random módon kválasztunk elemű mntát tekntet nélkül a vzsgált betegségre vagy az azt elődéző rzkófaktorra. Ezután a mntát csoportosítjuk a rzkófaktor és a vzsgált betegség alapján, majd a két csoport betegségének prevalencáját összehasonlítjuk. A vzsgálatok eredményet az alább elrendezésű es kontngenca táblázatba foglaljuk, amely az analízs alapját s adja: 48

Betegség + Total Rzkófaktor + a b a + b c d c + d Total a + c b + d a + b + c + d A betegség kockázatának mérésére két mutatót használunk a relatív kockázatot (Relatve Rsk, RR) és az esélyhányadost (Odds Rato, OR). A relatív kockázat azt fejez k, hogy a rzkófaktorral rendelkező egyénnek hányszor nagyobb az esélye a megbetegedésre, mnt az lyen rzkófaktorral nem rendelkező egyénnek. RR Incdenca az eponált csoportban Incdenca a nem eponált csoportban A táblázat alapján ez az érték (prospektív vzsgálatnál): a RR a c a c d + ( + ) c c( a + b) c + d Ha az értéke, akkor a két csoport kockázata azonos, nncs különbség a betegség előfordulásának gyakorságában. Ha az érték 0 és között, akkor a rzkófaktor nkább gátolja a betegség kalakulását, míg RR > értéknél a rzkófaktor és a betegség között poztív a kapcsolat. Az RR 95% os konfdencantervalluma ln( RR) ± 96. b d a c a + b + c + d 49

Az odds rato, vagys az esélyhányados lletve Esemény bekövetkezés valószínűsége p OR Esemény benem következés valószínűsége p p OR + OR azt mér, hogy hányszor valószínűbben következk be a vzsgált esemény, mnt az, hogy nem következk be. Ha a betegség eléggé rtka, akkor jól egyezk a RR el. Meghatározása a következő formulával lehetséges: OR(a d)/(b c) Ha az a, b, c, d értékek valamelyke 0, akkor mndegyk cellához adjunk hozzá 0.5 t és így számoljuk az OR értékét, lletve 95% os konfdencantervallumát: ln( OR) ± 96. + + + a b c d Retrospektív vzsgálat esetén az RR és OR értéke közel azonos: RR ad OR bc.5. Terápa hatásosságát kfejező tényezők Abszolut rzkó (Absolut Rsk, AR): Annak valószínűsége, hogy egy előre defnált kmenet (outcome) a vzsgálat dőtartama alatt egy vzsgált személynél jelentkezk. Értéke 0 és között szám, de százalékos formában s megadható. Abszolút rzkócsökkentés (Absolute Rsk Reducton, ARR): A kezelt és a kontroll csoport esetén megfgyelhető rzkó abszolút kölönbsége. Abban az esetben használatos, ha a kontroll csoport rzkója meghaladja a kezelt csoport rzkóját. Az ARR számítása során a kontroll csoport AR-jéből kvonjuk a terápás csoport AR értékét. A megfogalmazás szernt az érték az összes kezelt beteg arányában jelentkezk és változk a kontrollcsoport AR értékével. 50

Esélyhányados (Odds Rato, OR): A terápa hatékonyságának egyk mérés módszere. Annak az esélye, hogy a vzsgált esemény bekövetkezk a kezelt csoportban, a kontroll csoportban bekövetkező esemény esélyének százalékában kfejezése. Mnél közelebb van az OR az -hez, annál ksebb a hatás a kezelt és a kontroll csoportban történt beavatkozás között. Ha az OR nagyobb (vagy ksebb) mnt, akkor a kezelés hatása nagyobb (vagy ksebb) mnt a kontroll csoportban észlelt hatás. A mért hatás lehet nemkívánatos (pl. halál, nfarktus) vagy kívánatos hatás (pl. túlélés) egyaránt. Ha a vzsgált esemény rtkán következk be, akkor az OR megegyezk a relatív rzkóval (RR), de ha az esemény bekövetkezés gyakorsága nő, akkor az OR és az RR között távolság nő. Relatív rzkó (Relatve Rsk, RR): A klnka események kezelt csoportban mért gyakorságának %-os aránya a kontroll csoportban mért gyakorsághoz képest. Az OR hasonló jelentésű, de némleg más matematka formával bír. Mnél ksebbhányadát tesz k a terápás csoport abszolút rzkója a kontroll csoport abszolút rzkójának, annál kedvezőbb a terápa hatása. Relatív rzkó csökkentés (Relatve Rsk Reducton, RRR): A terápás és a kontroll csoport között rzkó egymáshoz vszonyított csökkenése. Gyakran százalékos formában fejezk k, amnek értelme az, hogy a kontroll csoport abszolút rzkóját 00%-nak tekntve ennyvel ksebb a kezelt csoport abszolút rzkója. Számítása: -RR. Egy egység kmenet eléréséhez szükséges esetszám (umber eeded to Treat, T): A kezelés hatékonyságának egyk mérőszáma. Azoknak az embereknek a száma, akket általában egy bzonyos módon kezeln kell egy bzonyos dőperódusban ahhoz, hogy nemkívánatos kmenet elkerülhető legyen, vagy egy k ívánatos kmenet elérhető legyen. Az T/ARR. Egy egység poztív kmenet eléréséhez szükséges esetszám (umber eeded to Harm, H): A kezelés ártalmasságának egyk mérőszáma. Azoknak az embereknek a száma, akket általában egy bzonyos módon kezeln kell egy bzonyos dőperódusban ahhoz, hogy nemkívánatos esemény bekövetkezzék. Konfdenca ntervallum (Confdence Interval, CI): A 95%-os konfdenca nretvallum (de lehet más %-os értékű s) a 95%-át tartalmazná azoknak az eredményeknek, 5

amelyeket az azonos módon megtervezett, azonos nagyságú, azonos populácóval végrehajtott vzsgálatok eredményeképpen kapnánk. Ha a CI az RR (relatve rsk) vagy az OR (odds rato) esetén tartalmazza az -t, akkor az adott hatásra vonatkozóan nncs elegendő bzonyíték. A CI használatának előnye, hogy a lehetséges hatásoknak egy sávját (range) adja meg. Populácós járulékos kockázat (Populaton Attrbutable Rsk, PAR): Arra a népegészségügy kérdésre ad választ, hogy mlyen mértékű többletncdencához vezet az adott, vzsgált kockázat tényező a vzsgált populácóban. 3. Túlélés analízs A klnka vzsgálatok során gyakran azt nézzük, hogy egy megfgyelés során a vzsgált esemény menny dő múlva következk be pl. kohorsz vzsgálatnál a tüdőrák kalakulása. Ezt a megfgyelt dőt nevezzük túlélés dőnek (survval tme). A módszer mnden olyan esetben használható, ahol valamlyen esemény (end pont) bekövetkezésének az dejét vzsgáljuk. Klnka vzsgálatunknak célja tehát, hogy egy esemény (outcome) dőbel bekövetkezését fgyeljük és rögzítjük mnden beteg esetén az eseményg eltelt megfgyelés dőt (survval tme) valamnt az egyén státuszát a vzsgálat lezáráság. A státusz két értéket vesz fel: 0 az esemény nem következk be vagy az egyén kesett a vzsgálatból (dropout), ezek az egyének a cenzorált (censored) egyének; az esemény bekövetkezett, az lyen egyének a nem cenzorált (complete) egyének. A két nélkülözhetetlen változó mellé más változókat s felvehetünk a feladatnak megfelelően. Az megfgyelés dőt évben, hónapban, napban stb s mérhetjük, de arra s lehetőség van, hogy kezdő és végdátumot s rögzítünk A túlélés vzsgálat célja, hogy választ adjunk arra a kérdésre, hogy a beteg bzonyos dőszakot mlyen valószínűséggel élhet meg. A probléma az, hogy a túlélés dő nem normáls eloszlású, továbbá a cenzorált dőket s kezeln kell. Az lyen feladatot a túlélés-analízssel oldjuk meg. A túlélés vzsgálatok megkezdése előtt az alább szempontokat érdemes átgondoln 5

) Mkor ndítsuk a vzsgálatot, mlyen mntaszámmal mlyen hosszú deg tartson, m legyen a vzsgált esemény (end pont). A szükséges mntaszám meghatározását a programok általában támogatják. Lehetőleg nagy mntát használjunk. ) Hogyan kezeljük a drop out eseteket pl. ha valak baleset következtében hal meg? Halottként vagy cenzorált adatként regsztráljuk a megfgyelés során az lyen egyént? Mndkét eset megengedett, de erről még a vzsgálat előtt dönten kell. egymástól. 3) A mntát random módon válasszuk és a megfgyelések függetlenek legyenek 4) Ismétlődő jelenségre ne végezzünk túlélés analízst. 5) A túlélés krtérum, a feltétel rendszer nem változhat meg a vzsgálat folyamán, mndenkre azonos kell hogy legyen (pl. vzsgált közben nem alkalmazhatunk más dagnosztka eljárást, mnt a vzsgálat elején). 6) A cenzorált adatok száma ne legyen nagy, mert rontja a vzsgálat értékét. A mntaszám kb. 0% a még elfogadható arány a drop out matt elmaradókat tekntve. Feladat: tüdőrákos betegeket vzsgáltak, amelynek során rögzítették a halálg eltelt dőt (nap), a státuszt (0cenzorált, halott), kezelés fajtáját (0teszt, hagyományos), sejt-típust (squamous, adeno). *Forrás: Prentce, R. L. (973): Eponental survvals wth censorng and eplanatory varables. Bometrka, 60, 79-88. A feladatok megoldásához a SAS Enterprse Gude statsztka programcsomagot használtam. 3.. Lfe table (Halandóság tábla) analízs Ennek lényege, hogy a megfgyelés dőszakot különböző számú, egyenlő hosszúságú ntervallumra osztjuk, az események részletes leírása ntervallumokra történk, majd az eredményeket összegezzük. 53

Az események leírása dőntervallumokra történk: menny az esemény száma (umber Faled), a cenzorált érték (umber Censored), az aktuáls mntaszám (Effectve Sample Sze) a számítások matt nem egész érték s lehet), az ntervallum túlélés valószínűsége (Survval), a 54

vzsgált esemény bekövetkezésének pllanatny kockázatának valószínűsége (Hazard), hogy az esemény éppen abban a pllanatban, az adott dőntervallum közepén következk be. Az ábra az adott dőponthoz (X-tengely) tartozó túlélés valószínűségeket adja meg (Ytengely). Összefoglaló statsztka a vzsgálatra vonatkozóan a státusz változó alapján. 55

3.. Kaplan-Meer eljárás Az eljárást Product-lmt módszernek s nevezk, amelynek során a jellegzetes lépcsős függvényt s megkapjuk. Kaplan-Meer függvény 3.3. Kaplan-Meer túlélés függvények összehasonlítása. Log rank módszer A klnka vzsgálatok során gyakorak az olyan feladatok, amkor két vagy több Kaplan Meer eljárással készített túlélés görbét kell összehasonlítan. Arra a kérdésre keressük a választ, hogy a görbék között van e szgnfkáns eltérés a sejttípus túlélését lletően. A görbére ránézve mndjárt az a benyomás alakul k, hogy az -típus hatása kedvezőbb. Azt 56

vszont nem lehet egyértelműen megállapítan, hogy a két görbe eltérése szgnfkáns mértékű e. Az egyk általánosan használt módszer a görbék összehasonlítására a log rank vagy Mantel Haenszel teszt. A két görbe között különbség kmutatására a teszt előnye akkor jelentkezk, ha a vzsgált esemény az egyk csoportban konzsztensen magasabb, mnt a másk csoportban és a két csoport között a halálozás arány dőben állandó. A teszt χ statsztka meghatározásán alapul, amelyet a megfgyelt esemény és a hozzátartozó várható érték alapján számolunk k mndegyk csoportra, majd ezeket az értékeket összegezzük. A χ eloszlás szabadságfoka. A log rank teszt számolásához az alább adatok szükségesek: t : a vzsgált esemény dőpontja n : a megfgyelt egyének száma az. csoportban a t dőpontban n : a megfgyelt egyének száma a. csoportban a t dőpontban n: a megfgyelések száma a t dőpontban, n n + n c: a cenzorált események száma a két csoportban a t dőpontban g : a megfgyelt esemény száma az. csoportban a t dőpontban g : a megfgyelt esemény száma a. csoportban a t dőpontban r: az össz esemény száma, r g + g e : a várható esemény száma az. csoportban a t dőpontban e r n n e : a várható esemény száma a. csoportban a t dőpontban e r n n 57

A log-rank (p 0.0005) erős szgnfkancát jelez a sejt-típusok között. Tehát a két sejt-típus között jelentés eltérés van a túlélés dőt lletően. 3.4. Co-regresszó A módszer a túlélés dő vzsgálatára alkalmas olyan esetekben, amkor több független változó befolyásoló hatásából a legmarkánsabbakat szeretnénk megsmern. A módszer a logsztkus regresszón alapszk, csak tt a függő változó a túlélés dő. Az eljárást gyakran Co proportonal hazard modellnek s hívják (arányos kockázat modell). Elméletleg a túlélés analízs egyszerű eljárás, ha feltételezzük, hogy a hazard dőben konstans. A Co modellben a hazard dőben változk, de az esemény kockázat aránya (rato of event hazard) dőben két személy között konstans,.ez az ún. proportonal hazards feltételezés. Ez azt jelent, hogyha az életévet vzsgáljuk a modellben mnt kovaránst, akkor egy 70 éves és egy 40 éves személy kockázata dőben állandó. A hazard függvény: 58

h (t) λ (t) e ( β + +... ) β + β k k ahol h(t): a hazard függvény : a kovaránsok β : a kovaránsok együttható (nagyságuk a kovaráns jelentőségét hangsúlyozzák), az β e az egységny változásra (a több kovaráns konstans) adja a kockázat értékét. λ(t): smeretlen kezdet hazard függvény. Az eljárás során tesztelt hpotézsek: H 0 : β 0 H : β 0 A fent túlélés egyenlet az alább formában s írható [ 0 ] p(t > t, ) P (T > t) n ep β Az egyenlet a t nél nagyobb dőtartam (T) túlélés valószínűségét adja meg, ahol P 0 (T > t) az a túlélés görbe, amkor az összes kovaráns 0. A regresszós vzsgálat legfontosabb szempontja a β regresszós együtthatók meghatározása: ha a β 0 akkor a kovaráns nncs hatással a vzsgált jelenségre. A modell egy lneárs változót vzsgált több kovaráns függvényében, így tehát valóban logsztkus modellnek s teknthető. A modell gen kellemes tulajdonsága, hogy egyaránt használhatunk dszkrét (dummy) és folytonos kovaránsokat, sőt keverhetjük s ezeket az egyenlet jobb oldalán. Feladat: vzsgáljuk meg, hogy a kezelés és a sejt-típus hogyan hatnak a túlélés dőre. A kovaránsok fontosságát az alább táblából olvashatjuk k: 59

A kezelés változó nem szgnfkáns (Ch-square p 0.3674), ezért nem fontos a túlélés dő szempontjából, azt nem befolyásolja. A hazard rato (vagy rsk rato, RR) értéke: e β e 0.560.9 A 95%-os konfdenca ntervalluma (0.740.55) tartalmazza az értéket, így valóban nem jelentős változó. A sejt_típus változó jelentősen befolyásolja a túlélés dőt. A Ch-square p 0.0008 erősen szgnfkáns, a hazard rato értéke magas érték: e β e.04063.83 A Co modell alkalmazása során a következőket vegyük fgyelembe: a) Ha túl sok kovaránst veszünk be a modellbe, akkor kderülhet, hogy a változók között kapcsolat van, am a modell helyességét befolyásolhatja. b) A modell feltételez a kockázat arányának dőbel állandóságát. c) A mntaszám megválasztásánál alkalmazzunk azt az ökölszabályt, hogy mnden kovaránsra legalább 5 esemény ( end pont) jusson. d) A Co modellt gyakran alkalmazzák az eploratív vzsgálatok során hpotézsek felállítására. Ilyen vzsgálat után a hpotézst csak másk mntán vagy mntákon szabad teszteln. 60

4. Logsztkus regresszó Gyakorak az olyan vzsgálatok s, amkor az y dszkrét értéket vesz fel: két értékű (bnomáls) vagy többértékű (polychotomus) lehet az y kmenetele. A lényeges különbség az eddg technkákhoz képest, hogy tt logt transzformált skálát használunk és az odds rato (OR) használatán alapszk. A predctor változók (rzkófaktorok) eloszlása tetszőleges lehet, számukat a kívánalmaknak megfelelően bővíthetjük. A kapott modell révén a rzkófaktor értékek smeretében, egyénre vonatkozóan megtudjuk határozn a vzsgált esemény bekövetkezés valószínűségét. Az alább hpotézseket vzsgáljuk: H 0 : nncs kapcsolat az és y változók között. H : van kapcsolat az és y változók között. A vzsgált Y esemény lehet pl. a szívnfarktus (bekövetkezett vagy nem következett be), transzplantácó eredménye (a beültetett szerv klökődött vagy nem lökődött k) a tüdőrák megfgyelésének az eredménye egy prospektív vzsgálat során (kalakult a megfgyelt egyéneknél a tüdőrák vagy sem). Ilyen esetekben - az független változók egyaránt tartalmazhatnak folytonos és nomnáls adatokat -, az Y esemény bekövetkezés valószínűségét logsztkus regresszóval becsüljük. Mvel Y csak két értéket vehet fel, a szokásos lneárs regresszó nem alkalmazható. Ha vesszük a p/(-p) kfejezést, ahol a p a vzsgált esemény valószínűsége, akkor ehhez az értékhez a (0, + ) ntervallum tartozk, de az ln [p/-p]- hez vszont már a (, + ) ntervallum. Legyen u[,,... ] az a vektor, amely a predktor változókat (rzkófaktorokat) tartalmazza. Vzsgáljuk az Y esemény bekövetkezését logsztkus regresszóval. A regresszós modell alakja 6

P( Y u) ln[ ( ) ] ln[ P( Y u) P Y u P( Y u) ] a + 0 b Az ezzel ekvvalens modell P( Y u) ep a + + ep a + b b vagy P + e ( b 0 + b + b +... + b n n ) Ha egy predktor változóra gaz, hogy b 0, akkor az a faktor nncs hatással a vzsgált eseményre. Az eljárás során azt vzsgáljuk, hogy ez a feltevés gaz-e, vagys teszteljük a H 0 : b 0 hpotézst a b z b standard errorja formulával, ahol b a becsült regresszós együttható. Gyakorak az olyan vzsgálatok, amkor a predktor változó hatását csak más zavaró (confoundng) változó (pl. az életkor) hatásán keresztül értékelhetjük. A zavaró változóról tudjuk, hogy befolyással van a vzsgált eseményre, ezért fgyelembe kell venn az analízs során. Ilyen esetekben a ténylegesen vzsgált rzkófaktorokat korrgáljuk (adjusted) a zavaró változó hatásával, mert csak így kapunk valós eredményt. A logsztkus regresszó alkalmas az lyen korrekcók elvégzésére. A módszer tovább előnye, hogy a független változók eloszlására nncs semm feltétel. A másk előny, hogy a regresszós koeffcenseket (b ) mnt relatív kockázat értéket (relatv rsk, RR) lehet felhasználn kohort, vagy odds rato-ként (esély hányadosként, OR) case-control vzsgálatokban. Értelmezésük és számításuk azonos, pl. az odds rato ep(b ) kfejezéssel határozható meg. 6

A számítás eljárás bonyolultabb mnt a lneárs regresszónál. Általában az teratív mamum lkelhood módszert használják a számítógépes programok. A logsztkus regresszó alkalmazásánál vegyük fgyelembe a következőket: - az egyéneket egymástól függetlenül, random módon válasszuk a mntába - legalább 5-0 esemény jusson mndegyk vzsgált predktor változóra. 5. Magasabbrendű eljárások 5.. Általános lneárs modell (GLM) Általános lneárs modellek (General Lnear Models, GLM) a többváltozós lneárs regresszó egyetlen (numerkus) függőváltozóra kterjesztett módszere: amely számos numerkus és nem-numerkus független változó és egy numerkus függő változó közt összefüggés, kapcsolat mnősítésére, számszerűsítésére szolgál, továbbá az összefüggések feltárása után, azok smeretében történő előrejelzésre szolgál. A modell alakja ahol E(Y)µ a függő változó (Y) várható értéke, Xβ a lneárs predctor (lneárs kombnácója az smeretlen értékű β vektornak; g egy lnk függvény. A varanca egy függvény A V eponencáls családból származó eloszlás. Az smeretlen paramétereket tartalmazó β vektort általában mamum lkelhood vagy Bayes becsléssel határozzuk meg. 63

Modell komponensek. Valószínűség eloszlás az eponencáls családból.. Egy lneárs predctor: η Xβ. 3. Egy lnk függvény: E(Y) µ g - (η). Az eljárás alkalmazható bármlyen AOVA, lneárs, logsztkus és Posson regresszós vzsgálatokra. 5.. MIXED modell A lneárs modell f, random vagy többszempontos szóráselemzés esetén kevert modell (med) lehet. A kevert modellt a szakrodalom általános modellnek s nevez..a f modellek főleg mnősítő vzsgálatoknál használhatók, ahol adott feltételek mellett vzsgáljuk a hatótényezőket. A f modellben legtöbbször kvaltatív tényezőket adunk meg. Alkalmazása főleg többszempontos szóráselemzésnél a kevert modellek felépítésénél jelentős. A random modellnél egyaránt vzsgálhatunk kvanttatív és kvaltatív tényezőket. Ha kvanttatív tényezőket vzsgálunk, elsősorban az összefüggés mlyensége (hatásgörbe) érdekel bennünket, és nem a konkrét dózsok között különbség. Ebben az estben jó, ha ekvdsztánsan (egyenlő távolság) vagy logartmkusan nőnek a kezelésfokozatok. Kvanttatív tényező vzsgálata esetén keverhetjük a f és random hatások elemzését. A random vagy f modell alkalmazása nem csak elmélet különbség, hanem a varanca-analízs számítása során, a varanca komponensek különbözősége matt, más számítás metódust s jelent. A hatások felderítésére szolgáló modellek tehát legtöbbször lneárs matematka modellek. Az alkalmazott matematka modell nagyban meghatározza a kísérlet elrendezését s, egymástól elválaszthatatlanok. Fordítva s gaz, adott elrendezéshez csak meghatározott matematka modellek állíthatók fel. 64

éhány alkalmazás terület (a teljesség génye nélkül): a) Általános lneárs modell llesztés az adatok normaltását feltéve: b) Illesztett kovaranca struktúra c) Becslés eljárások - regresszó analízs - varancaanalízs (balanced or unbalanced data) - smételt méréses AOVA (pl. hányzó adatokkal) - varance components - compound symmety - factor analytc - Restrcted Mamum Lkelhood (REML) - Mamum Lkelhood (ML) - Momentum módszerek (pl. Type III) A standard lneárs model (GLM, lásd 3.5. pont) az egyk legáltalánosabb statsztka modell: ahol y: a megfgyelt adatank vektora β: a f-hatások smeretlen vektora X: smert desgn mátr ε: resduáls hba, (0, σ ) y Xβ + ε A med modell általánosítja a standard lneárs modellt: ahol y Xβ + Zγ + ε γ: a random hatású paraméter smeretlen vektora Z: smert desgn mátr 65

6. Idősoranalízs A klasszkus klnka bostatsztkus munkában dősoranalízs feladatok rtkán fordulnak elő. Azonban vannak olyan területek pl. bzonyos élettan jelenségek (pl. vérnyomás, hormon szntek) nap (crkadán) rtmusának elemzése (cosnor elemzés) vagy az epdemológában bzonyos betegségek gyakorságának (vagy azok mortaltásának) szezonáls (cklkus) változásanak elemzése továbbá az analóg elektrofzológa jelek (pl. EEG) analízse (auto-, keresztkorrelácó, Fourer-analízs, stb) feldolgozása lyen jellegű feladatok. Következésképpen megsmerése és alkalmazása ndokolt orvos területen s. A SAS Gude tartalmaz az dősorelemzésre vonatkozó modult, ezért rövden bemutatom annak használatát, hogy bővíthessük analtka eszköztárunkat. Hangsúlyozom, hogy a terület nagyon komple, megsmerése mélyebb elmélet hátteret feltételez, amelynek smertetésére jelen könyv kerete nem adnak lehetőséget. 6.. Elmélet bevezető Egy elmélet dősor olyan specáls sztochasztkus folyamat (olyan folyamat, am a valószínűség-számításra épül és egyben a valószínűség változó fogalom általánosításának s teknthető, továbbá a különböző gyakorlat problémák megoldásában nagy szerepe van), ahol a valószínűség változók véges sorozatát vzsgáljuk. Y, Y, Y 3,,Y n A fent dősornak tehát mnden egyes tagja egy-egy valószínűség változó, amelyekre vonatkozóan azonban csak egy-egy empírkus (tapasztalat) adat áll rendelkezésünkre (egyetlen realzácó smeretes) 66

y, y, y 3,,y n A klasszkus dősor elemzés abból a feltételezésből ndul k, hogy az dősort egy tartós, hosszú távú tendenca (trend), szabályos hullámmozgások, perodkus ngadozások (szezonaltás) határozzák meg és ezektől eset, egyenként nem jelentős eltérítő hatást vált k a véletlen ngadozás. Az dősor elemzés eszköze: Grafkus ábrázolás: lehetővé tesz a fő tendencák vonások felsmerését. Bázs ll. láncvszonyszámok: az dősorok gyors, előzetes elemzésére szolgál. Egyszerűbb eszközök az un. átlagok: Számtan átlag, Kronologkus átlag. Egy adott dőszak jellemzéséhez a vzsgált dőszakon kívül megfgyelés s szükséges, de az első és utolsó megfgyelés csak fél súllyal szerepel. Képletben: Idősorok összetevő: y k t y + y +... + n n y + y n a) Trend vagy alaprányzat: egy határozottan jelentkező tendenca b) Perodkus ngadozás: rendszeresen smétlődő hullámzás (pl házorvosnál a nap betegforgalom) c) Véletlen ngadozás: szabálytalan mozgás A perodkus ngadozásnak két típusa van: - Addtív modell: az dősor a Trend hatás a Perodkus hatás és a Véletlen ngadozás Összege: y T + P + V - Multplkatív modell: az dősor érték a három tényező szorzata: 67

y T * P * V Idősor elemzés esetén a feladat, hogy a valód hatást (trend) megtísztítsuk az egyéb hatásoktól: + + + Trendmozgás: általános rány egy adott hosszú dőszakon belül Szezonáls mozgás: dőszakok szernt rendszeres mozgás Cklkus mozgás: trend körül hosszú távú mozgások, amelyek nem feltétlenül peródkusak Irregulárs mozgás: előre nem jósolható véletlen mozgások A smító módszerek lényege, hogy tényadatok segítségével lépésenként korrgálják a kalakított modell eredményet: használatuk során a zavaróhatások kszűrésével lehet valós előrejelzést adn. 6.. Lneárs és nem lneárs trend modell A modell használata esetén feltételezzük, hogy az adatsorban nncsenek szezonálsan smétlődő folyamatok és peródctás, tehát csak a trendhatás van jelen. Lneárs trend feltételezése esetén a legksebb négyzetek módszer felhasználásával adjuk meg a modellben a legjobban lleszkedő egyenest lletve az ehhez tartozó konstans értéket és a meredekség együtthatót. Általános lneárs trendfüggvény: és együttható: b b 0 y b t y t b 0 + b t ( t t)( yt y) ( t t) 68

em lneárs esetben egy rögzített függvény (eponencáls, logartmkus, négyzetes, stb.) transzformácó segítségével llesztjük a görbét az adatokhoz. 6.3. Eponencáls smítás Az dősor adataban nem tételezünk fel sem trend, sem szezonáls hatást. Az eponencáls smítás lényege, hogy az előrejelzés során egy adott dőponthoz tartozó értéket úgy defnálunk, hogy abban benne vannak a múltbel értékek s oly módon, hogy dőben vsszafelé haladva egyre ksebb súllyal szerepelnek A súly értéke 0 és között ntervallumból származnak. Amennyben -hez közel súlyt választunk, akkor az dősor függvénye ks mértékben smítódk k, azaz nagy súlyt kap az aktuáls érték (ks súlyt kapnak a múltbel értékek). ulla vagy 0-hoz közel súly választása esetén az dősoron erős smítást hajtunk végre, kszűrjük az ngadozásokat, és eredményül hullámzó görbét kapunk. Ebben az esetben ks súlyt kap az aktuáls érték, és a múltbel értékek nagy súlyt kapnak. Szezonáls modell A szezonáls modell olyan dősorokra lleszkedk jól, melyekben nem fgyelhető meg trend, azaz a trend egyenes meredeksége 0: a jövőben nem várható növekedés, egyensúly helyzet alakult k. A szezonáls hatás domnánsan és szabályosan jelentkezk és nncs szükség eponencáls smításra. a) Szezonaltás llesztése addtív modellel Feltételezve addtív modell esetén a szezonaltás állandóságát, a szezonaltást kfejező komponens értéke attól függ, hogy melyk szezonban vagyunk, de attól nem, hogy az adott szezon hányadk peródusában. Így a trend határozza meg az dősor fő áramát. A szezonáls hatás konstans formában járul hozzá (hozzáadódk vagy kvonódk) az adott dőszakhoz tartozó trend értékhez. Ha a szezonaltást a trendtől függetlenül ábrázoljuk, akkor egy peródkusan smétlődő függvényt kapunk, amelynek hullámhossza és ampltúdója állandó. 69

b) Szezonaltás llesztése multplkatív modellel Multplkatív modell esetén a szezonáls hatás nem független az dősor trend függvényének értékétől. agyobb trend értékhez nagyobb szezonáls érték tartozk, tehát a változás (klengés) mértéke annál nagyobb, mnél nagyobb értékű a trend függvény. A klengések trendhez vszonyított aránya nagyjából állandónak teknthető. Ha a szezonaltást a trend függvény nélkül ábrázoljuk, akkor egy perodkusan smétlődő függvényt kapunk állandó hullámhosszal és változó (tehát nem állandó) ampltúdóval. Az ampltúdó attól függ, hogy a trend függvénynek az adott pllanatban mekkora az értéke. Lneárs trend modell Brown-féle vagy Holt-féle smítással A modell feltételez, hogy az dősorban. lneárs trend fgyelhető meg. em bzonyítható szezonáls hatás, az ngadozások perodctása konstans értékhez nem konvergál. A Brown- és a Holt-féle smítás nagyon hasonlít egymáshoz, csak matematka formulákban térnek el, amelyek megadásától eltekntünk. Mndkét eljárás az eponencáls smítás egy specáls esetét alkalmazza: egymás után kétszer hajtjuk végre a smítást. 6.4. Wnters addtív modell A modell azon dősorok esetén használható jó eredménnyel, ahol lneárs trend fgyelhető meg és addtív jellegű a szezonáls hatás. A szezonaltás addtív leírása a trend lneárs voltának megkötésén kívül teljes mértékben helytálló. Wnters multplkatív modell A modell azon dősorokhoz lleszkedk a legjobban, ahol lneárs trend fgyelhető meg, és multplkatív a szezonáls hatás. A multplkatív szezonaltás leírása a trend lneárs voltának megkötésén kívül teljes mértékben helytálló. 6.5. Telítődés modell 70

Olyan esetekben használhatjuk akár lneárs, akár nem lneárs módon ahol az dősor egy konstans értékhez, azaz egy vízszntes egyeneshez smul. Például nulla betegforgalomról a görbe hrtelen felugrk egy adott értékg, majd ezen érték körül ngadozk a továbbakban. 6.6. ARMA Idősorok elemzésénél pl. jelfeldolgozásban gyakran alkalmaznak korrelácós függvényeket adatsorozatok összehasonlítására. A keresztkorrelácó segít két adatsor között összefüggés megtalálásában. Ha az egyk adatsort eltoljuk (lag), akkor késleltetett hatások s felfedezhetők. Az lyen adatsorok összehasonlítását az ún. autokorrelácóval végezzük. Autokorrelácó segítségével peródusok mutathatók k az adatsorban. Ha defnálunk két függvényt (esetünkben dszkrét véges adatsor, vagy dősor) keresztkorrelácóját és ez alapján konvolúcóját (a lneárs művelet két függvényből állít elő egy harmadkat), továbbá egy függvény autokorrelácóját: a konvolúcó lényegében egy dőtükrözött függvénnyel vett keresztkorrelácónak felel meg és az autokorrelácó egy adatsornak saját magával vett keresztkorrelácójával egyenértékű. ARMA (AutoRegressve Movng Average, autoregresszív-mozgó átlagolás): a statsztkában, de különösen a jelfeldolgozásban nagyon gyakor az lyen modellek használata, amt Bo Jenkns modellnek s neveznek. Az autoregresszív modell (lneárs előrejelző függvények) feladata a jövőbel adatok becslése (forecastng) az előzőleg becsült adatok alapján. A modell általános megadása: ahol ARMA (p, q) p-rendben autoregresszv: az autoregresszó rendje, AR (p) q-rendben mozgóátlagú: a mozgóátlag rendje, MA (q) Integrált Autoregresszív Mozgó Átlagolás (ARIMA, AutoRegressve Integrated Movng Average): általánosítása az ARMA modellnek. A modell (folyamat) általános megadása: 7

ARIMA (p, d, q) ahol az egyes paraméterek nem negatív egész értékek p-rendben autoregresszv: az autoregresszó rendje, AR (p) q-rendben mozgóátlagú: a mozgóátlag rendje, MA (q) d-rendben ntegrált: a dfferencálás (ntegrálás) foka, I (d) I (d): ΔdYt staconer ahol d a dfferencázás foka ARIMA(p,d,q) _Yt ~ ARMA(p,q) _ΔdYt Staconartás-transzformácók. Dfferenca staconartás esetén (DSP): a). Elsőrendű dfferencázás: Y t Y t Y t- b) Másodrendű dfferencázás: Y t Y t c) Logartmálás és dfferencázás: logy t. Trendstaconartás esetén (TSP): a) Tsztítás a trendtől: Y t Trend(t) 3. Szezonaltás esetén: a) Szezonáls dfferencázás: 4 Y t (Y t Y t-4 ) b) Szezonáls dfferencázás: Y t (Y t Y t- ) c) Szezonáls kgazítás: Y (-/) Szezonhatás Különböző formában s megadható a modell: amkor az egyk tag 0, azt a modell nevében s feltüntetjük. Pl. ha a modellünk formája I (), akkor a teljes modell alakja ARIMA (0,,0) vagy MA () modell esetén a teljes modell ARIMA (0,0,). A teljesség génye nélkül meg kell említen a nagyon fontos dősor analízs modellt a Bo- Jenkns modellt vagy metódust:. Modell-dentfkálás: p,d,q meghatározása: a) Staconartás-vzsgálat: b) Transzformácó: d? c) Staconartás? Transzformácó ha szükséges! d) ARMA(p,q) rendek behatárolása 7

. Paraméterbecslés, Akake modellszelekcó, 3. Dagnosztka: Rezduum Fehér-Zaj-e? 4. Előrejelzés 73