Megoldási kísérletek:

Hasonló dokumentumok
Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése

Megoldási kísérletek:

Megoldási kísérletek:

Megoldási kísérletek:

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Statisztika Elıadások letölthetık a címrıl

DIGITÁLIS ÁTÁLLÁS HATÁSA A NÉZETTSÉGMÉRÉSRE DIGITÁLIS KORREKTÚRA Vörös Csilla március 19.

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Biometria gyakorló feladatok BsC hallgatók számára

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Hipotézis vizsgálatok

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Biostatisztika VIII. Mátyus László. 19 October

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria

Eloszlás-független módszerek 13. elıadás ( lecke)

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Több valószínűségi változó együttes eloszlása, korreláció

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Omnibusz 2003/08. A kutatás dokumentációja. Teljes kötet

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A maximum likelihood becslésről

Statisztika elméleti összefoglaló

Mérési hibák

KÖVETKEZTETŐ STATISZTIKA

Adatok statisztikai értékelésének főbb lehetőségei

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Kutatásmódszertan és prezentációkészítés

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Variancia-analízis (VA)

Bevezetés a hipotézisvizsgálatokba

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Segítség az outputok értelmezéséhez

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Mérési adatok illesztése, korreláció, regresszió

A Statisztika alapjai

y ij = µ + α i + e ij

[Biomatematika 2] Orvosi biometria

Többváltozós lineáris regressziós modell feltételeinek

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Mintavételi eljárások

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Többszempontos variancia analízis. Statisztika I., 6. alkalom

Normális eloszlás tesztje

Matematikai statisztika c. tárgy oktatásának célja és tematikája

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Varianciaanalízis 4/24/12

6. Előadás. Vereb György, DE OEC BSI, október 12.

III. Képességvizsgálatok

Lineáris regresszió vizsgálata resampling eljárással

4. A méréses ellenırzı kártyák szerkesztése

Biomatematika 2 Orvosi biometria

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Matematikai geodéziai számítások 6.

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI OMNIBUSZ 2004/05. A kutatás dokumentációja

A társadalomkutatás módszerei I. Outline. A mintaválasztás A mintaválasztás célja. Notes. Notes. Notes. 13. hét. Daróczi Gergely december 8.

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Statisztika. Politológus képzés. Daróczi Gergely április 24. Politológia Tanszék

IV. Változók és csoportok összehasonlítása

Korreláció és Regresszió

Az első számjegyek Benford törvénye

Függetlenségvizsgálat, Illeszkedésvizsgálat

[Biomatematika 2] Orvosi biometria

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

(Independence, dependence, random variables)

Számítógépes döntéstámogatás. Statisztikai elemzés

Matematikai geodéziai számítások 6.

Átírás:

TV-néz nézımérı rendszer és lehetséges torzítása Elıadó: Zempléni András TV-nézettség mérése Minden országban mőködik Célja: visszajelzés a TV-mősorok készítıinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézık gombnyomással jeleznek Problémák a mérıeszköznél Vajon néz-e a nézınek bejelentkezett? Elfelejtkezhet bejelentkezni Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése Adatszolgáltatók köre: : panel kiválasztás: évenként elvégzett széleskörő felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás A súlyozás Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása) Kérdések a súlyozásnál figyelembe veendı változókra vonatkozóan Mely változókat (változó - kombinációkat) válasszuk? Melyek legyenek a súlyozás kategóriái?

Kérdések a súlyozásról Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái? Példa RIM weighting súlyozásra Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését Példa: Két változó, két-két értékkel, különbözı súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó Képzeletbeli példa universek A népesség (universe) összetétele Férfi Nı Összesen Városi 1 5 1 5 5 Falusi 1 5 1 5 5 Összesen 5 5 5 Képzeletbeli példa panel A panel összetétele Férfi Nı Összesen Városi 5 1 35 Esetszámok Falusi 1 4 1 4 Összesen 15 5 175 Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak? Súlyozás lépései /1 A universe összetétele Férfi Nı Összesen (ezer) 5 súlyok Városi 5 5 1 Súlyozott esetszámok Falusi 4 Összesen 5 5 5 Súlyozás lépései / A universe összetétele (ezer) Városi.5 Falusi.65 súlyok Férfi Nı Összesen 5 súlyok 15 15 5 Súlyozott esetszámok 15 15 5 Összesen 5 5 5

Képzeletbeli példa panel és nézettség A panel összetétele és a becsült nézettség (valószínőség) Városi 5 AMR=.1 Falusi 1 AMR=.3 Férfi Nı Összesen 1 AMR=.1 4 AMR=.3 35 14 Összesen 1 5 5 175 Súlyozatlan becslés: 455/175=.6 Súlyozott becslés:. Gyakori ság Túl sok súlyozó változó -> a súlyok nagy szórást mutatnak A súlyok m egoszlása 1998.9.4-én 4 35 3 5 15 1 5 1 5 9 A súlyok megoszlása 13 17 1 5 9 33 37 1 41 8 6 4 5, 45 9, 49 33, 53 37, 57 41, 45, 49, 53, 57, átlagsúly A súlyok koncentrációja A panel különbözı súlyú részeinek hatása 1 5 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok A súlyok ingadozása Ha a panel az adott változó szerint nem arányos, a súlyok szórása nı Az elızı példában : ha csak 1 változó szerint súlyozunk: max/min=4 ha mindkét változó szerint súlyozunk: max/min= 1 A becslések megbízhatósága Ha valószínőségi modellt alkalmazunk (N Poisson eloszlású a mősor nézıi független X,Y-tól): N D ( X Y ) + i= 1 i i N D = ( λ X( iyi ) σ= λ ( σ XY ) = λ( ) σ X + m X )( σ( Y + my ) )( ) i= 1 XY + mxy = λ σ X + mx σ Y my X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Alacsony esetszámú kategória (<5 paneltag) nézettségére vonatkozó becslés szórása igen nagy Következtetések Azokat a változókat célszerő súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára Célszerő kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból

A változók hatásának vizsgálata Cluster-analízis A módszer lényege: több számértékkel egyidejőleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 1 hetes idıszakban mennyit nézték az egyes csatornákat (külön-külön, idısávonként, ill. összesítve). Clusteranalízis Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (elıre rögzített clusterszámmal dolgozunk, iterációs eljárás) ezt használtuk a TVnézettségnél. hierarchikus eljárások (n-rıl egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.) A nézettségi adatok clusterei (k-középközép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben Cluster sorszáma 1 3 4 MTV1 65 165 5 37 MTV 5 18 4 3 Duna TV 3 1 4 3 TV 7 4 85 RTL Klub 49 31 34 4 A clusterek elhelyezkedése M T V 1 7 6 5 4 3 1 8 6 4 TV 1 4 5 3 RTL Klub 6 7 Cluster 4 3 1 A clusterek vizsgálata Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérıszám az úgynevezett Kruskal- Wallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között. A Kruskal-Wallis statisztika 1 K = N( N + 1) N + 1 ni( Ri ) N a teljes minta elemszáma (kb. 16) R i az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga n i az i-edik csoport elemszáma i

Néhány korcsoport szerepe Chi-négyzet 15-9 78. 4-14 7. 3-49 33.9 3-34 13.9 35-39 8. Néhány kevésbé fontos változó Chi-négyzet Borsod, Heves megye 11.4 Baranya, Tolna, Somogy megye 6. Fejér, Veszprém, Zala megye 3. Városi nı 3.8 Kisvárosi harmincas nı 3.1 A változók kiválasztása Tesztek a különbözı kategória-rendszerekkel: iterációk konvergenciája kritikus csoportok vizsgálata külön-külön telefon szükséges (felhasználók elvárása) jövedelem beválasztása jelentısen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerő átlagsúly 15 1 9 6 3 Az új súlyok koncentrációja A 6-as panel különbözı súlyú részeinek hatása 1 3 4 5 Az egyes % nagyságú csoportok átlagsúly A 84-es panel különbözı súlyú részeinek hatása 15 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok A változók számának csökkentése után adódó súlyok Az egymás utáni napok közötti súlyok korrelációja közel.99 a súlyok szórása kisebb a 98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli. Kérdés: mekkora is ez a szórás? A becslések szórásának vizsgálata A megfigyelések nem függetlenek! családon belüli (kényszerő) kapcsolat: az egymáshoz közeli idıpontokban nagyon hasonló a mősorok nézıinek összetétele Kérdés: valójában hány elemő mintának felel meg a panel?

A bootstrap eljárás Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató paneleket generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra. A becslések szórásának vizsgálata bootstrap módszerrel A módszer matematikai háttere: X c, X,...X n : ftlen, azonos, F eloszlású. F n a tapasztalati eloszlásfv. Új (bootstrap) minta a tapasztalati eloszlásból: x* Ennek feltételes szórásnégyzete: * x(1 x) D ( X ) = n Alkalmazása X c, X,...X n a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggıség szórásra gyakorolt hatása vizsgálható a módszerrel. A szórások összehasonlítása Elméleti érték: p ˆ(1 pˆ ) n A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol p i az egyes mintáknál kapott becslés, p pedig ezek átlaga 1 ( pi p) n 1 A két szórás alakulása egy nap során (átlagos percenkénti nézettség,, AMR).14.1.1.8.6.4. RTLSZ. RTLELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC A két szórás hányadosa Nem függ szignifikánsan az idıponttól a nézettségtıl Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentısen eltérhet

A két szórás hányadosa a 18-49 évesek,, mint célcsoport esetén.1.1.8.6.4. MTV1SZ. MTV1ELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC A szórások hányadosa a fıbevásárlók,, mint célcsoport esetén..1 TVSZ. TVELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC Ha a fıbevásárlókat tekintjük, nincs családon belüli összefüggés SHANY 1.4 1.3 1. 1.1 1..9 Observed.8 Linear..1..3 ATL A bootstrap mintákból kapott becslés szórása Az elızı ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsıségesebb - a súlyok szórása mintegy 1%-kal magasabb - (hiszen a minta természetszerőleg kevésbé arányos) és ez növeli a kapott becslések szórását. Mősorok, kampányok Nemzetközi tapasztalat: a reach/amr hányados növekedésével (azaz ahogy nı a legalább 1 percre elért populáció és az adott percben nézık számának aránya) csökken a becslés szórása (és így a szórás-hányados is) A különbözı mősorok meglehetısen eltérı viselkedést mutattak, ezért célszerőbb volt különbözı sorozatok, ill. kampányok vizsgálata A szórások hányadosa különbözı kampányokra 1.6 1.4 1. 1..8.6 Predicted Values.4 REAPERAT SHANY. REAPERAT 4 6 8 1 1 14 16

A nemlineáris regresszió képlete b+(max-b)/[a(r-1)+1] A paraméterek szemléletes jelentése: a adja meg a görbe meredekségét b a legkisebb, elvileg elérhetı szóráshányados (ha az R=reach/AMR hányados végtelenhez tart) max pedig a reach/amr=1 értékhez tartozó szórás-hányados Következtetések A bootstrap elemzés megmutatta, hogy az AMR becslések szórása valamelyest (legfeljebb 3%-kal) nagyobb, mint ami az elméleti becslés lenne viszont a kampányok, sorozatok esetén a reach/amr hányados növekedtével akár az elméleti érték negyedére is csökkenhet a szórás. Alapozó felmérés 8. család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézıméréshez való viszonyt is rögzíti (több, mint 5% nem vállalja a részvételt) Az esetleges torzítás vizsgálata Számszerősítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslı háztartásokból álljanak a mintapanelok. A becsült és a megfigyelt TV üzemórák összehasonlítása TUHETI: a háztartásonként mért heti össz-tv üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 36 37.4 TUHETI 114 13 47.98 A torzítás A fenti populáció azokból áll, akik a panelbe kerültek az alapozó felmérésbıl, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézımérı rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 5 3.73 vállalk. () 4451 36 43.7 beszerelt (3) 35 7 14 45.7

Az eltérések vizsgálata Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = és = 3 csoportok között. Összefoglalás A mőszeres mérés megbízhatóságának fı tényezıi 1. Panel kiegyensúlyozottsága a fı szempontok szerint. A panelba kerülı háztartások kiválasztása 3. Panelméret A bizonytalanság számszerősítendı (esetleg késıbb visszatérünk rá)