Megoldási kísérletek:



Hasonló dokumentumok
Megoldási kísérletek:

Megoldási kísérletek:

Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése

Megoldási kísérletek:

DIGITÁLIS ÁTÁLLÁS HATÁSA A NÉZETTSÉGMÉRÉSRE DIGITÁLIS KORREKTÚRA Vörös Csilla március 19.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

KÖVETKEZTETŐ STATISZTIKA

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Biostatisztika VIII. Mátyus László. 19 October

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

Mérési hibák

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

[Biomatematika 2] Orvosi biometria

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Kutatásmódszertan és prezentációkészítés

Segítség az outputok értelmezéséhez

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Statisztika elméleti összefoglaló

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Omnibusz 2003/08. A kutatás dokumentációja. Teljes kötet

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

y ij = µ + α i + e ij

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Mérési adatok illesztése, korreláció, regresszió

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Adatok statisztikai értékelésének főbb lehetőségei

[Biomatematika 2] Orvosi biometria

Több valószínűségi változó együttes eloszlása, korreláció

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Tévénézési trendek Magyarországon és innovatív megoldások

Mintavételi eljárások

Kettőnél több csoport vizsgálata. Makara B. Gábor

Varianciaanalízis 4/24/12

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

PILLANATKÉP AZ ANALÓG FÖLDI LEKAPCSOLÁS UTÁN

Bevezetés a hipotézisvizsgálatokba

Statisztika Elıadások letölthetık a címrıl

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Lineáris regresszió vizsgálata resampling eljárással

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Biomatematika 2 Orvosi biometria

PILLANATKÉP AZ ANALÓG FÖLDI LEKAPCSOLÁS ELSŐ HULLÁMA UTÁN AUGUSZTUS, NIELSEN KÖZÖNSÉGMÉRÉS

A társadalomkutatás módszerei I. Outline. A mintaválasztás A mintaválasztás célja. Notes. Notes. Notes. 13. hét. Daróczi Gergely december 8.

(Independence, dependence, random variables)

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

1. tábla Főkereső azonos a főbevásárlóval

Módszertani segédanyag a nézettségi adatok értelmezéséhez

Matematikai geodéziai számítások 6.

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

[Biomatematika 2] Orvosi biometria

Függetlenségvizsgálat, Illeszkedésvizsgálat

Asszociációs szabályok

Normális eloszlás tesztje

Biomatematika 2 Orvosi biometria

A Statisztika alapjai

Korrelációs kapcsolatok elemzése

Matematikai geodéziai számítások 6.

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Biometria gyakorló feladatok BsC hallgatók számára

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

A leíró statisztikák

A társadalomkutatás módszerei I.

6. Előadás. Vereb György, DE OEC BSI, október 12.

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

[Biomatematika 2] Orvosi biometria

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

TELEVÍZIÓS KÍNÁLAT ÉS FOGYASZTÁS. Vörös Csilla Február 27.

Alba Radar. 3. hullám. Vélemények a fehérvári médiáról

Matematikai statisztika c. tárgy oktatásának célja és tematikája

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI OMNIBUSZ 2004/05. A kutatás dokumentációja

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Átírás:

TV-nézettség mérése TV-nézőmérő rendszer és lehetséges torzítása Előadó: Zempléni András Minden országban működik Célja: visszajelzés a TV-műsorok készítőinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézők gombnyomással jeleznek Problémák a mérőeszköznél Adatszolgáltatók köre: panel Vajon néz-e a nézőnek bejelentkezett? Elfelejtkezhet bejelentkezni Megoldási kísérletek: időnkénti kontroll-kérdések telefonos ellenőrzés adatok szűrése kiválasztás: évenként elvégzett széleskörű felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás A súlyozás Kérdések a súlyozásnál figyelembe veendő változókra vonatkozóan Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása) Mely változókat (változó - kombinációkat) válasszuk? Melyek legyenek a súlyozás kategóriái?

Kérdések a súlyozásról Példa RIM weighting súlyozásra Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái? Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését Példa: Két változó, két-két értékkel, különböző súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó Képzeletbeli példa universek Képzeletbeli példa panel A népesség (universe) összetétele Férfi Nő Összesen A panel összetétele Férfi Nő Összesen Városi 1 5 1 5 5 Falusi 1 5 1 5 5 Városi 5 1 35 Falusi 1 4 1 4 Összesen 5 5 5 Összesen 15 5 175 Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak? Súlyozás lépései /1 Súlyozás lépései / A universe összetétele Férfi Nő Összesen (ezer) 5 súlyok Városi 5 5 1 Falusi 4 Összesen 5 5 5 A universe összetétele (ezer) Városi.5 Falusi.65 súlyok Férfi Nő Összesen 5 súlyok 15 15 5 15 15 5 Összesen 5 5 5

átlagsúly Képzeletbeli példa panel és nézettség A súlyok megoszlása A panel összetétele és a becsült nézettség (valószínűség) Városi 5 AMR=.1 Falusi 1 AMR=.3 Férfi Nő Összesen 1 AMR=.1 4 AMR=.3 35 14 Összesen 1 5 5 175 G yako r i ság Túl sok súlyozó változó -> a súlyok nagy szórást mutatnak A súlyok m egoszlása 1998.9.4-én 4 35 3 5 15 1 5 1 8 6 4 5, 9, 33, 37, 41, 45, 49, 53, 57, Súlyozatlan becslés: 455/175=.6 Súlyozott becslés:. 1 5 9 13 17 1 5 9 33 37 41 45 49 53 57 A súlyok koncentrációja A súlyok ingadozása A panel különböző súlyú részeinek hatása 15 Ha a panel az adott változó szerint nem arányos, a súlyok szórása nő 1 9 6 Az előző példában : ha csak 1 változó szerint súlyozunk: max/min=4 3 1 3 4 5 Az egyes % nagyságú csoportok ha mindkét változó szerint súlyozunk: max/min= 1 A becslések megbízhatósága Következtetések Ha valószínűségi modellt alkalmazunk (N Poisson eloszlású a műsor nézői független X,Y-tól): D ( N i1 X Y ) i i N D ( X( iyi ) ( XY ) ( ) X mx )(( Y my ) )( ) i1 XY mxy X mx Y my Azokat a változókat célszerű súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Célszerű kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból Alacsony esetszámú kategória (<5 paneltag) nézettségére vonatkozó becslés szórása igen nagy

A változók hatásának vizsgálata Clusteranalízis Cluster-analízis A módszer lényege: több számértékkel egyidejűleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 1 hetes időszakban mennyit nézték az egyes csatornákat (külön-külön, idősávonként, ill. összesítve). Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (előre rögzített clusterszámmal dolgozunk, iterációs eljárás) ezt használtuk a TVnézettségnél. hierarchikus eljárások (n-ről egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.) A nézettségi adatok clusterei (k-közép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben A clusterek elhelyezkedése Cluster sorszáma 1 3 4 MTV1 65 165 5 37 7 6 MTV 5 18 4 3 Duna TV 3 1 4 3 M T V 1 5 4 3 1 Cluster 4 TV 7 4 85 8 6 4 TV 67 4 5 3 1 RTL Klub 3 RTL Klub 49 31 34 4 1 A clusterek vizsgálata A Kruskal-Wallis statisztika Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérőszám az úgynevezett Kruskal- Wallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között. 1 K N( N 1) N 1 ni( Ri ) N a teljes minta elemszáma (kb. 16) R i az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga n i az i-edik csoport elemszáma i

átlagsúly átlagsúly Néhány korcsoport szerepe Néhány kevésbé fontos változó Chi-négyzet 15-9 78. 4-14 7. 3-49 33.9 3-34 13.9 35-39 8. Chi-négyzet Borsod, Heves megye 11.4 Baranya, Tolna, Somogy megye 6. Fejér, Veszprém, Zala megye 3. Városi nő 3.8 Kisvárosi harmincas nő 3.1 A változók kiválasztása Az új súlyok koncentrációja Tesztek a különböző kategória-rendszerekkel: A 6-as panel különböző súlyú részeinek hatása 15 A 84-es panel különböző súlyú részeinek hatása 15 iterációk konvergenciája 1 1 kritikus csoportok vizsgálata külön-külön 9 9 telefon szükséges (felhasználók elvárása) jövedelem beválasztása jelentősen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerű 6 3 1 3 4 5 Az egyes % nagyságú csoportok 6 3 1 3 4 5 Az egyes % nagyságú csoportok A változók számának csökkentése után adódó súlyok A becslések szórásának vizsgálata Az egymás utáni napok közötti súlyok korrelációja közel.99 a súlyok szórása kisebb a 98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli. A megfigyelések nem függetlenek! családon belüli (kényszerű) kapcsolat: az egymáshoz közeli időpontokban nagyon hasonló a műsorok nézőinek összetétele Kérdés: valójában hány elemű mintának felel meg a panel? Kérdés: mekkora is ez a szórás?

A bootstrap eljárás A becslések szórásának vizsgálata bootstrap módszerrel Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató paneleket generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra. A módszer matematikai háttere: X c, X,...X n : ftlen, azonos, F eloszlású. F n a tapasztalati eloszlásfv. Új (bootstrap) minta a tapasztalati eloszlásból: x* Ennek feltételes szórásnégyzete: * x(1 x) D ( X ) n Alkalmazása A szórások összehasonlítása X c, X,...X n a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggőség szórásra gyakorolt hatása vizsgálható a módszerrel. Elméleti érték: p ˆ(1 pˆ ) n A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol p i az egyes mintáknál kapott becslés, pedig ezek átlaga p 1 n 1 ( p p) i A két szórás alakulása egy nap során (átlagos percenkénti nézettség, AMR) A két szórás hányadosa.14.1.1.8.6.4 Nem függ szignifikánsan az időponttól a nézettségtől Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentősen eltérhet.. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 RTLSZ RTLELMS PERC

A két szórás hányadosa a 18-49 évesek, mint célcsoport esetén A szórások hányadosa a főbevásárlók, mint célcsoport esetén.1..1.8.6.1.4. MTV1SZ TVSZ. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 MTV1ELMS. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 TVELMS PERC PERC Ha a főbevásárlókat tekintjük, nincs családon belüli összefüggés A bootstrap mintákból kapott becslés szórása 1.4 1.3 1. 1.1 1..9 SHANY Obs erved Az előző ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsőségesebb - a súlyok szórása mintegy 1%-kal magasabb - (hiszen a minta természetszerűleg kevésbé arányos) és ez növeli a kapott becslések szórását..8 Linear..1..3 ATL Műsorok, kampányok A szórások hányadosa különböző kampányokra Nemzetközi tapasztalat: a reach/amr hányados növekedésével (azaz ahogy nő a legalább 1 percre elért populáció és az adott percben nézők számának aránya) csökken a becslés szórása (és így a szórás-hányados is) A különböző műsorok meglehetősen eltérő viselkedést mutattak, ezért célszerűbb volt különböző sorozatok, ill. kampányok vizsgálata 1.6 1.4 1. 1..8.6.4. 4 6 8 1 1 14 16 Predicted Values REAPERAT SHANY REAPERAT

A nemlineáris regresszió képlete Következtetések b+(max-b)/[a(r-1)+1] A paraméterek szemléletes jelentése: a adja meg a görbe meredekségét b a legkisebb, elvileg elérhető szóráshányados (ha az R=reach/AMR hányados végtelenhez tart) max pedig a reach/amr=1 értékhez tartozó szórás-hányados A bootstrap elemzés megmutatta, hogy az AMR becslések szórása valamelyest (legfeljebb 3%-kal) nagyobb, mint ami az elméleti becslés lenne viszont a kampányok, sorozatok esetén a reach/amr hányados növekedtével akár az elméleti érték negyedére is csökkenhet a szórás. Alapozó felmérés Az esetleges torzítás vizsgálata 8. család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézőméréshez való viszonyt is rögzíti (több, mint 5% nem vállalja a részvételt) Számszerűsítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslő háztartásokból álljanak a mintapanelok. Ez így még nem egyértellmű, a későbbiekben térünk vissza a lehetséges megoldási módokra. A becsült és a megfigyelt TV üzemórák összehasonlítása A torzítás TUHETI: a háztartásonként mért heti össz-tv üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 36 37.4 TUHETI 114 13 47.98 A fenti két populáció metszete azokból áll, akik a panelbe kerültek az alapozó felmérésből, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézőmérő rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 5 3.73 vállalk. () 4451 36 43.7 beszerelt (3) 35 7 14 45.7

1 1 8 6 4 Boot-átlag hivatalos Az eltérések vizsgálata A torzítás számszerűsítése Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = és = 3 csoportok között. Bootstrap mintákat generálva, melyek (esetleg becsült) ORAHETI értékeinek megoszlása megegyezik az alapozó felmérésben megfigyelttel Az egyes csatornák és idősávok nézettsége Az arányok 1,95,9116 5,64,94819 Bootstrap korrekció,94886,94774,84637,88369 1,,883994,894564 1,869939,9734,8,934537,6 1,55,9437,4,959915,9536,,974566,87583,9116,94819 M1411_1 TV411_1 A boot-átlag és a hivatalos adat aránya M1411_ Bootstrap korrekció TV411_ M1411_3 TV411_3 M1411_4 TV411_4 M1411_5 TV411_5 hányados M1411_1 TV411_1 M1411_ TV411_ M1411_3 TV411_3 M1411_4 TV411_4 M1411_5 TV411_5