Megoldási kísérletek:

Hasonló dokumentumok
Megoldási kísérletek:

Megoldási kísérletek:

Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése

Megoldási kísérletek:

DIGITÁLIS ÁTÁLLÁS HATÁSA A NÉZETTSÉGMÉRÉSRE DIGITÁLIS KORREKTÚRA Vörös Csilla március 19.

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Hipotézis vizsgálatok

KÖVETKEZTETŐ STATISZTIKA

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Omnibusz 2003/08. A kutatás dokumentációja. Teljes kötet

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

y ij = µ + α i + e ij

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Biostatisztika VIII. Mátyus László. 19 October

Bevezetés a hipotézisvizsgálatokba

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

Kettőnél több csoport vizsgálata. Makara B. Gábor

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kutatásmódszertan és prezentációkészítés

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Adatok statisztikai értékelésének főbb lehetőségei

Mintavételi eljárások

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

PILLANATKÉP AZ ANALÓG FÖLDI LEKAPCSOLÁS UTÁN

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

A maximum likelihood becslésről

Tévénézési trendek Magyarországon és innovatív megoldások

Varianciaanalízis 4/24/12

PILLANATKÉP AZ ANALÓG FÖLDI LEKAPCSOLÁS ELSŐ HULLÁMA UTÁN AUGUSZTUS, NIELSEN KÖZÖNSÉGMÉRÉS

Módszertani segédanyag a nézettségi adatok értelmezéséhez

Segítség az outputok értelmezéséhez

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI OMNIBUSZ 2004/05. A kutatás dokumentációja

Statisztika Elıadások letölthetık a címrıl

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Biometria gyakorló feladatok BsC hallgatók számára

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

6. Előadás. Vereb György, DE OEC BSI, október 12.

1. tábla Főkereső azonos a főbevásárlóval

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Biomatematika 2 Orvosi biometria

A társadalomkutatás módszerei I. Outline. A mintaválasztás A mintaválasztás célja. Notes. Notes. Notes. 13. hét. Daróczi Gergely december 8.

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Heckman modell. Szelekciós modellek alkalmazásai.

Centura Szövegértés Teszt

Biomatematika 13. Varianciaanaĺızis (ANOVA)

[Biomatematika 2] Orvosi biometria

TÁRKI ADATFELVÉTELI ÉS ADATBANK OSZTÁLYA. Változás SPSS állomány neve: Budapest, 2002.

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Az első számjegyek Benford törvénye

Statisztika elméleti összefoglaló

PLATFORMOK, KÉPERNYŐK ÉS NÉZŐK

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

A társadalomkutatás módszerei I.

Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

TELEVÍZIÓS KÍNÁLAT ÉS FOGYASZTÁS. Vörös Csilla Február 27.

Függetlenségvizsgálat, Illeszkedésvizsgálat

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Kistérségi gazdasági aktivitási adatok

Több valószínűségi változó együttes eloszlása, korreláció

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Biomatematika 2 Orvosi biometria

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Normális eloszlás tesztje

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Asszociációs szabályok

Többváltozós lineáris regressziós modell feltételeinek

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

BIOMETRIA (H 0 ) 5. Előad. zisvizsgálatok. Hipotézisvizsg. Nullhipotézis

[Biomatematika 2] Orvosi biometria

V. Gyakorisági táblázatok elemzése

[Biomatematika 2] Orvosi biometria

Jelentés a Diagnosztikus fejlődésvizsgáló rendszer alkalmazásáról a 2018/2019. tanévben

Átírás:

TV-nézettség mérése TV-nézőmérő rendszer és lehetséges torzítása Előadó: Zempléni András Minden országban működik Célja: visszajelzés a TV-műsorok készítőinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézők gombnyomással jeleznek Problémák a mérőeszköznél Adatszolgáltatók köre: panel Vajon néz-e a nézőnek bejelentkezett? Elfelejtkezhet bejelentkezni Megoldási kísérletek: időnkénti kontroll-kérdések telefonos ellenőrzés adatok szűrése kiválasztás: évenként elvégzett széleskörű felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás A súlyozás Kérdések a súlyozásnál figyelembe veendő változókra vonatkozóan Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása) Mely változókat (változó - kombinációkat) válasszuk? Melyek legyenek a súlyozás kategóriái?

Kérdések a súlyozásról Példa RIM weighting súlyozásra Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái? Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését Példa: Két változó, két-két értékkel, különböző súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó Képzeletbeli példa universek Képzeletbeli példa panel A népesség (universe) összetétele Férfi Nő Összesen A panel összetétele Férfi Nő Összesen Városi 1 5 1 5 5 Falusi 1 5 1 5 5 Városi 5 1 35 Falusi 1 4 1 4 Összesen 5 5 5 Összesen 15 5 175 Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak? Súlyozás lépései /1 Súlyozás lépései / A universe összetétele Férfi Nő Összesen (ezer) 5 súlyok Városi 5 5 1 Falusi 4 Összesen 5 5 5 A universe összetétele (ezer) Városi.5 Falusi.65 súlyok Férfi Nő Összesen 5 súlyok 15 15 5 15 15 5 Összesen 5 5 5

átlagsúly Képzeletbeli példa panel és nézettség A súlyok megoszlása A panel összetétele és a becsült nézettség (valószínűség) Városi 5 AMR=.1 Falusi 1 AMR=.3 Férfi Nő Összesen 1 AMR=.1 4 AMR=.3 35 14 Összesen 1 5 5 175 G yako r i ság Túl sok súlyozó változó -> a súlyok nagy szórást mutatnak A súlyok m egoszlása 1998.9.4-én 4 35 3 5 15 1 5 1 8 6 4 5, 9, 33, 37, 41, 45, 49, 53, 57, Súlyozatlan becslés: 455/175=.6 Súlyozott becslés:. 1 5 9 13 17 1 5 9 33 37 41 45 49 53 57 A súlyok koncentrációja A súlyok ingadozása A panel különböző súlyú részeinek hatása 15 Ha a panel az adott változó szerint nem arányos, a súlyok szórása nő 1 9 6 Az előző példában : ha csak 1 változó szerint súlyozunk: max/min=4 3 1 3 4 5 Az egyes % nagyságú csoportok ha mindkét változó szerint súlyozunk: max/min= 1 A becslések megbízhatósága Következtetések Ha valószínűségi modellt alkalmazunk (N Poisson eloszlású a műsor nézői független X,Y-tól): D ( N i1 X Y ) i i N D ( X( iyi ) ( XY ) ( ) X mx )( ( Y my ) )( ) i1 XY mxy X mx Y my Azokat a változókat célszerű súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Célszerű kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból Alacsony esetszámú kategória (<5 paneltag) nézettségére vonatkozó becslés szórása igen nagy

A változók hatásának vizsgálata Clusteranalízis Cluster-analízis A módszer lényege: több számértékkel egyidejűleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 1 hetes időszakban mennyit nézték az egyes csatornákat (külön-külön, idősávonként, ill. összesítve). Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (előre rögzített clusterszámmal dolgozunk, iterációs eljárás) ezt használtuk a TVnézettségnél. hierarchikus eljárások (n-ről egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.) A nézettségi adatok clusterei (k-közép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben A clusterek elhelyezkedése Cluster sorszáma 1 3 4 MTV1 65 165 5 37 7 6 MTV 5 18 4 3 Duna TV 3 1 4 3 M 5 T 4 V 3 1 1 Cluster 4 TV 7 4 85 8 67 6 4 45 3 1 TV RTL Klub 3 RTL Klub 49 31 34 4 1 A clusterek vizsgálata A Kruskal-Wallis statisztika Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérőszám az úgynevezett Kruskal- Wallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között. 1 K N( N 1) N 1 ni( Ri ) N a teljes minta elemszáma (kb. 16) R i az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga n i az i-edik csoport elemszáma i

átlagsúly átlagsúly Néhány korcsoport szerepe Néhány kevésbé fontos változó Chi-négyzet 15-9 78. 4-14 7. 3-49 33.9 3-34 13.9 35-39 8. Chi-négyzet Borsod, Heves megye 11.4 Baranya, Tolna, Somogy megye 6. Fejér, Veszprém, Zala megye 3. Városi nő 3.8 Kisvárosi harmincas nő 3.1 A változók kiválasztása Az új súlyok koncentrációja Tesztek a különböző kategória-rendszerekkel: A 6-as panel különböző súlyú részeinek hatása 15 A 84-es panel különböző súlyú részeinek hatása 15 iterációk konvergenciája 1 1 kritikus csoportok vizsgálata külön-külön 9 9 telefon szükséges (felhasználók elvárása) jövedelem beválasztása jelentősen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerű 6 3 1 3 4 5 Az egyes % nagyságú csoportok 6 3 1 3 4 5 Az egyes % nagyságú csoportok A változók számának csökkentése után adódó súlyok A becslések szórásának vizsgálata Az egymás utáni napok közötti súlyok korrelációja közel.99 a súlyok szórása kisebb a 98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli. A megfigyelések nem függetlenek! családon belüli (kényszerű) kapcsolat: az egymáshoz közeli időpontokban nagyon hasonló a műsorok nézőinek összetétele Kérdés: valójában hány elemű mintának felel meg a panel? Kérdés: mekkora is ez a szórás?

A bootstrap eljárás Alkalmazása Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató paneleket generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra. X c, X,...X n a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggőség szórásra gyakorolt hatása vizsgálható a módszerrel. A szórások összehasonlítása A két szórás alakulása egy nap során (átlagos percenkénti nézettség, AMR) Elméleti érték: p ˆ(1 pˆ ) n A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol p i az egyes mintáknál kapott becslés, pedig ezek átlaga p 1 n 1 ( p p) i.14.1.1.8.6.4. RTLSZ. RTLELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC A két szórás hányadosa A két szórás hányadosa a 18-49 évesek, mint célcsoport esetén Nem függ szignifikánsan az időponttól a nézettségtől Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentősen eltérhet.1.1.8.6.4.. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 MTV1SZ MTV1ELMS PERC

A szórások hányadosa a főbevásárlók, mint célcsoport esetén Ha a főbevásárlókat tekintjük, nincs családon belüli összefüggés. 1.4 SHANY 1.3 1..1 1.1 1. TVSZ.9 Observed. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 TVELMS.8..1..3 Linear PERC ATL A bootstrap mintákból kapott becslés szórása Alapozó felmérés Az előző ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsőségesebb - a súlyok szórása mintegy 1%-kal magasabb - (hiszen a minta természetszerűleg kevésbé arányos) és ez növeli a kapott becslések szórását. 8. család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézőméréshez való viszonyt is rögzíti (több, mint 5% nem vállalja a részvételt) Az esetleges torzítás vizsgálata A becsült és a megfigyelt TV üzemórák összehasonlítása Számszerűsítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslő háztartásokból álljanak a mintapanelok. Ez így még nem egyértellmű, a későbbiekben térünk vissza a lehetséges megoldási módokra. TUHETI: a háztartásonként mért heti össz-tv üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 36 37.4 TUHETI 114 13 47.98

1 1 8 6 4 Boot-átlag hivatalos A torzítás Az eltérések vizsgálata A fenti két populáció metszete azokból áll, akik a panelbe kerültek az alapozó felmérésből, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézőmérő rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 5 3.73 vállalk. () 4451 36 43.7 beszerelt (3) 35 7 14 45.7 Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = és = 3 csoportok között. A torzítás számszerűsítése Az egyes csatornák és idősávok nézettsége 1,95,9116 5,64,94819 Bootstrap korrekció Bootstrap mintákat generálva, melyek (esetleg becsült) ORAHETI értékeinek megoszlása megegyezik az alapozó felmérésben megfigyelttel M1411_1 TV411_1 M1411_ TV411_ M1411_3 TV411_3 M1411_4 TV411_4 M1411_5 TV411_5