Megoldási kísérletek:

TV-nézettség mérése TV-nézőmérő rendszer és lehetséges torzítása Előadó: Zempléni András Minden országban működik Célja: visszajelzés a TV-műsorok készítőinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézők gombnyomással jeleznek Problémák a mérőeszköznél Adatszolgáltatók köre: panel Vajon néz-e a nézőnek bejelentkezett? Elfelejtkezhet bejelentkezni Megoldási kísérletek: időnkénti kontroll-kérdések telefonos ellenőrzés adatok szűrése kiválasztás: évenként elvégzett széleskörű felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás A súlyozás Kérdések a súlyozásnál figyelembe veendő változókra vonatkozóan Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása) Mely változókat (változó - kombinációkat) válasszuk? Melyek legyenek a súlyozás kategóriái?

Kérdések a súlyozásról Példa RIM weighting súlyozásra Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái? Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését Példa: Két változó, két-két értékkel, különböző súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó Képzeletbeli példa universek Képzeletbeli példa panel A népesség (universe) összetétele Férfi Nő Összesen A panel összetétele Férfi Nő Összesen Városi 1 5 1 5 5 Falusi 1 5 1 5 5 Városi 5 1 35 Falusi 1 4 1 4 Összesen 5 5 5 Összesen 15 5 175 Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak? Súlyozás lépései /1 Súlyozás lépései / A universe összetétele Férfi Nő Összesen (ezer) 5 súlyok Városi 5 5 1 Falusi 4 Összesen 5 5 5 A universe összetétele (ezer) Városi.5 Falusi.65 súlyok Férfi Nő Összesen 5 súlyok 15 15 5 15 15 5 Összesen 5 5 5

átlagsúly Képzeletbeli példa panel és nézettség A súlyok megoszlása A panel összetétele és a becsült nézettség (valószínűség) Városi 5 AMR=.1 Falusi 1 AMR=.3 Férfi Nő Összesen 1 AMR=.1 4 AMR=.3 35 14 Összesen 1 5 5 175 G yako r i ság Túl sok súlyozó változó -> a súlyok nagy szórást mutatnak A súlyok m egoszlása 1998.9.4-én 4 35 3 5 15 1 5 1 8 6 4 5, 9, 33, 37, 41, 45, 49, 53, 57, Súlyozatlan becslés: 455/175=.6 Súlyozott becslés:. 1 5 9 13 17 1 5 9 33 37 41 45 49 53 57 A súlyok koncentrációja A súlyok ingadozása A panel különböző súlyú részeinek hatása 15 Ha a panel az adott változó szerint nem arányos, a súlyok szórása nő 1 9 6 Az előző példában : ha csak 1 változó szerint súlyozunk: max/min=4 3 1 3 4 5 Az egyes % nagyságú csoportok ha mindkét változó szerint súlyozunk: max/min= 1 A becslések megbízhatósága Következtetések Ha valószínűségi modellt alkalmazunk (N Poisson eloszlású a műsor nézői független X,Y-tól): D ( N i1 X Y ) i i N D ( X( iyi ) ( XY ) ( ) X mx )( ( Y my ) )( ) i1 XY mxy X mx Y my Azokat a változókat célszerű súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Célszerű kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból Alacsony esetszámú kategória (<5 paneltag) nézettségére vonatkozó becslés szórása igen nagy

A változók hatásának vizsgálata Clusteranalízis Cluster-analízis A módszer lényege: több számértékkel egyidejűleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 1 hetes időszakban mennyit nézték az egyes csatornákat (külön-külön, idősávonként, ill. összesítve). Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (előre rögzített clusterszámmal dolgozunk, iterációs eljárás) ezt használtuk a TVnézettségnél. hierarchikus eljárások (n-ről egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.) A nézettségi adatok clusterei (k-közép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben A clusterek elhelyezkedése Cluster sorszáma 1 3 4 MTV1 65 165 5 37 7 6 MTV 5 18 4 3 Duna TV 3 1 4 3 M 5 T 4 V 3 1 1 Cluster 4 TV 7 4 85 8 67 6 4 45 3 1 TV RTL Klub 3 RTL Klub 49 31 34 4 1 A clusterek vizsgálata A Kruskal-Wallis statisztika Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérőszám az úgynevezett Kruskal- Wallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között. 1 K N( N 1) N 1 ni( Ri ) N a teljes minta elemszáma (kb. 16) R i az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga n i az i-edik csoport elemszáma i

átlagsúly átlagsúly Néhány korcsoport szerepe Néhány kevésbé fontos változó Chi-négyzet 15-9 78. 4-14 7. 3-49 33.9 3-34 13.9 35-39 8. Chi-négyzet Borsod, Heves megye 11.4 Baranya, Tolna, Somogy megye 6. Fejér, Veszprém, Zala megye 3. Városi nő 3.8 Kisvárosi harmincas nő 3.1 A változók kiválasztása Az új súlyok koncentrációja Tesztek a különböző kategória-rendszerekkel: A 6-as panel különböző súlyú részeinek hatása 15 A 84-es panel különböző súlyú részeinek hatása 15 iterációk konvergenciája 1 1 kritikus csoportok vizsgálata külön-külön 9 9 telefon szükséges (felhasználók elvárása) jövedelem beválasztása jelentősen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerű 6 3 1 3 4 5 Az egyes % nagyságú csoportok 6 3 1 3 4 5 Az egyes % nagyságú csoportok A változók számának csökkentése után adódó súlyok A becslések szórásának vizsgálata Az egymás utáni napok közötti súlyok korrelációja közel.99 a súlyok szórása kisebb a 98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli. A megfigyelések nem függetlenek! családon belüli (kényszerű) kapcsolat: az egymáshoz közeli időpontokban nagyon hasonló a műsorok nézőinek összetétele Kérdés: valójában hány elemű mintának felel meg a panel? Kérdés: mekkora is ez a szórás?

A bootstrap eljárás Alkalmazása Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató paneleket generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra. X c, X,...X n a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggőség szórásra gyakorolt hatása vizsgálható a módszerrel. A szórások összehasonlítása A két szórás alakulása egy nap során (átlagos percenkénti nézettség, AMR) Elméleti érték: p ˆ(1 pˆ ) n A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol p i az egyes mintáknál kapott becslés, pedig ezek átlaga p 1 n 1 ( p p) i.14.1.1.8.6.4. RTLSZ. RTLELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC A két szórás hányadosa A két szórás hányadosa a 18-49 évesek, mint célcsoport esetén Nem függ szignifikánsan az időponttól a nézettségtől Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentősen eltérhet.1.1.8.6.4.. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 MTV1SZ MTV1ELMS PERC

A szórások hányadosa a főbevásárlók, mint célcsoport esetén Ha a főbevásárlókat tekintjük, nincs családon belüli összefüggés. 1.4 SHANY 1.3 1..1 1.1 1. TVSZ.9 Observed. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 TVELMS.8..1..3 Linear PERC ATL A bootstrap mintákból kapott becslés szórása Alapozó felmérés Az előző ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsőségesebb - a súlyok szórása mintegy 1%-kal magasabb - (hiszen a minta természetszerűleg kevésbé arányos) és ez növeli a kapott becslések szórását. 8. család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézőméréshez való viszonyt is rögzíti (több, mint 5% nem vállalja a részvételt) Az esetleges torzítás vizsgálata A becsült és a megfigyelt TV üzemórák összehasonlítása Számszerűsítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslő háztartásokból álljanak a mintapanelok. Ez így még nem egyértellmű, a későbbiekben térünk vissza a lehetséges megoldási módokra. TUHETI: a háztartásonként mért heti össz-tv üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 36 37.4 TUHETI 114 13 47.98

1 1 8 6 4 Boot-átlag hivatalos A torzítás Az eltérések vizsgálata A fenti két populáció metszete azokból áll, akik a panelbe kerültek az alapozó felmérésből, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézőmérő rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 5 3.73 vállalk. () 4451 36 43.7 beszerelt (3) 35 7 14 45.7 Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = és = 3 csoportok között. A torzítás számszerűsítése Az egyes csatornák és idősávok nézettsége 1,95,9116 5,64,94819 Bootstrap korrekció Bootstrap mintákat generálva, melyek (esetleg becsült) ORAHETI értékeinek megoszlása megegyezik az alapozó felmérésben megfigyelttel M1411_1 TV411_1 M1411_ TV411_ M1411_3 TV411_3 M1411_4 TV411_4 M1411_5 TV411_5