Megoldási kísérletek:

TV-néz nézımérı rendszer és lehetséges torzítása Elıadó: Zempléni András TV-nézettség mérése Minden országban mőködik Célja: visszajelzés a TV-mősorok készítıinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézık gombnyomással jeleznek Problémák a mérıeszköznél Vajon néz-e a nézınek bejelentkezett? Elfelejtkezhet bejelentkezni Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése Adatszolgáltatók köre: : panel kiválasztás: évenként elvégzett széleskörő felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás A súlyozás Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása) Kérdések a súlyozásnál figyelembe veendı változókra vonatkozóan Mely változókat (változó - kombinációkat) válasszuk? Melyek legyenek a súlyozás kategóriái?

Kérdések a súlyozásról Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái? Példa RIM weighting súlyozásra Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését Példa: Két változó, két-két értékkel, különbözı súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó Képzeletbeli példa universek A népesség (universe) összetétele Férfi Nı Összesen Városi 1 5 1 5 5 Falusi 1 5 1 5 5 Összesen 5 5 5 Képzeletbeli példa panel A panel összetétele Férfi Nı Összesen Városi 5 1 35 Esetszámok Falusi 1 4 1 4 Összesen 15 5 175 Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak? Súlyozás lépései /1 A universe összetétele Férfi Nı Összesen (ezer) 5 súlyok Városi 5 5 1 Súlyozott esetszámok Falusi 4 Összesen 5 5 5 Súlyozás lépései / A universe összetétele (ezer) Városi.5 Falusi.65 súlyok Férfi Nı Összesen 5 súlyok 15 15 5 Súlyozott esetszámok 15 15 5 Összesen 5 5 5

Képzeletbeli példa panel és nézettség A panel összetétele és a becsült nézettség (valószínőség) Városi 5 AMR=.1 Falusi 1 AMR=.3 Férfi Nı Összesen 1 AMR=.1 4 AMR=.3 35 14 Összesen 1 5 5 175 Súlyozatlan becslés: 455/175=.6 Súlyozott becslés:. Gyakori ság Túl sok súlyozó változó -> a súlyok nagy szórást mutatnak A súlyok m egoszlása 1998.9.4-én 4 35 3 5 15 1 5 1 5 9 A súlyok megoszlása 13 17 1 5 9 33 37 1 41 8 6 4 5, 45 9, 49 33, 53 37, 57 41, 45, 49, 53, 57, átlagsúly A súlyok koncentrációja A panel különbözı súlyú részeinek hatása 1 5 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok A súlyok ingadozása Ha a panel az adott változó szerint nem arányos, a súlyok szórása nı Az elızı példában : ha csak 1 változó szerint súlyozunk: max/min=4 ha mindkét változó szerint súlyozunk: max/min= 1 A becslések megbízhatósága Ha valószínőségi modellt alkalmazunk (N Poisson eloszlású a mősor nézıi független X,Y-tól): N D ( X Y ) + i= 1 i i N D = ( λ X( iyi ) σ= λ ( σ XY ) = λ( ) σ X + m X )( σ( Y + my ) )( ) i= 1 XY + mxy = λ σ X + mx σ Y my X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Alacsony esetszámú kategória (<5 paneltag) nézettségére vonatkozó becslés szórása igen nagy Következtetések Azokat a változókat célszerő súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára Célszerő kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból

A változók hatásának vizsgálata Cluster-analízis A módszer lényege: több számértékkel egyidejőleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 1 hetes idıszakban mennyit nézték az egyes csatornákat (külön-külön, idısávonként, ill. összesítve). Clusteranalízis Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (elıre rögzített clusterszámmal dolgozunk, iterációs eljárás) ezt használtuk a TVnézettségnél. hierarchikus eljárások (n-rıl egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.) A nézettségi adatok clusterei (k-középközép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben Cluster sorszáma 1 3 4 MTV1 65 165 5 37 MTV 5 18 4 3 Duna TV 3 1 4 3 TV 7 4 85 RTL Klub 49 31 34 4 A clusterek elhelyezkedése M T V 1 7 6 5 4 3 1 8 6 4 TV 1 4 5 3 RTL Klub 6 7 Cluster 4 3 1 A clusterek vizsgálata Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérıszám az úgynevezett Kruskal- Wallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között. A Kruskal-Wallis statisztika 1 K = N( N + 1) N + 1 ni( Ri ) N a teljes minta elemszáma (kb. 16) R i az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga n i az i-edik csoport elemszáma i

Néhány korcsoport szerepe Chi-négyzet 15-9 78. 4-14 7. 3-49 33.9 3-34 13.9 35-39 8. Néhány kevésbé fontos változó Chi-négyzet Borsod, Heves megye 11.4 Baranya, Tolna, Somogy megye 6. Fejér, Veszprém, Zala megye 3. Városi nı 3.8 Kisvárosi harmincas nı 3.1 A változók kiválasztása Tesztek a különbözı kategória-rendszerekkel: iterációk konvergenciája kritikus csoportok vizsgálata külön-külön telefon szükséges (felhasználók elvárása) jövedelem beválasztása jelentısen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerő átlagsúly 15 1 9 6 3 Az új súlyok koncentrációja A 6-as panel különbözı súlyú részeinek hatása 1 3 4 5 Az egyes % nagyságú csoportok átlagsúly A 84-es panel különbözı súlyú részeinek hatása 15 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok A változók számának csökkentése után adódó súlyok Az egymás utáni napok közötti súlyok korrelációja közel.99 a súlyok szórása kisebb a 98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli. Kérdés: mekkora is ez a szórás? A becslések szórásának vizsgálata A megfigyelések nem függetlenek! családon belüli (kényszerő) kapcsolat: az egymáshoz közeli idıpontokban nagyon hasonló a mősorok nézıinek összetétele Kérdés: valójában hány elemő mintának felel meg a panel?

A bootstrap eljárás Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató paneleket generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra. A becslések szórásának vizsgálata bootstrap módszerrel A módszer matematikai háttere: X c, X,...X n : ftlen, azonos, F eloszlású. F n a tapasztalati eloszlásfv. Új (bootstrap) minta a tapasztalati eloszlásból: x* Ennek feltételes szórásnégyzete: * x(1 x) D ( X ) = n Alkalmazása X c, X,...X n a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggıség szórásra gyakorolt hatása vizsgálható a módszerrel. A szórások összehasonlítása Elméleti érték: p ˆ(1 pˆ ) n A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol p i az egyes mintáknál kapott becslés, p pedig ezek átlaga 1 ( pi p) n 1 A két szórás alakulása egy nap során (átlagos percenkénti nézettség,, AMR).14.1.1.8.6.4. RTLSZ. RTLELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC A két szórás hányadosa Nem függ szignifikánsan az idıponttól a nézettségtıl Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentısen eltérhet

A két szórás hányadosa a 18-49 évesek,, mint célcsoport esetén.1.1.8.6.4. MTV1SZ. MTV1ELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC A szórások hányadosa a fıbevásárlók,, mint célcsoport esetén..1 TVSZ. TVELMS 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC Ha a fıbevásárlókat tekintjük, nincs családon belüli összefüggés SHANY 1.4 1.3 1. 1.1 1..9 Observed.8 Linear..1..3 ATL A bootstrap mintákból kapott becslés szórása Az elızı ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsıségesebb - a súlyok szórása mintegy 1%-kal magasabb - (hiszen a minta természetszerőleg kevésbé arányos) és ez növeli a kapott becslések szórását. Mősorok, kampányok Nemzetközi tapasztalat: a reach/amr hányados növekedésével (azaz ahogy nı a legalább 1 percre elért populáció és az adott percben nézık számának aránya) csökken a becslés szórása (és így a szórás-hányados is) A különbözı mősorok meglehetısen eltérı viselkedést mutattak, ezért célszerőbb volt különbözı sorozatok, ill. kampányok vizsgálata A szórások hányadosa különbözı kampányokra 1.6 1.4 1. 1..8.6 Predicted Values.4 REAPERAT SHANY. REAPERAT 4 6 8 1 1 14 16

A nemlineáris regresszió képlete b+(max-b)/[a(r-1)+1] A paraméterek szemléletes jelentése: a adja meg a görbe meredekségét b a legkisebb, elvileg elérhetı szóráshányados (ha az R=reach/AMR hányados végtelenhez tart) max pedig a reach/amr=1 értékhez tartozó szórás-hányados Következtetések A bootstrap elemzés megmutatta, hogy az AMR becslések szórása valamelyest (legfeljebb 3%-kal) nagyobb, mint ami az elméleti becslés lenne viszont a kampányok, sorozatok esetén a reach/amr hányados növekedtével akár az elméleti érték negyedére is csökkenhet a szórás. Alapozó felmérés 8. család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézıméréshez való viszonyt is rögzíti (több, mint 5% nem vállalja a részvételt) Az esetleges torzítás vizsgálata Számszerősítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslı háztartásokból álljanak a mintapanelok. A becsült és a megfigyelt TV üzemórák összehasonlítása TUHETI: a háztartásonként mért heti össz-tv üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 36 37.4 TUHETI 114 13 47.98 A torzítás A fenti populáció azokból áll, akik a panelbe kerültek az alapozó felmérésbıl, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézımérı rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 5 3.73 vállalk. () 4451 36 43.7 beszerelt (3) 35 7 14 45.7

Az eltérések vizsgálata Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = és = 3 csoportok között. Összefoglalás A mőszeres mérés megbízhatóságának fı tényezıi 1. Panel kiegyensúlyozottsága a fı szempontok szerint. A panelba kerülı háztartások kiválasztása 3. Panelméret A bizonytalanság számszerősítendı (esetleg késıbb visszatérünk rá)