Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése

Hasonló dokumentumok
Megoldási kísérletek:

Megoldási kísérletek:

Megoldási kísérletek:

Megoldási kísérletek:

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Statisztika Elıadások letölthetık a címrıl

DIGITÁLIS ÁTÁLLÁS HATÁSA A NÉZETTSÉGMÉRÉSRE DIGITÁLIS KORREKTÚRA Vörös Csilla március 19.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Biometria gyakorló feladatok BsC hallgatók számára

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Hipotézis vizsgálatok

[Biomatematika 2] Orvosi biometria

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Biostatisztika VIII. Mátyus László. 19 October

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

A GDP hasonlóképpen nem tükrözi a háztartások közötti munka- és termékcseréket.

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Eloszlás-független módszerek 13. elıadás ( lecke)

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

Statisztika elméleti összefoglaló

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

[Biomatematika 2] Orvosi biometria. Visegrády Balázs

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Adatok statisztikai értékelésének főbb lehetőségei

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Omnibusz 2003/08. A kutatás dokumentációja. Teljes kötet

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A maximum likelihood becslésről

Több valószínűségi változó együttes eloszlása, korreláció

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Mérési hibák

VIZSGADOLGOZAT. I. PÉLDÁK (60 pont)

KÖVETKEZTETŐ STATISZTIKA

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Kutatásmódszertan és prezentációkészítés

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Korrelációs kapcsolatok elemzése

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

y ij = µ + α i + e ij

Bevezetés a hipotézisvizsgálatokba

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Valószín ségszámítás és statisztika Gyakorlat (Kétmintás próbák)

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Segítség az outputok értelmezéséhez

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

Mérési adatok illesztése, korreláció, regresszió

III. Képességvizsgálatok

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Hipotéziselmélet - paraméteres próbák. eloszlások. Matematikai statisztika Gazdaságinformatikus MSc szeptember 10. 1/58

A Statisztika alapjai

Variancia-analízis (VA)

[Biomatematika 2] Orvosi biometria

Függetlenségvizsgálat, Illeszkedésvizsgálat

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Többváltozós lineáris regressziós modell feltételeinek

Többszempontos variancia analízis. Statisztika I., 6. alkalom

Mintavételi eljárások

Normális eloszlás tesztje

(Independence, dependence, random variables)

Varianciaanalízis 4/24/12

Lineáris regresszió vizsgálata resampling eljárással

6. Előadás. Vereb György, DE OEC BSI, október 12.

Asszociációs szabályok

Biomatematika 2 Orvosi biometria

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Biomatematika 13. Varianciaanaĺızis (ANOVA)

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Matematikai geodéziai számítások 6.

IV. Változók és csoportok összehasonlítása

Statisztika. Politológus képzés. Daróczi Gergely április 24. Politológia Tanszék

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI OMNIBUSZ 2004/05. A kutatás dokumentációja

A társadalomkutatás módszerei I. Outline. A mintaválasztás A mintaválasztás célja. Notes. Notes. Notes. 13. hét. Daróczi Gergely december 8.

Az első számjegyek Benford törvénye

[Biomatematika 2] Orvosi biometria

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai geodéziai számítások 6.

Átírás:

TV-nézettség mérése TV-néz nézımérı rendszer és lehetséges torzítása Elıadó: Zempléni András Minden országban mőködik Célja: visszajelzés a TV-mősorok készítıinek reklámok által elért közönség becslése Eszköze: TV-n nézett csatornát regisztráló készülék, a nézık gombnyomással jeleznek Problémák a mérıeszköznél Adatszolgáltatók köre: : panel Vajon néz-e a nézınek bejelentkezett? Elfelejtkezhet bejelentkezni Megoldási kísérletek: idınkénti kontroll-kérdések telefonos ellenırzés adatok szőrése kiválasztás: évenként elvégzett széleskörő felmérés (Establishment Survey, Alapozó felmérés) alapján cél: minél jobban reprezentálja az ország lakosságát valóság: nem teljes az egyezés korrekció: súlyozás A súlyozás Kérdések a súlyozásnál figyelembe veendı változókra vonatkozóan Célja: a minta kiegyenlítése, az alapozó felmérés, ill. a mikrocenzus alapján számított esetszámok (universe-k) beállítása Lehetséges módszerek: Cellamátrix (többdimenziós együttes eloszlás minden cellájára) RIM weighting (marginálisok súlyozása) Mely változókat (változó - kombinációkat) válasszuk? Melyek legyenek a súlyozás kategóriái?

Kérdések a súlyozásról Példa RIM weighting súlyozásra Melyik módszerrel? Ha kevés a változó, a cellamátrix, egyébként a marginális-súlyozás a reális Magyarországon ez utóbbi módszert alkalmazzák (RIM weighting). Mely változókat (változó - kombinációkat) válasszuk? Mik legyenek a súlyozás kategóriái? Ha egy változó nem szerepel a súlyozásban, az adott - esetleg kiegyenlítetlen - panel torzíthatja a nézettség becslését Példa: Két változó, két-két értékkel, különbözı súlyozási kategóriákkal: súlyozás nélkül csak az egyik változó súlyozó mindkét változó súlyozó Képzeletbeli példa universek Képzeletbeli példa panel A népesség (universe) összetétele Férfi Nı Összesen Városi 1 5 1 5 5 Falusi 1 5 1 5 5 Összesen 5 5 5 A panel összetétele Férfi Nı Összesen Városi 5 1 35 Falusi 1 1 Összesen 15 5 175 Kérdés: hogyan súlyozzunk, hogy a súlyozás utáni minta peremeloszlásai megfeleljenek a teljes populációnak? Súlyozás lépései /1 Súlyozás lépései / A universe összetétele Férfi Nı Összesen (ezer) 5 súlyok Városi 5 5 1 Falusi Összesen 5 5 5 A universe összetétele (ezer) Városi.5 Falusi.65 súlyok Férfi Nı Összesen 5 súlyok 15 15 5 15 15 5 Összesen 5 5 5

Képzeletbeli példa panel és nézettség A súlyok megoszlása A panel összetétele és a becsült nézettség (valószínőség) Városi 5 AMR=.1 Falusi 1 AMR=.3 Férfi Nı Összesen 1 AMR=.1 AMR=.3 35 1 Összesen 1 5 5 175 Súlyozatlan becslés: 455/175=.6 Súlyozott becslés:. Gyakori ság Túl sok súlyozó változó -> a súlyok nagy szórást mutatnak A súlyok m egoszlása 1998.9.4-én 35 3 5 15 1 5 1 5 9 13 17 1 5 9 33 37 41 1 8 6 4 5, 9, 45 49 53 57 33, 37, 41, 45, 49, 53, 57, A súlyok koncentrációja A súlyok ingadozása átlagsúly A panel különbözı súlyú részeinek hatása 1 5 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok Ha a panel az adott változó szerint nem arányos, a súlyok szórása nı Az elızı példában : ha csak 1 változó szerint súlyozunk: max/min=4 ha mindkét változó szerint súlyozunk: max/min= 1 A becslések megbízhatósága Következtetések Ha valószínőségi modellt alkalmazunk (N Poisson eloszlású a mősor nézıi független X,Y-tól): N D ( X Y ) λ σ λ σ σ + i= 1 i i N D = ( X( iyi ) = λ ( σ XY ) = λ( ) σ X + m X )( σ( Y + my ) )( ) i= 1 XY + mxy = X + mx Y my X: súlyok, Y:nézettség. X szórása is növeli a becslés szórását. Nagyobb panel esetén a becslések szórása csökken Alacsony esetszámú kategória (<5 paneltag) nézettségére vonatkozó becslés szórása igen nagy Azokat a változókat célszerő súlyozó változónak választani, amelyek hatnak a TV nézési szokásokra napi kiegyenlítettsége fontos a felhasználók számára Célszerő kihagyni azokat, amelyek nem fontosak, de viszonylag kiegyenlítetlen a minta az adott szempontból

A változók hatásának vizsgálata Clusteranalízis Cluster-analízis A módszer lényege: több számértékkel egyidejőleg jellemzett megfigyelések csoportosítása a távolságuk alapján A megfigyelések: az egyes panel-tagok a vizsgált 1 hetes idıszakban mennyit nézték az egyes csatornákat (külön-külön, idısávonként, ill. összesítve). Cél: sokdimenziós megfigyelések csoportosítása Módszerek: 1. k-közép módszer (elıre rögzített clusterszámmal dolgozunk, iterációs eljárás) ezt használtuk a TVnézettségnél. hierarchikus eljárások (n-rıl egyesével csökken a clusterszám, definiálni kell a megállás helyét) Minden esetben definiálni kell clusterek távolságát (középpontok távolsága, minimális/maximális elemenkénti távolság, stb.) A nézettségi adatok clusterei (k-középközép módszer); a legfontosabb TV csatornák átlagos nézettsége az egyes clusterekben A clusterek elhelyezkedése Cluster sorszáma 1 3 4 MTV1 65 165 5 37 MTV 5 18 4 3 Duna TV 3 1 4 3 TV 7 4 85 RTL Klub 49 31 34 4 M T V 1 7 6 5 3 1 8 6 TV 1 5 3 RTL Klub 6 7 Cluster 4 3 1 A clusterek vizsgálata A Kruskal-Wallis statisztika Elemeztük a csoportok összetételét. A változókat rangsorolhatjuk aszerint, hogy mennyire különböznek az egyes clusterek között. A legfontosabbak azok, amelyek nagy eltérést mutatnak. A mérıszám az úgynevezett Kruskal- Wallis próbastatisztika, amely chi-négyzet eloszlású, ha csak véletlen eltérés van a csoportok között. 1 K = N( N + 1) N + 1 ni( Ri ) N a teljes minta elemszáma (kb. 16) R i az i-edik csoporthoz tartozó elemek rangjainak (a nagyság szerinti sorban elfoglalt helyei sorszámának) átlaga n i az i-edik csoport elemszáma i

Néhány korcsoport szerepe Néhány kevésbé fontos változó Chi-négyzet 15-9 78. 4-14 7. 3-49 33.9 3-34 13.9 35-39 8. Chi-négyzet Borsod, Heves megye 11.4 Baranya, Tolna, Somogy megye 6. Fejér, Veszprém, Zala megye 3. Városi nı 3.8 Kisvárosi harmincas nı 3.1 A változók kiválasztása Az új súlyok koncentrációja Tesztek a különbözı kategória-rendszerekkel: iterációk konvergenciája kritikus csoportok vizsgálata külön-külön telefon szükséges (felhasználók elvárása) jövedelem beválasztása jelentısen növeli a szórást alsó két iskolázottsági kategória (<8 oszt., = 8 oszt.) összevonása célszerő átlagsúly A 6-as panel különbözı súlyú részeinek hatása 15 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok átlagsúly A 84-es panel különbözı súlyú részeinek hatása 15 1 9 6 3 1 3 4 5 Az egyes % nagyságú csoportok A változók számának csökkentése után adódó súlyok A becslések szórásának vizsgálata Az egymás utáni napok közötti súlyok korrelációja közel.99 a súlyok szórása kisebb a 98-as érték harmadánál A súlyozás (ideális esetben, azaz amikor a universe esetszámok pontosak és teljesül a függetlenség) nem okoz torzítást, legfeljebb a szórást növeli. Kérdés: mekkora is ez a szórás? A megfigyelések nem függetlenek! családon belüli (kényszerő) kapcsolat: az egymáshoz közeli idıpontokban nagyon hasonló a mősorok nézıinek összetétele Kérdés: valójában hány elemő mintának felel meg a panel?

A bootstrap eljárás A becslések szórásának vizsgálata bootstrap módszerrel Véletlen, az adott napi panellel családlétszám szerint azonos megoszlást mutató paneleket generálunk. A súlyozási eljárást minden egyes panelre külön-külön elvégezzük Így panelenként kapunk becslést a nézettségi adatokra. A módszer matematikai háttere: X c, X,...X n : ftlen, azonos, F eloszlású. F n a tapasztalati eloszlásfv. Új (bootstrap) minta a tapasztalati eloszlásból: x* Ennek feltételes szórásnégyzete: * x(1 x) D ( X ) = n Alkalmazása A szórások összehasonlítása X c, X,...X n a panel által adott percben szolgáltatott adatok. A mintákat a panelból vesszük, a nézettségi adatok nem változnak. Gond: nem függetlenek a panel-tagok, de az összefüggıség szórásra gyakorolt hatása vizsgálható a módszerrel. Elméleti érték: A bootstrap minták révén megfigyelt (tapasztalati) szórás: ahol p i az egyes mintáknál kapott becslés, p pedig ezek átlaga p ˆ(1 pˆ ) n 1 ( pi p) n 1 A két szórás alakulása egy nap során (átlagos percenkénti nézettség,, AMR) A két szórás hányadosa.14.1.1.8.6.4.. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC RTLSZ RTLELMS Nem függ szignifikánsan az idıponttól a nézettségtıl Lényeges viszont a vizsgált célcsoport, hiszen az összefüggés mértéke jelentısen eltérhet

A két szórás hányadosa a 18-49 évesek,, mint célcsoport esetén A szórások hányadosa a fıbevásárlók,, mint célcsoport esetén.1..1.8.6.4.. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC MTV1SZ MTV1ELMS.1. 1 145 89 433 577 71 865 19 1153 197 73 17 361 55 649 793 937 181 15 1369 PERC TVSZ TVELMS Ha a fıbevásárlókat tekintjük, nincs családon belüli összefüggés A bootstrap mintákból kapott becslés szórása SHANY 1.4 1.3 1. 1.1 1..9.8. ATL.1..3 Observed Linear Az elızı ábra szerint a bootstrap mintákból kapott becslés szórása néhány százalékkal nagyobb a vártnál. Az ok: a bootstrap mintákra kapott súlyozás szélsıségesebb - a súlyok szórása mintegy 1%-kal magasabb - (hiszen a minta természetszerőleg kevésbé arányos) és ez növeli a kapott becslések szórását. Mősorok, kampányok A szórások hányadosa különbözı kampányokra Nemzetközi tapasztalat: a reach/amr hányados növekedésével (azaz ahogy nı a legalább 1 percre elért populáció és az adott percben nézık számának aránya) csökken a becslés szórása (és így a szórás-hányados is) A különbözı mősorok meglehetısen eltérı viselkedést mutattak, ezért célszerőbb volt különbözı sorozatok, ill. kampányok vizsgálata 1.6 1.4 1. 1..8.6.4. 4 6 8 1 1 14 16 Predicted Values REAPERAT SHANY REAPERAT

A nemlineáris regresszió képlete Következtetések b+(max-b)/[a(r-1)+1] A paraméterek szemléletes jelentése: a adja meg a görbe meredekségét b a legkisebb, elvileg elérhetı szóráshányados (ha az R=reach/AMR hányados végtelenhez tart) max pedig a reach/amr=1 értékhez tartozó szórás-hányados A bootstrap elemzés megmutatta, hogy az AMR becslések szórása valamelyest (legfeljebb 3%-kal) nagyobb, mint ami az elméleti becslés lenne viszont a kampányok, sorozatok esetén a reach/amr hányados növekedtével akár az elméleti érték negyedére is csökkenhet a szórás. Alapozó felmérés Az esetleges torzítás vizsgálata 8. család, reprezentatív minta gond: nem mindenkit lehet elérni, ill. nem mindenki válaszol a kérdésekre a család szociológiai viszonyait vizsgálja a nézıméréshez való viszonyt is rögzíti (több, mint 5% nem vállalja a részvételt) Számszerősítés: a becsült és a ténylegesen megfigyelt TV-nézés (heti össz üzemóra) vizsgálata Bootstrap elemzés: a teljes alapozó felméréspopulációval azonos eloszlású TV üzemórát becslı háztartásokból álljanak a mintapanelok. Ez így még nem egyértellmő, a késıbbiekben térünk vissza a lehetséges megoldási módokra. A becsült és a megfigyelt TV üzemórák összehasonlítása A torzítás TUHETI: a háztartásonként mért heti össz-tv üzemórák átlaga ÓRAHETI pedig az Alapozó Felmérésben elozetesen bevallott heti TV üzemóra. N Min Max Átlag ÓRAHETI 11453 36 37.4 TUHETI 114 13 47.98 A fenti két populáció metszete azokból áll, akik a panelbe kerültek az alapozó felmérésbıl, ezért az eltérés csak a becslés bizonytalanságát mutatatja. Viszont, ha az ORAHETI értékét a nézımérı rendszerhez való viszony függvényében vizsgáljuk: AGBMER N Min Max Átlag elutasít (1) 6458 5 3.73 vállalk. () 4451 36 43.7 beszerelt (3) 35 7 14 45.7

1 1 8 6 4 B o o t - á t l a g h i v a t a l o s Az eltérések vizsgálata A torzítás számszerősítése Az ORAHETI értékek eltérésének szignifikanciáját kétmintás t-próbával vizsgálhatjuk: Az AGBMER = 1 és = csoportok közötti eltérés szignifikáns nem sziginifikáns az eltérés az AGBMER = és = 3 csoportok között. Bootstrap mintákat generálva, melyek (esetleg becsült) ORAHETI értékeinek megoszlása megegyezik az alapozó felmérésben megfigyelttel Az egyes csatornák és idısávok nézettsége Az arányok 1, 9 5, 9 1 1 6 5, 6 4, 9 4 8 1 9 M141 1 _ 1 TV 4 11 _ 1 M 141 1 _ TV 4 11 _ B o o t s t r a p k o r r e k c i ó M1 41 1_ 3 TV 4 11 _ 3 M141 1 _ 4 T V 4 11 _ 4 M141 1 _ 5 TV411 _ 5,94886,94774,84637,88369 1,,883994,894564 1,869939,9734,8,934537,6 1,55,9437,4,959915,9536,,974566,87583,9116,94819 M1411_1 TV411_1 A boot-átlag és a hivatalos adat aránya M1411_ Bootstrap korrekció TV411_ M1411_3 TV411_3 M1411_4 TV411_4 M1411_5 TV411_5 hányados