Matematikai statisztika Gazdaságinformatikus MSc 7. előadás 2018. október 15. 1/61
Olyan statisztikai módszerek tartoznak ide, melyek lehetővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot.a redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. (volt) Faktor- és főkomponens Klaszternanĺızis, diszkriminancia 2/61
Adott: egy olyan adatállomány, amelyet valamilyen megadott külső objektumokra (pl. tárgyakra, személyekre) vonatkozó hasonlósági vagy különbözőségi adatok (általában skálázott szubjektív vélemények, vagy észlelt különbségek) alkotnak. Cél: olyan geometriai reprezentációk létrehozása a hasonlósági vagy különbözőségi adatokból, amelyek az adott külső tárgyak (észlelt) viszonyát egy megfelelő dimenziójú geometriai térben a lehető legpontosabban tükrözik vissza. Az eljárás eredménye mindig egy ponthalmaz egy adott dimenziójú geometriai térben. A ponthalmaz képe alapján kísérletet tehetünk koordinátatengelyek megadására, amivel rejtett dimenziókat tárhatunk fel. 3/61
Példák: Gépkicsivásárlásnál milyen szempontokat vesznek figyelembe az emberek? (A gazdaságosságot? A megbízhatóságot? A kényelmet? A sportosságot?) Egy politikusra történő szavazásnál milyen szempontok alapján döntenek a szavazók? (Párthoz tartozása alapján? Az adózásról, az oktatásügyről vagy az egészségügyről vallott személyes nézetei alapján? Sajtóbeli ismertsége alapján?) Milyen tényezők befolyásolják egy munkacsoport tagjainak egymás közötti beszélgetésének a módját? (A beszélgetők formális státusza, szakmai tudása, szocio-ekonómiai helyzete vagy személyes dominanciája?) 4/61
Ilyen és hasonló kérdésekre próbál az MDS=Multidimensional Scaling alkalmazása választ adni. Az MDS alapgondolata az, hogy az emberek döntéseiket és ítéleteiket a fejükben - kognitív vagy érzelmi rendszerükben - létező belső dimenzióik alapján hozzák meg. Ezek a dimenziók többnyire rejtve vannak még az aktuális döntéshozók vagy véleményalkotók előtt is, de megfelelő technikákkal - faktorsel vagy az MDS módszereivel - feltárhatók és megismerhetők. 5/61
A faktor alkalmazása mellett szól, hogy abba - bizonyos feltételek teljesülése esetén - igen sokféle és eredetileg más célra összegyűjtött adatokból konstruált változó bevonható, míg az MDS alkalmazásához speciálisabb távolság vagy hasonlóság jellegű adatokra van szükség, amelyek általában csak erre a célra tervezett kísérletekben vagy felmérésekben nyerhetők. Ugyanakkor a faktor modellje feltételezi az egyes faktorok lineáris kombinációját, amit a gyakorlatban gyakran semmi sem támaszt alá. A tapasztalat az, hogy ha sikerül alkalmas hasonlósági mértékeket definiálni és azokat megfelelő pontossággal megmérni, akkor az MDS sokszor lényegesen jobb eredményt adhat, mint a faktor. Az eredmények meglepően pontosak és igen jól reprodukálhatóak lehetnek. 6/61
A MDS módszerei arra szolgálnak, hogy segítségükkel adott objektumokra vonatkozó észlelt hasonlósági vagy különbözőségi adatokból szisztematikus módon létrehozhassunk olyan geometriai reprezentációkat, amelyek ezen objektumok észlelt viszonyát egy megfelelően kis dimenziójú térben a lehetőség szerinti legkisebb torzítással tükrözik vissza. Az eljárás eredménye tehát mindig egy ponthalmaz képe - térképe - egy előre meghatározott dimenziójú térben, amelyben az egyes pontok úgy helyezkednek el, hogy egymás közötti távolságaik ismert pontossággal megfelelnek azon objektumok észlelt tulajdonságai közötti különbözőségeknek, amelyekhez ezek a pontok tartoznak. 7/61
Már sokszor ez a szemléletes ábrázolás önmagában is sokat segít az adott jelenség megértésében, ha valamilyen szabályszerűség vagy mintázat fedezhető fel benne, de ez még önmagában nem. Ha azonban az adott térben sikerül olyan koordináta tengelyeket találni, amelyek mentén az objektumok elhelyezkedése jól értelmezhető, akkor ezeknek a tengelyeknek az alkalmas beával minden objektumhoz skálaértékeket rendelhetünk az adott dimenziók mentén. 8/61
Az MDS fő ereje abban áll, hogy például a tisztán pszichológiai eszközökkel nyert különbözőség-érzékelési adatok alapján lehetővé teszi korábban nem ismert, de esetenként meghatározó szerepű dimenziók felismerését. Ezek a különbözőség-érzékelési adatok pedig természetesen akkor is jól mérhetők, ha semmilyen előzetes elképzelésünk nincs arról, hogy az érzékelt különbözőséget milyen dimenziók határozzák meg. 9/61
Adott. Egy n elemű minta x 1,..., x n, mindegyike p változót tartalmaz. Tehát ez n pont a p dimenziós euklideszi térben. Ezt próbáljuk meg alacsonyabb dimenziós térben rekonstruálni. Távolságmátrix. D = {d(x i, x j ) : i, j = 1,..., n}, ahol d a p dimenziós távolságot jelenti. Szeretnénk. Olyan z 1,..., z n pontokat választani egy alacsonyabb dimenziós térben, hogy (d(x i, x j ) ρ(z i, z j )) 2 i,j kicsi, ahol ρ az alacsonyabb dimenziójú térben jelöli a távolságot. 10/61
Mennyire lehet kicsi. Matematikailag leírható, hogy mikor lehet pontosan megadni egy p dimenziós térben n pontot, melyek távolságmátrixa épp D. De ez nem megy mindig, ám így is jó közeĺıtéseket nyerhetünk. 11/61
- Mérő példa Kísérleti személyünk öt főzeléket hasonĺıtott össze páronként minden lehetséges módon. Feladata a párok globális - összbenyomás alapján történő - összehasonĺıtása volt a vonalhosszúság-becslés módszerével: egy 6 cm hosszú szakaszon kellett bejelölni a különbözőség mértékét. 12/61
- Mérő példa 13/61
- Mérő példa 14/61
Az előbbi példa az MDS legegyszerűbb változatát, a CMDS-t (Classical MDS) szemlélteti. A CMDS az MDS legkorábban kidolgozott típusa, amely csupán egyetlen különbözőségi mátrixot - pl. egyetlen személy bizonyos objektumokra vonatkozó különbözőség-érzékelési adatait - képes egyidejűleg kezelni, és megkívánja a bemenő adatoktól a legalább intervallum-skálát (metrikus MDS). A CMDS alkalmazhatósága korlátozott, mert tipikusan több személy adatait szeretnénk egyidejűleg feldolgozni. 15/61
- s-stress A pontosság mérésére három mérőszámunk van (s-stress, stress, RSQ): s-stress. s-stress = Ç i,j (d(x i, x j ) ρ(x i, x j )) 2 i,j d(x i, x j ) 2 å 1 2 stress csak abban tér el az s-stress-től, hogy a formulában nem a távolságok négyzetei, hanem maguk a távolságok szerepelnek. Tehát minél kisebb ez a szám, annál pontosabb a reprezentáció. 16/61
- s-stress 17/61
- s-stress RSQ - az SPSS által kiszámított harmadik illeszkedési mutató - egyszerűen reprezentáció távolságmátrixának és az eredeti és D mátrix megfelelő elemei között kiszámított korrelációs együttható négyzete, amely közvetlenül megadja, hogy az összes varianciának milyen hányadát tudja magyarázni az adott MDS modell. Ennél a mutatónál - az előző kettővel szemben - természetesen az alacsonyabb értékek rosszabb illeszkedést jeleznek. 18/61
Problémák a metrikus CMDS-el: Nincs garancia arra, hogy az emberek hasonlósági ítéleteiket valóban egyenletesen skálázzák (pl. vonalhosszúság-becslés esetén 1 cm általában nagyobb szubjektív különbséget jelent a széleken, mint a vonal közepe felé). Egyes személyek kifejezetten sarkítják a véleményüket. A metrikus CMDS legalább intervallum-skálájú adatokat követel meg, míg a gyakorlatban általában csak ordinális skálájú adataink vannak. 19/61
Ám rangszámok alkalmazása esetén a konfiguráció instabil: az egyes pontok helye megváltoztatható anélkül, hogy a rangsor megváltozna (ugyanahhoz a rangsorhoz több konfiguráció is tartozhat). Jelentős áttörést jelentett azonban a CMDS fejlődésében Shephard (1962) azon felismerése, hogy a pontok számának növelésével az egyes pontok mozgástere radikálisan szűkül. Ebből következően: ha a pontok (objektumok) száma nem túlságosan kicsi a dimenzió-számhoz képest, akkor pusztán az eredeti távolságok sorrendje (tehát egy ordinális skálájú változó) alapján is nagy pontossággal rekonstruálható a kvantitatív konfiguráció. 20/61
A pusztán sorrendi információ alapján történő rekonstrukció két dimenzió és 10 pont esetén már igen pontos, két dimenzió és 15 pont esetén pedig már gyakorlatilag hibátlan. Az ordinális bemenő adatokkal dolgozó CMDS-t nemmetrikus CMDS-nek nevezzük. A nemmetrikus CMDS is csak egyetlen különbözőség-mátrix egyidejű feldolgozására képes, ami erősen korlátozza az alkalmazhatóságát, mert a piackutatásban, termékminősítésben, pszichológiai és szociológiai vizsgálatokban tipikusan több személytől nyert adat egyidejű feldolgozása a cél. 21/61
Az RMDS (Replicated MDS) az MDS egyik olyan típusa, amely már több különbözőségi mátrixot is képes egyidejűleg kezelni. Alapfeltevés: az egyes objektumok különbözőségei bizonyos véletlenszerű hibáktól eltekintve azonos mértékben tükröződnek az m számú személy ítéleteit tartalmazó m számú adat-mátrixban (ezek az adat-mátrixok egymásnak mintegy a megismétlései, replikái). A WMDS (Weighted MDS) az MDS olyan továbbfejlesztett típusa, amely azon túl, hogy a RMDS-hez hasonlóan képes egyidejűleg kezelni több különbözőségi mátrixot is, a válaszok mögött meghúzódó egyéni perceptuális és kognitív folyamatok individuális különbségeiről is bizonyos információkat tud adni. Alapfeltevés: bár a különböző személyek az objektumokat azonos dimenziók mentén ítélik meg, ezen dimenzióknak azonban eltérő fontosságokat tulajdonítanak, azaz ezeket a dimenziókat egyénileg eltérő módon súlyozzák és skálázzák. 22/61
- Példa Egy közvéleménykutató cég megbízásából öt női lap kedveltségét meghatározó dimenziókat vizsgáltuk 35 válaszadó bevonásával. A cél annak meghatározása volt, hogy milyen milyen a vizsgált lapok megítélése az olvasók által használt dimenziók mentén. Módszer. (egyebek között) vélemények kérése az egyes lapok kedveltségéről 5 fokozatú skálán, majd MDS. Az eredményeket esetleges új lapok indításában, illetőleg a meglévők arculatának szükség szerinti módosításában kívánták hasznosítani. 23/61
24/61
25/61
- Térképkészítés 26/61
- Térképkészítés 27/61
28/61
Általában a klaszterezés célkitűzése az, hogy az összetartozó eseteket közös csoportba soroljuk. Összetartozást általában valamilyen metrika fejezi ki. 29/61
30/61
Hogy tegyük ezt meg? (Brute force) Elvileg úgy is eljárhatnánk, hogy az összes lehetséges csoportosításból választjuk ki a legjobbat. De ez nem lehetséges, hiszen ha kiszámoljuk, akkor már 20 elem 4 csoportba osztásából is több van, mint 10ˆ10. Olyan algoritmusok kellenek, amelyek eleve jó csoportosításokat képeznek, amiből egy optimum elv segítségével kiválasztható egy nagyon jó. 31/61
Az alkalmazásokban sokszor problémát okoz a kialakítandó csoportok száma (k) is. Van olyan algoritmus, ami megköveteli az alkalmazásához, hogy megadjuk k-t. Másik alapprobléma, hogy milyen d metrikafüggvény írja le hitelesen az esetek távolságát. Ez különösen fontos, amikor az alakzatvektor koordinátái között diszkrét változók (esetleg nominális szintű) is vannak. A csoportosítás elvégzése után el kell tenni a klaszterek jellemzését. Ezt leíró statisztikákkal, vagy tipikus esetek felsorolásával tudjuk megtenni. 32/61
- K-közép módszer Olyan dinamikus klaszterező eljárás, amikor előre meg kell adni a klaszterek számát. A klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. Az esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. Távolságfüggvény: euklideszi metrika. 33/61
Az algoritmus lépései a következőek (MacQueen, 1967): 1. Kiválasztja a klaszterek számát (k). Véletlenszerűen létrehoz k számú klasztert, és meghatározza minden klaszter közepét, vagy azonnal létrehoz k véletlenszerű klaszter középpontot. 2. Minden egyes pontot abba a klaszterbe sorol, amelynek középpontjához a legközelebb helyezkedik el. 3. Kiszámolja az új klaszter középpontokat. Addig ismétli az előző két lépést, amíg valamilyen konvergencia kritérium nem teljesül (általában az, hogy a besorolás nem változik). 34/61
35/61
Tulajdonságok. Minimalizálja a klasztereken belüli szóródást, azaz K k=1 i,j C(k) d 2 (x i, x j )-t. Előnye. Nagy esetszámú adatmátrix feldolgozható vele. Egyszerű, gyors. Hátránya. A metrika beépített, körülményes a koordinátasúlyozás. Előre meg kell adni a klaszterek számát. 36/61
A K-közép klaszterezés tökéletes Euklideszi-metrikánál, de a K-közép klaszterezés csak numerikus, skálás változóknál alkalmazható. Az euklideszi távolságot biztos nem alkalmazhatjuk abban az esetben, ha néhány változó diszkrét. A K-means algoritmus általánosítását K-medoids klaszterezésnek nevezik, ami tetszőleges metrikával működik. 37/61
Algoritmus. Szintén megadjuk a klaszterszámot az elején és random beosztjuk a pontokat klaszterekbe. Ezután: 1. lépés: Minden klaszterben keressük meg azt a pontot, amitől a többi, ugyanabba a klaszterbe eső pont a legkisebb szóródási mutatót produkálja, tehát az a x C(k), amire minimális j C(k) d 2 (x j, x). 2. lépés: ezek lesznek az új klaszterközéppontok (medoid) 3. lépés: Minden pontot abba a klaszterbe sorolunk, melynek a középpontja hozzá a legközelebb esik. Ismételjük az 1-3. lépéseket, amíg konvergenciakritériumok nem teljesülnek. 38/61
A kezdő klaszterszámot érdemes úgy beálĺıtani, hogy a hiba mértéke már ne csökkenjen túlságosan, ha tovább növeljük a klaszterszámot. 39/61
- Hiearchikus klaszterezés Egyelemű klaszterekből kiindulva, minden lépésben a két legközelebb fekvő klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. A folyamatot regisztráló adatsort utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás erőltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. 40/61
41/61
42/61
43/61
44/61
Adott. kiindulási esetek vagy objektumok pl. személyek két vagy több (k db) ismert csoportja, amelyeket meghatározott változók (p db) jellemeznek. Cél. az eseteket vagy objektumokat jellemző változók alkalmas lineáris kombinációi (az ún. diszkriminancia-függvények) segítségével az adott csoportok lehető legjobb elkülönítése, majd ennek alapján a később megjelenő újabb objektumok csoportokhoz tartozásának lehető legjobb előrejelzése. A kiindulási esetek csoportokhoz tartozása az eljárás kezdetén ismert, a később megjelenő újabb eseteké viszont ismeretlen: a módszer éppen ez utóbbira tesz előrejelzést. 45/61
46/61
Feltételek. A csoportképző változónak természetes számokkal (k = 1, 2, 3, 4 stb.) kódolt kisszámú értékei lehetnek, amelyek egymást kölcsönösen kizáró kategóriáknak felelnek meg. A prediktor (előrejelző, független) változóknak többdimenziós normális eloszlású kvantitatív (intervallum vagy arány-skálájú) adatokat kell tartalmazniuk minden csoportban közel azonos kovariancia mátrixokkal (legfeljebb 1:10 kovariancia-arány tolerálható). A csoportképző változók alkalmas módon meghatározott lineáris kombinációja az ún. diszkriminancia-függvény, amelynek alapján a csoporthoz tartozás megadható: 47/61
Legyen először adott k = 2 számú csoport (piros és kék), és p = 2 számú prediktor változó (X 1 és X 2 ) A diszkriminancia-függvényt ekkor D = B 0 + B 1 X 1 + B 2 X 2 alakban keressük. 48/61
49/61
50/61
Wilks féle lambda. Vannak olyan változók, amelyek nagyobb, és vannak, amelyek kisebb mértékben befolyásolják az osztályhoz tartozást, fontos információ annak ismerete, hogy mely változók hogyan határozták meg a mintavételi pontok csoportba tartozását. Erre a alkalmas módszer a Wilks statisztika becslése. Próbastatisztika. λ = csoportokon belüli különbségek négyzetösszege. különbségek négyzetösszege Ennek az értéke akkor 1, ha minden csoport átlaga azonos, tahát kevéssé választhatóak szét a csoportok. 51/61
A DA a szétválasztó változók szelektálását a Wilks-féle lambda csökkenése alapján végzi.: az a változó lép be új változóként, amelyik legnagyobb mértékben és szignifikánsan csökkenti a Wilks-féle lambda értékét. Miután megvan a szelektálás, úgy választja meg a konstansok értékét, hogy maximális legyen. csoportokon belüli különbségek négyzetösszege csoportokon közötti különbségek négyzetösszege 52/61
Alakfelismerés, osztályozás 53/61
54/61
55/61
56/61
57/61
- Legközelebbi társ módszere Legyenek t 1,..., t n X tanulópontok, és D n X Y tananyag. Ekkor a legközelebbi társ módszerében minden x X -re kiválasztjuk a hozzá legközelebbi tanulópontot és az ahhoz tartozó Y-beli pont lesz az értéke. 58/61
59/61
60/61
Folyt. köv. 61/61