Matematikai statisztika Gazdaságinformatikus MSc október 15. Adatredukció. Klaszteranaĺızis. Diszkriminancia anaĺızis, Osztályozás

Hasonló dokumentumok
Matematikai statisztika Gazdaságinformatikus MSc október 15. Adatredukció. Klaszteranaĺızis. Diszkriminancia anaĺızis, Osztályozás

KLASZTERANALÍZIS OSZTÁLYOZÁS

Korrelációs kapcsolatok elemzése

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Többdimenziós skálázás (MDS)

A mérési eredmény megadása

y ij = µ + α i + e ij

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika I. 11. előadás. Előadó: Dr. Ertsey Imre

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Diszkriminancia-analízis

Adatok statisztikai értékelésének főbb lehetőségei

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

A leíró statisztikák

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6.

c adatpontok és az ismeretlen pont közötti kovariancia vektora

MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR

(Independence, dependence, random variables)

6. Előadás. Vereb György, DE OEC BSI, október 12.

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Kutatásmódszertan és prezentációkészítés

[Biomatematika 2] Orvosi biometria

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

MINTAVÉTELEZÉS. Alaptípusai: sampling. véletlen érvényesítésére v. mellőzzük azt. = preferenciális mintav. = véletlen mintav.

Közösség detektálás gráfokban

Gépi tanulás. Féligellenőrzött tanulás. Pataki Béla (Bolgár Bence)

BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Logisztikus regresszió

Principal Component Analysis

[Biomatematika 2] Orvosi biometria

Adatelemzési eljárások az idegrendszer kutatásban Somogyvári Zoltán

Matematikai statisztika Gazdaságinformatikus MSc október 8. lineáris regresszió. Adatredukció: Faktor- és főkomponensanaĺızis.

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Biomatematika 2 Orvosi biometria

Faktoranalízis az SPSS-ben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Regressziós vizsgálatok

Dr. Hamar Farkas* NYUGDÍJREFORM A LAKOSSÁG SZEMÉVEL

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

Mérési hibák

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Populációbecslések és monitoring

Funkcionálanalízis. n=1. n=1. x n y n. n=1

7. Régió alapú szegmentálás

Varianciaanalízis 4/24/12

Gyakorló feladatok adatbányászati technikák tantárgyhoz

3/29/12. Biomatematika 2. előadás. Biostatisztika = Biometria = Orvosi statisztika. Néhány egyszerű definíció:

Függetlenségvizsgálat, Illeszkedésvizsgálat

GEOSTATISZTIKA II. Geográfus MSc szak. 2019/2020 I. félév TANTÁRGYI KOMMUNIKÁCIÓS DOSSZIÉ

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

V. Gyakorisági táblázatok elemzése

Bevezető Mi a statisztika? Mérés Csoportosítás

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

Többváltozós lineáris regresszió 3.

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Faktoranalízis az SPSS-ben

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

1. Generátorrendszer. Házi feladat (fizikából tudjuk) Ha v és w nem párhuzamos síkvektorok, akkor generátorrendszert alkotnak a sík vektorainak

Módszertani hozzájárulás a Szegénység

S atisztika 2. előadás

Normák, kondíciószám

1 Lebegőpontos számábrázolás

Populációbecslések és monitoring

Kontrollcsoport-generálási lehetőségek retrospektív egészségügyi vizsgálatokhoz

Többváltozós lineáris regressziós modell feltételeinek

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Adatbányászati szemelvények MapReduce környezetben

Statisztikai alapok. Leíró statisztika Lineáris módszerek a statisztikában

Kettőnél több csoport vizsgálata. Makara B. Gábor

A Statisztika alapjai

Infobionika ROBOTIKA. X. Előadás. Robot manipulátorok II. Direkt és inverz kinematika. Készült a HEFOP P /1.0 projekt keretében

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Metrikus terek, többváltozós függvények

Regresszió számítás. Tartalomjegyzék: GeoEasy V2.05+ Geodéziai Kommunikációs Program

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

Átírás:

Matematikai statisztika Gazdaságinformatikus MSc 7. előadás 2018. október 15. 1/61

Olyan statisztikai módszerek tartoznak ide, melyek lehetővé teszik, hogy az adatmátrix méretét csökkentve kisebb költséggel értékelhessük ki a statisztikai sokaságot.a redukált adatmennyiségből levont statisztikai következtetések érvényesek maradnak az eredeti statisztikai sokaságra is. A csökkentés vonatkozhat az esetszám csökkentésére és a változók számának a csökkentésére egyaránt. (volt) Faktor- és főkomponens Klaszternanĺızis, diszkriminancia 2/61

Adott: egy olyan adatállomány, amelyet valamilyen megadott külső objektumokra (pl. tárgyakra, személyekre) vonatkozó hasonlósági vagy különbözőségi adatok (általában skálázott szubjektív vélemények, vagy észlelt különbségek) alkotnak. Cél: olyan geometriai reprezentációk létrehozása a hasonlósági vagy különbözőségi adatokból, amelyek az adott külső tárgyak (észlelt) viszonyát egy megfelelő dimenziójú geometriai térben a lehető legpontosabban tükrözik vissza. Az eljárás eredménye mindig egy ponthalmaz egy adott dimenziójú geometriai térben. A ponthalmaz képe alapján kísérletet tehetünk koordinátatengelyek megadására, amivel rejtett dimenziókat tárhatunk fel. 3/61

Példák: Gépkicsivásárlásnál milyen szempontokat vesznek figyelembe az emberek? (A gazdaságosságot? A megbízhatóságot? A kényelmet? A sportosságot?) Egy politikusra történő szavazásnál milyen szempontok alapján döntenek a szavazók? (Párthoz tartozása alapján? Az adózásról, az oktatásügyről vagy az egészségügyről vallott személyes nézetei alapján? Sajtóbeli ismertsége alapján?) Milyen tényezők befolyásolják egy munkacsoport tagjainak egymás közötti beszélgetésének a módját? (A beszélgetők formális státusza, szakmai tudása, szocio-ekonómiai helyzete vagy személyes dominanciája?) 4/61

Ilyen és hasonló kérdésekre próbál az MDS=Multidimensional Scaling alkalmazása választ adni. Az MDS alapgondolata az, hogy az emberek döntéseiket és ítéleteiket a fejükben - kognitív vagy érzelmi rendszerükben - létező belső dimenzióik alapján hozzák meg. Ezek a dimenziók többnyire rejtve vannak még az aktuális döntéshozók vagy véleményalkotók előtt is, de megfelelő technikákkal - faktorsel vagy az MDS módszereivel - feltárhatók és megismerhetők. 5/61

A faktor alkalmazása mellett szól, hogy abba - bizonyos feltételek teljesülése esetén - igen sokféle és eredetileg más célra összegyűjtött adatokból konstruált változó bevonható, míg az MDS alkalmazásához speciálisabb távolság vagy hasonlóság jellegű adatokra van szükség, amelyek általában csak erre a célra tervezett kísérletekben vagy felmérésekben nyerhetők. Ugyanakkor a faktor modellje feltételezi az egyes faktorok lineáris kombinációját, amit a gyakorlatban gyakran semmi sem támaszt alá. A tapasztalat az, hogy ha sikerül alkalmas hasonlósági mértékeket definiálni és azokat megfelelő pontossággal megmérni, akkor az MDS sokszor lényegesen jobb eredményt adhat, mint a faktor. Az eredmények meglepően pontosak és igen jól reprodukálhatóak lehetnek. 6/61

A MDS módszerei arra szolgálnak, hogy segítségükkel adott objektumokra vonatkozó észlelt hasonlósági vagy különbözőségi adatokból szisztematikus módon létrehozhassunk olyan geometriai reprezentációkat, amelyek ezen objektumok észlelt viszonyát egy megfelelően kis dimenziójú térben a lehetőség szerinti legkisebb torzítással tükrözik vissza. Az eljárás eredménye tehát mindig egy ponthalmaz képe - térképe - egy előre meghatározott dimenziójú térben, amelyben az egyes pontok úgy helyezkednek el, hogy egymás közötti távolságaik ismert pontossággal megfelelnek azon objektumok észlelt tulajdonságai közötti különbözőségeknek, amelyekhez ezek a pontok tartoznak. 7/61

Már sokszor ez a szemléletes ábrázolás önmagában is sokat segít az adott jelenség megértésében, ha valamilyen szabályszerűség vagy mintázat fedezhető fel benne, de ez még önmagában nem. Ha azonban az adott térben sikerül olyan koordináta tengelyeket találni, amelyek mentén az objektumok elhelyezkedése jól értelmezhető, akkor ezeknek a tengelyeknek az alkalmas beával minden objektumhoz skálaértékeket rendelhetünk az adott dimenziók mentén. 8/61

Az MDS fő ereje abban áll, hogy például a tisztán pszichológiai eszközökkel nyert különbözőség-érzékelési adatok alapján lehetővé teszi korábban nem ismert, de esetenként meghatározó szerepű dimenziók felismerését. Ezek a különbözőség-érzékelési adatok pedig természetesen akkor is jól mérhetők, ha semmilyen előzetes elképzelésünk nincs arról, hogy az érzékelt különbözőséget milyen dimenziók határozzák meg. 9/61

Adott. Egy n elemű minta x 1,..., x n, mindegyike p változót tartalmaz. Tehát ez n pont a p dimenziós euklideszi térben. Ezt próbáljuk meg alacsonyabb dimenziós térben rekonstruálni. Távolságmátrix. D = {d(x i, x j ) : i, j = 1,..., n}, ahol d a p dimenziós távolságot jelenti. Szeretnénk. Olyan z 1,..., z n pontokat választani egy alacsonyabb dimenziós térben, hogy (d(x i, x j ) ρ(z i, z j )) 2 i,j kicsi, ahol ρ az alacsonyabb dimenziójú térben jelöli a távolságot. 10/61

Mennyire lehet kicsi. Matematikailag leírható, hogy mikor lehet pontosan megadni egy p dimenziós térben n pontot, melyek távolságmátrixa épp D. De ez nem megy mindig, ám így is jó közeĺıtéseket nyerhetünk. 11/61

- Mérő példa Kísérleti személyünk öt főzeléket hasonĺıtott össze páronként minden lehetséges módon. Feladata a párok globális - összbenyomás alapján történő - összehasonĺıtása volt a vonalhosszúság-becslés módszerével: egy 6 cm hosszú szakaszon kellett bejelölni a különbözőség mértékét. 12/61

- Mérő példa 13/61

- Mérő példa 14/61

Az előbbi példa az MDS legegyszerűbb változatát, a CMDS-t (Classical MDS) szemlélteti. A CMDS az MDS legkorábban kidolgozott típusa, amely csupán egyetlen különbözőségi mátrixot - pl. egyetlen személy bizonyos objektumokra vonatkozó különbözőség-érzékelési adatait - képes egyidejűleg kezelni, és megkívánja a bemenő adatoktól a legalább intervallum-skálát (metrikus MDS). A CMDS alkalmazhatósága korlátozott, mert tipikusan több személy adatait szeretnénk egyidejűleg feldolgozni. 15/61

- s-stress A pontosság mérésére három mérőszámunk van (s-stress, stress, RSQ): s-stress. s-stress = Ç i,j (d(x i, x j ) ρ(x i, x j )) 2 i,j d(x i, x j ) 2 å 1 2 stress csak abban tér el az s-stress-től, hogy a formulában nem a távolságok négyzetei, hanem maguk a távolságok szerepelnek. Tehát minél kisebb ez a szám, annál pontosabb a reprezentáció. 16/61

- s-stress 17/61

- s-stress RSQ - az SPSS által kiszámított harmadik illeszkedési mutató - egyszerűen reprezentáció távolságmátrixának és az eredeti és D mátrix megfelelő elemei között kiszámított korrelációs együttható négyzete, amely közvetlenül megadja, hogy az összes varianciának milyen hányadát tudja magyarázni az adott MDS modell. Ennél a mutatónál - az előző kettővel szemben - természetesen az alacsonyabb értékek rosszabb illeszkedést jeleznek. 18/61

Problémák a metrikus CMDS-el: Nincs garancia arra, hogy az emberek hasonlósági ítéleteiket valóban egyenletesen skálázzák (pl. vonalhosszúság-becslés esetén 1 cm általában nagyobb szubjektív különbséget jelent a széleken, mint a vonal közepe felé). Egyes személyek kifejezetten sarkítják a véleményüket. A metrikus CMDS legalább intervallum-skálájú adatokat követel meg, míg a gyakorlatban általában csak ordinális skálájú adataink vannak. 19/61

Ám rangszámok alkalmazása esetén a konfiguráció instabil: az egyes pontok helye megváltoztatható anélkül, hogy a rangsor megváltozna (ugyanahhoz a rangsorhoz több konfiguráció is tartozhat). Jelentős áttörést jelentett azonban a CMDS fejlődésében Shephard (1962) azon felismerése, hogy a pontok számának növelésével az egyes pontok mozgástere radikálisan szűkül. Ebből következően: ha a pontok (objektumok) száma nem túlságosan kicsi a dimenzió-számhoz képest, akkor pusztán az eredeti távolságok sorrendje (tehát egy ordinális skálájú változó) alapján is nagy pontossággal rekonstruálható a kvantitatív konfiguráció. 20/61

A pusztán sorrendi információ alapján történő rekonstrukció két dimenzió és 10 pont esetén már igen pontos, két dimenzió és 15 pont esetén pedig már gyakorlatilag hibátlan. Az ordinális bemenő adatokkal dolgozó CMDS-t nemmetrikus CMDS-nek nevezzük. A nemmetrikus CMDS is csak egyetlen különbözőség-mátrix egyidejű feldolgozására képes, ami erősen korlátozza az alkalmazhatóságát, mert a piackutatásban, termékminősítésben, pszichológiai és szociológiai vizsgálatokban tipikusan több személytől nyert adat egyidejű feldolgozása a cél. 21/61

Az RMDS (Replicated MDS) az MDS egyik olyan típusa, amely már több különbözőségi mátrixot is képes egyidejűleg kezelni. Alapfeltevés: az egyes objektumok különbözőségei bizonyos véletlenszerű hibáktól eltekintve azonos mértékben tükröződnek az m számú személy ítéleteit tartalmazó m számú adat-mátrixban (ezek az adat-mátrixok egymásnak mintegy a megismétlései, replikái). A WMDS (Weighted MDS) az MDS olyan továbbfejlesztett típusa, amely azon túl, hogy a RMDS-hez hasonlóan képes egyidejűleg kezelni több különbözőségi mátrixot is, a válaszok mögött meghúzódó egyéni perceptuális és kognitív folyamatok individuális különbségeiről is bizonyos információkat tud adni. Alapfeltevés: bár a különböző személyek az objektumokat azonos dimenziók mentén ítélik meg, ezen dimenzióknak azonban eltérő fontosságokat tulajdonítanak, azaz ezeket a dimenziókat egyénileg eltérő módon súlyozzák és skálázzák. 22/61

- Példa Egy közvéleménykutató cég megbízásából öt női lap kedveltségét meghatározó dimenziókat vizsgáltuk 35 válaszadó bevonásával. A cél annak meghatározása volt, hogy milyen milyen a vizsgált lapok megítélése az olvasók által használt dimenziók mentén. Módszer. (egyebek között) vélemények kérése az egyes lapok kedveltségéről 5 fokozatú skálán, majd MDS. Az eredményeket esetleges új lapok indításában, illetőleg a meglévők arculatának szükség szerinti módosításában kívánták hasznosítani. 23/61

24/61

25/61

- Térképkészítés 26/61

- Térképkészítés 27/61

28/61

Általában a klaszterezés célkitűzése az, hogy az összetartozó eseteket közös csoportba soroljuk. Összetartozást általában valamilyen metrika fejezi ki. 29/61

30/61

Hogy tegyük ezt meg? (Brute force) Elvileg úgy is eljárhatnánk, hogy az összes lehetséges csoportosításból választjuk ki a legjobbat. De ez nem lehetséges, hiszen ha kiszámoljuk, akkor már 20 elem 4 csoportba osztásából is több van, mint 10ˆ10. Olyan algoritmusok kellenek, amelyek eleve jó csoportosításokat képeznek, amiből egy optimum elv segítségével kiválasztható egy nagyon jó. 31/61

Az alkalmazásokban sokszor problémát okoz a kialakítandó csoportok száma (k) is. Van olyan algoritmus, ami megköveteli az alkalmazásához, hogy megadjuk k-t. Másik alapprobléma, hogy milyen d metrikafüggvény írja le hitelesen az esetek távolságát. Ez különösen fontos, amikor az alakzatvektor koordinátái között diszkrét változók (esetleg nominális szintű) is vannak. A csoportosítás elvégzése után el kell tenni a klaszterek jellemzését. Ezt leíró statisztikákkal, vagy tipikus esetek felsorolásával tudjuk megtenni. 32/61

- K-közép módszer Olyan dinamikus klaszterező eljárás, amikor előre meg kell adni a klaszterek számát. A klaszter-középpontok térbeli helyzetét iterációban állandóan változtatjuk, amíg egy stabil állapot ki nem alakul. Az esetvektorok a legközelebbi klaszterközépponthoz lesznek rendelve. Távolságfüggvény: euklideszi metrika. 33/61

Az algoritmus lépései a következőek (MacQueen, 1967): 1. Kiválasztja a klaszterek számát (k). Véletlenszerűen létrehoz k számú klasztert, és meghatározza minden klaszter közepét, vagy azonnal létrehoz k véletlenszerű klaszter középpontot. 2. Minden egyes pontot abba a klaszterbe sorol, amelynek középpontjához a legközelebb helyezkedik el. 3. Kiszámolja az új klaszter középpontokat. Addig ismétli az előző két lépést, amíg valamilyen konvergencia kritérium nem teljesül (általában az, hogy a besorolás nem változik). 34/61

35/61

Tulajdonságok. Minimalizálja a klasztereken belüli szóródást, azaz K k=1 i,j C(k) d 2 (x i, x j )-t. Előnye. Nagy esetszámú adatmátrix feldolgozható vele. Egyszerű, gyors. Hátránya. A metrika beépített, körülményes a koordinátasúlyozás. Előre meg kell adni a klaszterek számát. 36/61

A K-közép klaszterezés tökéletes Euklideszi-metrikánál, de a K-közép klaszterezés csak numerikus, skálás változóknál alkalmazható. Az euklideszi távolságot biztos nem alkalmazhatjuk abban az esetben, ha néhány változó diszkrét. A K-means algoritmus általánosítását K-medoids klaszterezésnek nevezik, ami tetszőleges metrikával működik. 37/61

Algoritmus. Szintén megadjuk a klaszterszámot az elején és random beosztjuk a pontokat klaszterekbe. Ezután: 1. lépés: Minden klaszterben keressük meg azt a pontot, amitől a többi, ugyanabba a klaszterbe eső pont a legkisebb szóródási mutatót produkálja, tehát az a x C(k), amire minimális j C(k) d 2 (x j, x). 2. lépés: ezek lesznek az új klaszterközéppontok (medoid) 3. lépés: Minden pontot abba a klaszterbe sorolunk, melynek a középpontja hozzá a legközelebb esik. Ismételjük az 1-3. lépéseket, amíg konvergenciakritériumok nem teljesülnek. 38/61

A kezdő klaszterszámot érdemes úgy beálĺıtani, hogy a hiba mértéke már ne csökkenjen túlságosan, ha tovább növeljük a klaszterszámot. 39/61

- Hiearchikus klaszterezés Egyelemű klaszterekből kiindulva, minden lépésben a két legközelebb fekvő klasztert összevonva csökkentjük a klaszterek számát, amíg minden eset egyetlen klaszterbe nem kerül. A folyamatot regisztráló adatsort utólag kielemezve, azt a köztes állapotot fogadjuk el, amikor az összevonás erőltetett volt, azaz az összevont klaszterek elég távol vannak egymástól. 40/61

41/61

42/61

43/61

44/61

Adott. kiindulási esetek vagy objektumok pl. személyek két vagy több (k db) ismert csoportja, amelyeket meghatározott változók (p db) jellemeznek. Cél. az eseteket vagy objektumokat jellemző változók alkalmas lineáris kombinációi (az ún. diszkriminancia-függvények) segítségével az adott csoportok lehető legjobb elkülönítése, majd ennek alapján a később megjelenő újabb objektumok csoportokhoz tartozásának lehető legjobb előrejelzése. A kiindulási esetek csoportokhoz tartozása az eljárás kezdetén ismert, a később megjelenő újabb eseteké viszont ismeretlen: a módszer éppen ez utóbbira tesz előrejelzést. 45/61

46/61

Feltételek. A csoportképző változónak természetes számokkal (k = 1, 2, 3, 4 stb.) kódolt kisszámú értékei lehetnek, amelyek egymást kölcsönösen kizáró kategóriáknak felelnek meg. A prediktor (előrejelző, független) változóknak többdimenziós normális eloszlású kvantitatív (intervallum vagy arány-skálájú) adatokat kell tartalmazniuk minden csoportban közel azonos kovariancia mátrixokkal (legfeljebb 1:10 kovariancia-arány tolerálható). A csoportképző változók alkalmas módon meghatározott lineáris kombinációja az ún. diszkriminancia-függvény, amelynek alapján a csoporthoz tartozás megadható: 47/61

Legyen először adott k = 2 számú csoport (piros és kék), és p = 2 számú prediktor változó (X 1 és X 2 ) A diszkriminancia-függvényt ekkor D = B 0 + B 1 X 1 + B 2 X 2 alakban keressük. 48/61

49/61

50/61

Wilks féle lambda. Vannak olyan változók, amelyek nagyobb, és vannak, amelyek kisebb mértékben befolyásolják az osztályhoz tartozást, fontos információ annak ismerete, hogy mely változók hogyan határozták meg a mintavételi pontok csoportba tartozását. Erre a alkalmas módszer a Wilks statisztika becslése. Próbastatisztika. λ = csoportokon belüli különbségek négyzetösszege. különbségek négyzetösszege Ennek az értéke akkor 1, ha minden csoport átlaga azonos, tahát kevéssé választhatóak szét a csoportok. 51/61

A DA a szétválasztó változók szelektálását a Wilks-féle lambda csökkenése alapján végzi.: az a változó lép be új változóként, amelyik legnagyobb mértékben és szignifikánsan csökkenti a Wilks-féle lambda értékét. Miután megvan a szelektálás, úgy választja meg a konstansok értékét, hogy maximális legyen. csoportokon belüli különbségek négyzetösszege csoportokon közötti különbségek négyzetösszege 52/61

Alakfelismerés, osztályozás 53/61

54/61

55/61

56/61

57/61

- Legközelebbi társ módszere Legyenek t 1,..., t n X tanulópontok, és D n X Y tananyag. Ekkor a legközelebbi társ módszerében minden x X -re kiválasztjuk a hozzá legközelebbi tanulópontot és az ahhoz tartozó Y-beli pont lesz az értéke. 58/61

59/61

60/61

Folyt. köv. 61/61