HOMOGENITÁSVIZSGÁLAT
|
|
- Tamás Dániel Somogyi
- 9 évvel ezelőtt
- Látták:
Átírás
1 HOMOGENITÁSVIZSGÁLAT Diplomamunka Írta: Gelányi Ildikó Alkalmazott matematikus szak Témavezet : Zempléni András, docens Valószín ségelméleti és Statisztika Tanszék Eötvös Loránd Tudományegyetem, Természettudományi Kar Eötvös Loránd Tudományegyetem Természettudományi Kar 2011
2 Tartalomjegyzék 1. Bevezetés Célkit zés, motiváció Homogenitásvizsgálat Veszteségfüggvény deniálása Dimenziószám csökkentés mértékének meghatározása Veszteségfüggvény felírása a mintaadatokra Veszteségfüggvény minimalizálása Homogenitásvizsgálat mint sajátérték, illetve SVD feladat Minimalizálás hiányzó értékek esetén Homogenitásvizsgálat kiterjesztése Nemlineáris f komponens analízis (NLPCA) A minimalizálási algoritmus tulajdonságai Adatelemzések az R és az SPSS szoftverekkel R program homals csomagjával végzett homogenitás vizsgálat Homogenitás vizsgálat a beépített mintapéldán Homogenitás vizsgálat a saját mintapéldán Nagyobb elemszámú minta elemzése az R programmal HOMALS és a nemlineáris f komponens analízis közötti különbség bemutatása egy példán Elemzés PASW Statistics szoftverrel F komponens analízist l a homogenitásvizsgálatig Az SPSS szoftverrel készített elemzésben használt mutatószámok Homogenitásvizsgálat az SPSS szoftverrel II
3 4. Összefoglalás 50 A. Függelék 53 A.1. Senate adattábla elemzésének kiegészítései A.2. A saját 20 rekordból álló mintapélda elemzésének kiegészítései A.3. A 3000 rekordból álló R programmal elkészített elemzés kiegészít ábrái.. 55 A.4. Az SPSS szoftver segítségével végzett CatPCA elemzés kiegészítései III
4 1. fejezet Bevezetés 1.1. Célkit zés, motiváció Az információtechnológia és a számítástudomány fejl désével a tudományos és az üzleti élet egyre szélesebb köre érdekl dik a megszerezhet, illetve meglév adataiban (pl. kutatási felmérések, ügyfelek viselkedése) rejl összefüggések feltárása és alkalmazása iránt. Egyre gyakrabban fordulnak statsztikához nem feltétlenül ért szakemberek adatelemz khöz azzal a kéréssel, hogy a náluk felhalmozódott adattömeget analizálják, és az eredményeket kézzelfogható, további felhasználásra (pl.: üzleti döntések) alkalmas formában prezenálják számukra. Az elemzésekhez használható több lehetséges eszköz egyike a homogenitásvizsgálat, mely lehet vé teszi, hogy az egy adott rekordra vonatkozóan számos paraméterértéket (változót) tartalmazó többdimenziós táblázatokat kvázi mesterséges mutatószámokkal alacsonyabb dimenziószámúra redukálhassunk. Kedvez esetben jól elkülönül homogén csoportokat képezhetünk az adatbázis elemeib l (pl. ügyfelek csoportjai telefonálási szokásaik alapján), mely csoportok különböz, egymástól elkülönít tulajdonságai a modell segítségével szintén meghatározhatók. További el nye az elemzési eszköznek, hogy az eredmények grakusan könnyen megjeleníthet ek, ezáltal egyszer en interpretálhatóak. Szakdolgozatom alapvet en az ingyenesen, bárki számára hozzáférhet R programcsomag homogentásvizsgálatra kifejlesztett "homals" csomagjának módszertanára és az ezzel elvégezhet vizsgálatokra épül. Az alternáló legkisebb négyzetes algoritmust alkalmazó homogenitásvizsgálat elméletének bemutatása után, rátérek a módszertan szélesebbkör 1
5 alkalmazásának lehet ségére. Majd a szakdolgozat végén a licenszdíjas SPSS szoftverrel is elvégzem az elemzést a vizsgált adatbázis alaposabb megismerése, illetve a két programcsomag összehasonlíthatósága érdekében. Dolgozatomban az elmélet alkalmazását bemutató részében egyrészt a programmal kapcsolatban megjelent dokumentációk, cikkek alapján egy mintaadaton próbálom rekonstruálni és szemléltetni a program m ködését. Másrészt egy valódi adatbázist igyekszem elemezni és az eredményekb l megfelel következtetéseket levonni. A számításokhoz, elemzésekhez a 2006/2007. tanévben 8. osztályos tanulók között végzett kompetencia vizsgálathoz kitöltött kérd ívek alapján készített adatbázist használom. A kérd ív a tanulmányi el menetelen, illetve tanrendszerben töltött id felmérésén túl kitért a tanulók családi, szociális helyzetére is. Így például a szül k végzettségére, a család média ellátottságára, az együttél családtagokra, az otthon kapott tanulási segítségre, stb. A módszertan bemutatásához a grakus megjelenítések - amik a homogenitásvizsgálat eredményeinek tárgyalása esetében kulcsfontosságúak - jobb áttekinthetõsége és így érthet sége miatt egy kifejezett illusztrációs célokat szolgáló (mind rekordszám, mind változókör tekintetében er sen lecsökkentett méret ) adatbázis-részletet használtam. A mintaadat-tábla csupán 20 rekordot és 8 változót tartalmaz. Ezen elemzés kizárólag didaktikai célokat szolgál: egyrészt az R program módszertanának másrészt vizualizációjának kézzelfoghatóbb bemutatását téve lehet vé. Tekintettel arra, hogy a mintaadat rekordszáma töredéke a teljes adatbázisnak a fenti bemutatóból a tanulókra vonatkozóan semmilyen következtetést nem szabad levonni. Annak érdekében, hogy valamilyen értelmezhet eredményeket adó elemzés is elvégezhet legyen, a teljes adatbázist alcsoportokra bontottam. Az egyes alcsoportokban a konkrét elemzés elvégzéséhez a teljes adatbázisból leválogattam azokat a rekordokat, amelyek esetében az els három változó (nem, óvodai évek száma, els s életkor), illetve az utolsó öt változó (a félévi érdemjegyek) közül legalább egy-egy ismert. Az így kapott adatbázisokból vett 3000-es véletlen mintán végeztem el az elemzést, mert ez volt az a maximális méret, amin az R program "homals" utasítása még le tudott futni. A véletlen mintában az egyes alcsoportok az adott alcsoport elemszámának arányában vesznek részt. A teljes adatbázis elemzését végül az SPSS programmal végeztem el. Az R-beli elem- 2
6 zésekben használt 8 változón kívül még néhány másik változót is bevonva elvégeztem egy részletes kategórikus f komponens-analízist. 3
7 2. fejezet Homogenitásvizsgálat Nagy és összetett adatbázisok lényeges információforrást biztosítanak a társadalom- és viselkedéstudományoknak, ezáltal a statisztikai módszereknek egyre nagyobb szerep jut ezen adatok elemzésében és értékelésében. A megfelel elemzések elkészítéséhez kiváltképp szükséges az egyes módszerek alapos ismerete és megfelel alkalmazása. A többváltozós korrespondencia analízis (MCA - multiple correspondence analysis) grakai megközelítése szül atyjának Benczécri-t tekinthetjük, aki az 1960-as, 70-es években Franciaországban a munkatársaival együtt jelent s mértékben járult hozzá a módszer korai fejl déséhez. Ezzel közel egyid ben Hollandiában kialakult egy er s adatelemz iskola többek között Jan De Leeuw és Jacqueline Meulman részvételével. De Leeuw munkásságával kialakította az MCA és a kapcsolódó módszertanok kutatásának metodikáját, amely a mai napig meghatározó ebben a témában. Megközelítésükben az MCA (más néven homogenitásvizsgálat) egy központi elemz eszköz a beágyazott kategorikus adatok vizsgálatától kezdve, a kategóriák optimális skálázásán keresztül, a többváltozós statisztikai elemzések intervallum-alapú megvalósításáig. A homogenitásvizsgálat deniálásának számos, egymástól különböz, de matematikailag azonos módja létezik. Dolgozatomban bemutatásra kerül elemzésekre való tekintettel a [1]-ben található tárgyalási módot választottam. Eszerint a homogenitásvizsgálat tulajdonképpen a f komponens-analízis kategorikus adatokra történ adaptálása, mely elemzési eszköz célja az arányskálán mért adatok varianciájának legnagyobb részét megmagyarázó dimenziók azonosítása. Mindkét módszertan egy centralizált, normalizált mátrix felbontásán alapul, amely eljárást vagy egy szimmetrikus négyzetes mátrix 4
8 sajátérték-sajátvektor felbontásával, vagy egy téglalap mátrix szinguláris érték felbontásával valósítja meg. Az eljárás végs soron optimalizál egy súlyozott legkisebb négyzetes kifejezést (veszteségfüggvény) és egy alternáló legkisebb négyzetes algoritmussal határozza meg az optimumot (homals eljárás). A f komponens analízissel szemben a CA/MCA eljárásokban sokkal nagyobb szerepet kap a grakai megjelenítés, hiszen az eredmények interpretálásának alapvet eszközei a grakonok és ábrák Veszteségfüggvény deniálása Legyen n db meggyelésünk m db paraméterre vonatkozóan (pl: n db tanuló m-féle adata), ahol minden paraméter véges számú értéket vehet fel. A meggyeléseket tartalmazó n m méret mátrix legyen A, melynek értékeit jelöljük a ij -vel. Ezt az A mátrixot szeretnénk megvizsgálni. A szükséges alapegyenlet felírásához vezessük be a következ jelöléseket: i = 1...n j = 1...m k j meggyelések sorszámai kategorikus változók indexei -féle értéke lehet az egyes kategorikus változóknak. Ez alapján az A mátrix a ij eleme k j +1 értéket vehet fel: a kategorikus változó valamely értékét, vagy az "üres" (ismeretlen) értéket. Rendezzük sorba a kategorikus változó értékkészletének elemeit (az "üres" kivételével), és feleltessük meg azokat 1-t l k j -ig terjed számsorral: jelöljük b 1... b kj -vel a kategorikus változók el bbiek szerint sorbarendezett és megfeleltetett lehetséges értékeit. A fentiek segítségével deniáljunk minden egyes kategorikus változóra G j n k j méret bináris indikátor mátrixot. A G j mátrix minden sora egy meggyelésnek felel meg a j-dik kategorikus változóra vonatkozóan. A mátrix minden sorában legfeljebb egy 1-es lehet, amely a k j db oszlop közül abban helyezkedik el, amely a j-dik kategorikus változó i-dik meggyelésnél kapott értékéhez tartozik. Ismeretlen érték esetén az adott meggyeléshez tartozó sor csupa 0. Pontosabban, ha az i-dik meggyelés esetében a j változó értékére vontakozóan nem rendelkezünk adattal, akkor a G j i-dik sora 0 vektor. Ha az adott változóra vonatkozóan rendelkezünk adattal, akkor a sorösszeg 1. Vagyis G j (i, l) := 1, ha A(i, j) = b l, ahol l {1,... k j } 0, különben. 5.
9 A fenti G j indikátor mátrixok segítségével vezessük be a következ i m j=1 k j méret blokk mátrixot: G [G 1. G Gm]. Ezt követ en deniáljunk egy M j diagonális n n-es mátrixot a következ képpen: M j (i, i) := 0, ha az i meggyelés j változója ismeretlen 1, különben. Az M j mátrix segítségével deniálhatjuk az M n n-es mátrixot, mint az M j mátrixok összegét; illetve az M szintén n n-es mátrixot, mint az M j -k átlagát. Vezessük be a következ k j k j méret diagonális mátrixot: D j G jm j G j = G jg j. Vegyük észre, hogy a mátrix diagonálisában a j változók (marginális) gyakoriságai szerepelnek. Legyen X az ismeretlen n p méret mátrix, ami az A meggyelés R p -re vetített koordinátáit tartalmazza. Továbbá legyen Y j az ismeretlen k j p mátrix, ami az egyes kategória értékek ugyanezen p-dimenziójú térre vetített koordinátáit tartalmazza. A fent bevezetett mátrixok segítségével fel tudjuk írni a minimalizálandó veszteségfüggvényt: σ(x; Y 1, Y 2,..., Ym) m 1 m j=1 tr(x G j Y j ) M j (X G j Y j ). (2.1) A függvény a meggyelésekre kapott pontszámok(x) és a meggyelésekhez tartozó kategóriaértékek pontszámainak átlagos eltérésnégyzetösszege. Az egyes kategóriaértékek R p -beli pontszámait tartalmazó Y j mátrixból a G j indikátormátrix "választja ki" az egyes meggyelések adott kategoriához tartozó értékének megfelel pontszámokat. A triviális X = 0 és Y j = 0 megoldások elkerülése érdekében bevezetjük az X M X = I és az u M X = 0 normalizáló feltételeket, ahol az u vektor a csupa 1-esb l álló egységvektor. Az els megszorítás az X pontszám (score) mátrix oszlopainak ortogonalitását biztosítja, míg a második a grakont az origó köré centrálja. A meggyelésekre kapott pontszámoknak, azaz az X mátrix elemeinek n/m-mel történ szorzása 1 varianciát eredményez, míg a 0 várható értéket a második normalizáló feltétel /u M X = 0/ biztosítja (ui. ezek z-számok). Észrevehet, hogy a veszteségfüggvény lényegében az (X G j Y j ) négyzetösszege, amely ezáltal mind a meggyelt értékeket, mind a kategóriaértékeket tartalmazza, ezáltal egyszerre minimalizálunk X és Y j szerint. 6
10 Dimenziószám csökkentés mértékének meghatározása A könny interpretálhatóság érdekében célszer minél kisebb dimenziószámot (p) választani. A grakai megoldások korlátai miatt rendszerint csak síkbeli ábrákat használnak, amiken egyszerre csak páronként ábrázolhatóak a dimenziók. Ugyanakkor a háromdimenziós grakai megjelenítések is egyre könnyebben használhatóak. A konkrét dimenziószám meghatározásánál több szempontot is gyelembe lehet venni: az átlagosnál jobban magyarázó sajátértékkel (ld. 2.9 egyenlet) rendelkez ket megtartani a sajátértékek "scree plot" ábráján a csökken sorozat töréspontjának helyzete (hanyadik sajátértéknél van) alkalmazás-alapú megközelítés, mely beépít minden olyan dimenziót, aminek koherens érdemi interpretációja van.[1] 2.2. Veszteségfüggvény felírása a mintaadatokra A számításhoz az eredeti adatbázis els 20 rekordját választottuk ki. A táblázat célja kizárólag didaktikai, a 20-as rekordszám a kezelhet ség, ábrázolhatóság, illetve a megfel 7
11 számosság gyelembevételével került meghatározásra. rekord nem ovoda elsos matek nyelvtan irodalom magatartas szorgalom N A Az óvodában eltöltött évek számát tartalmazó "ovoda" (j=2) változón keresztül be- 8
12 mutatom a fent deniált mátrixokat: G 2 = rekord 1ev 2ev 3ev 4ev Tekintettel arra, hogy mind a 20 meggyelés esetében ismert az óvodában töltött évek száma, az M 2 egy as egységmátrix. A D 2 = G 2M 2 G 2 = G 2G 2 pedig a következ 4 4-es (k 2 k 2 -es) mátrix: D 2 = Látható, hogy az átlóban valóban az egyes évek számainak gyakoriságai szerepelnek. A kiválasztott 20 tanuló között nem volt olyan, aki csak 1 évet járt volna óvodába. Hatan jártak 2, kilencen 3, öten pedig 4 évet óvodába. 9
13 Ebben a konkrét példában (adattartalom és kés bbi elemzés interpretálhatósága miatt) az ismeretlen X mátrix 20 3 méret. A sorok száma megegyezik a meggyelések számával, az oszlopok száma pedig a csökkentett dimenziószámmal egyenl. Az X mátrix az eredeti meggyelések R 3 -ra vetített koordinátáit tartalmazza. A fent bevezetett mátrixok segítségével fel tudjuk írni a minimalizálandó veszteségfüggvényt: σ(x; Y 1, Y 2,..., Y 20 ) = tr(x G j Y j ) M j (X G j Y j ). j=1 A függvény G j Y j szorzatának els tagja egy bináris n k j méret mátrix, amelynek adott sorának azon oszlophoz tartozó elemének értéke 1 (a többi 0), amely oszlophoz tartozó kategória értéket felvette az adott meggyelés (lsd 2.1 fejezet). A második, ismeretlen Y j mátrixok rendre k j 3-as méret ek, amik az egyes kategória értékek háromdimenziós térre vetített koordinátáit tartalmazzák. Ezáltal a szorzat egy n 3 méret mátrix, amely az n db meggyelés mindegyikére a j-dik változó meggyelt értékét tartalmazza a 3-dimenziós térben Veszteségfüggvény minimalizálása Jellemz en a minimalizálási feladatot iteratív alternáló legkisebb négyzetes algoritmussal oldjuk meg. A t = 0 lépésben tetsz leges X 0 iterációban három lépést hajtunk végre [8]: meggyelt pontszámaink vannak. Minden egyes 1. Újraszámoljuk a kategóriák pontszámait, azaz rögzített X mellett minimalizálunk Y j szerint: σ(, Y j ) min. A normálegyenlet minden j-re a következ D j Y j = G jx, amib l: Ŷ (t) j = D 1 j G jx (t), j = 1,..., m (2.2) Az így kapott összefüggés szerint a kategória értékek a hozzátartozó meggyelések centrumába esnek. 2. Újraszámoljuk a meggyelt pontszámokat, azaz adott Y j mellett minimalizálunk X szerint: σ(x, ) min. A kapott normálegyenlet: M X = m j=1 G jy j, melyb l 10
14 kifejezve X-t: X (t) = M 1 m j=1 G j Y (t) j (2.3) Ez az összefüggés azt mutatja meg, hogy a meggyelés pontszáma azon kategóriák értékeinek átlagával egyenl, amely kategóriákhoz az adott meggyelés tartozik. 3. Végül normalizálunk: a) centralizáljuk X-et: W = X u(u X/n) b) módosított Gram-Schmidt eljárással ortonormalizáljuk: X = ngram(w ) A két lépést összevonva, az új X-et 2.3-beli X(t) -vel kifejezve: X (t+1) = M 1 2 orth(m 1 2 X(t) ) (2.4) A fenti képletekben az orth a mátrix oszlopterére vonatkozó ortonormált bázist jelenti, aminek meghatározásához használhatjuk a QR felbontást, a módosított Gram-Schmidt ortogonalizációt, vagy az SVD felbontást. A továbbiakban az egyszer bb tárgyalás kedvéért tegyük fel, hogy a meggyeléseink között nincs ismeretlen változóérték, azaz minden meggyelt objektumnak minden változóra vonatkozóan van értéke. Ekkor a veszteségfüggvényt átlagos négyzetes eltérésként az alábbi alakban írhatjuk fel: σ(x; Y 1, Y 2,..., Y m ) = m 1 m j=1 tr(x G j Y j ) (X G j Y j ). A triviális X = 0, illetve Y = 0 megoldások elkerülése érdekében bevezetett feltételek pedig a következ k lesznek: X X = ni p (2.5) u X = 0. (2.6) Tegyük fel, hogy az alternáló legkisebb négyzetes algoritmus konvergens és használjuk ki, hogy ŶjD j Ŷ j következ képpen: = ŶjD j (D 1 j G j X) = Ŷ j G j X ekkor átírhatjuk a veszteségfüggvényt a 11
15 σ(x; Y 1, Y 2,..., Y m ) = m 1 m j=1 tr( X G j Ŷ j ) ( X G j Ŷ j ) = m 1 m j=1 tr( X X + Ŷ j G jg j Ŷ j 2Ŷ j G j X) = m 1 m j=1 tr( X X Ŷ j D j Ŷ j ) = m 1 m j=1 m tr(ni p Ŷ j D j Ŷ j ) = np m 1 tr(ŷ j D j Ŷ j ). (2.7) j=1 Az Ŷ j D j Ŷ j mátrixszorzat diagonálisában lév elemek összegét a megoldás "jóságának" is nevezik. Továbbá adott s dimenzió esetén a j változóra vonatkozó diszkriminációs mérték a következ : η 2 js Ŷj(., s) D j Ŷ j (., s) n s = 1,..., p, (2.8) ahol Ŷj(., s) a mátrix s-dik oszlopát jelöli. Geometriailag a diszkriminációs mérték a kategória értékek marginális gyakoriságokkal súlyozott átlagos négyzetes eltérése a p-dimenziós tér origójától (így a G j Y j 2 /n képlettel is kiszámítható alfejezet). Megmutatható, hogy a diszkriminációs mérték (ha nincsenek üres adatok) megegyezik az s-dimenzióban optimálisan kvantikált G j Ŷ j (., s) változó, illetve az ehhez tartozó meggyelési mátrixbeli oszlop X(., s) korrelációjának négyzetével. A diszkriminációs mértékkel kifejezhet a veszteségfüggvény: n(p 1 m m p ηjs) 2 = n(p p j=1 s=1 s=1 γ s ), (2.9) ahol a γ s = 1 m m j=1 η2 js, s = 1,..., p kifejezést sajátértéknek nevezzük, és a homals (homogenitásvizsgálat alternáló legkisebb négyzet módszerrel) megoldásának s-dik dimenzióbeli jóságát mutatja meg Homogenitásvizsgálat mint sajátérték, illetve SVD feladat Térjünk vissza a 2.2, 2.3, 2.4 egyenletekkel megfogalmazott iterációs feladathoz. Helyettesítsük be a 2.2-ben kapott optimális Ŷj = D 1 j G jx értéket a rögzített X-re felírt 12
16 veszteségfüggvénybe: σ(x; ) = m 1 m j=1 tr(x G j D 1 j G jx) (X G j D 1 j G jx) = = m 1 m j=1 tr(x X X G j D 1 j G jx). (2.10) Ezt követ en egyszer sítsük a fenti iterációs lépést az alábbiak szerint. Jelölje P j a G j oszlopai által kifeszített altérre történ mer leges vetítést. Azaz P j = G j D 1 j G j egy "kategóriák-közötti" vetítés, ami minden R n -beli vektort átvisz egy kategóriaközepekb l álló R n -beli vektorba [9]. Ennek megfelel en az m számú vetítés összege: P = m P j = j=1 m j=1 G j D 1 j G j. Vegyük észre, hogy a Q = I P j vetítéssel minden vektor képe a kategóriaközepekt l vett távolsága lesz (Q a kategorián-belüli vetítés). A korábbi jelölésnek megfelel en P - tal jelölve az átlagot: P = m 1 m j=1 P j alakban felírható, ui nincsenek üres értékek a meggyelési mátrixban. P j -t behelyettesítve a 2.10-be a következ t kapjuk: σ(x; ) = m 1 m j=1 tr(x X X P j X). (2.11) A 2.5 és 2.6 megkötésekkel kiegészítve a 2.11 széls értéke ugyanott lesz, ahol a tr(x LP LX) maximuma, ahol L = I uu egy centráló operátor[8]. Az optimális X megoldás megfelel u u az LP L mátrix els p db sajátvektorának. Ez alapján a veszteségfüggvény minimuma felírható az alábbi alakban: ahol λ s, s = 1,..., p σ( ; ) = n(p p s=1 λ s ), (2.12) az els p sajátértéke P -nak. Ebb l adódik, hogy a homogenitásvizsgálat veszteségfüggvényének minimuma a P átlagprojektor els p legnagyobb sajátértékének függvénye. Az optimális X érték megkapható az m 1 2 LGD 1 2 mátrix UΛV alakú SVD felbontásából [8] is. A mátrix felírásában szerepl D mátrix jelöli az m j=1d j egyesített mátrixot, ahol a m j=1 k j m j=1 k j méret mátrix átlójában az egyes D j mátrixok szerepelnek indexeiknek megfelel sorrendben. Az optimális X megoldás megfelel az U mátrix els p oszlopának (azaz a m 1 2 LGD 1 2 mátrix els p db baloldali szinguláris vektorának). 13
17 Vegyük észre, hogy a teljes sajátérték és az SVD megoldásoknak q = m j=1 k j m dimenziója van. Emiatt el nyös az alternáló legkisebb négyzet módszer használata, mivel ez a módszer csupán az els p q dimenzióra végzi el a számítást, ezáltal növelve a számítási hatékonyságot és csökkenti a számítógép memória szükségletét Minimalizálás hiányzó értékek esetén A hiányzó értékeket az 1. fejezetben deniált G j, illetve M j mátrixokkal tudjuk implementálni a modellbe. G j egy nemteljes (van csupa 0 érték sora) indikátormátrix, ezért M j G j = G j, j = 1,..., m. A minimalizálandó veszteségfüggvény alakja megegyezik a 2.1 egyenletben felírttal. Az iteratív alternáló legkisebb négyzetes algoritmus 2.2, 2.3, 2.4 lépéseit a baloldali szinguláris vektorok (lsvec) és a P segítségével egy lépésben fel tudjuk írni. Az iteráció els lépését leíró 2.2 egyenlet mindkét oldalát szorozva G j -vel és behelyettesítve P j -t kapjuk: Ezt beírva a 2.3-ba: G j Y (t) j = P j X (t), j = 1,..., m. (2.13) X (t) = M 1 m j=1 P j X (t) (2.14) A fentiek segítségével a 2.4-be behelyettesítve felírható a teljes iterációs lépés: X (t+1) = M 1 2 orth(m 1 2 M 1 m j=1 P j X (t) ) = lsvec( X (t) ) = lsvec(m 1 P X (t) ). (2.15) Minden iterációs lépésben a konvergencia gyelése érdekében kiszámítjuk a veszteségfüggvény értékét. Azonban a 2.15 konkrét számolásra nem használható, mert ritka indikátor mátrixokkal történ számítás helyett s r átlagprojektorokkal számol. A fenti módon végezve a homogenitásvizsgálatot ugyanarra az eredményre jutunk, mintha a G mátrixon végeznénk el a korrelációanalízist [9]. Deniáljuk a következ k j k l méret mátrixot: C jl = G jg l, ami tulajdonképpen a j és l változók kontingenciatáblája. Mivel a D j = G jg j = C jj, a mátrix diagonálisában valóban a változók értékeinek gyakoriságai szerepelnek. Vezessük be a következ jelölést: K m j=1 k j. Ekkor a C = G G egy K K méret ún. Burt mátrix. A többváltozós korrelációanalízis vizsgálat valójában a C = G G Burt mátrix általánosított sajátérték problémáját oldja meg [1] és a Burt mátrix diagonálisát tartalmazó 14
18 - minden más helyen 0-érték - mátrix maga a D [D 1.D Dm], azaz az a mátrix aminek átlójában lév blokkok a D j mátrixok. Ezáltal a veszteségfüggvény minimalizálásának 2.1 feladata SVD megközelítéssel megoldható [9]. Elegend az alábbi általánosított szinguláris érték feladatot: GY = M XΛ, G X = DY Λ, vagy az ezzel egyenérték alábbi két általánosított sajátérték probléma valamelyikét megoldanunk: GD 1 G X = M XΛ 2, G M 1 GY = DY Λ 2 A fenti Λ 2 sajátértékek megegyeznek az egyes dimenziókra vonatkozóan az átlagos kategóriák-közötti variancia és a teljes variancia hányadosával. Az X P j X = X G j D 1 j G jx pedig a j változó kategóriák közötti szóródása [8]. Összehasonlítva a klasszikus szinguláris felbontást és az alternáló legkisebb négyzetes módszert megállapítható, hogy utóbbi a megoldásnak csupán az els p dimenzióját számítja ki, ami a számolás hatékonyságát növeli. Kihasználva a G mátrix ritkaságában rejl lehet ségeket az R programbeli homals csomag viszonylag nagy adatkészletet képes kezelni. A megoldás illeszkedésének jósága a sajátértékek screeplot ábrájának vizsgálatából meghatározható. Az egyes változók hozzájárulása a végs megoldás jóságához a G j Y j 2 /n képlettel is kiszámítható diszkriminációs mérték segítségével adható meg Homogenitásvizsgálat kiterjesztése Egy n m méret arányskálán mért változókat tartalmazó adatmátrix esetén a f komponens analízis a legkézenfekv bb módszer a dimenziószám csökkentésére, azaz a változók R p, (ahol p << m) altérre történ vetítésére. A Eckart-Young tétel 1 [14] kimondja, hogy a 1 1. Tétel. Legyen A egy m n méret komplex (valós) r k = min(n, m) rangú mátrix az A = UΣV 15
19 lineáris f komponens analízis klasszikus alakja veszteségfüggvénnyel is kifejezhet. Ennek minimalizása során kapunk "komponens pontszámokat" (component scores) tartalmazó n p méret mátrixot (U (p) ) és "komponens értékelések"-b l (component loadings) álló m p méret mátrixot (V (p) ) Nemlineáris f komponens analízis (NLPCA) Amennyiben nem arányskálán mért, hanem nominális skálájú (min ségi) változókkal kell dolgoznunk, akkor a nemlineáris f komponens analízis [3] a használható eszköz. A módszer nevében szerepl nemlineáris kifejezés a meggyelt változókon végzend nemlineáris transzformációkra utal. A Gi terminológiában a nemlineáris f komponens analízis úgy is deniálható mint egy, az Y j mátrixra vonatkozó megkötéseket tartalmazó homogenitásvizsgálat. Legyen ez a korlátozó, rögzített paraméter r j a j változó esetében, melyre r j p feltételnek alapvet en teljesülnie kell. Ha nem rögzítjük r j értékét - pl. egyszer homogenitás vizsgálat esetében -, akkor a következ feltétel fog teljesülni: Spec. eset: r j = 1 minden j-re. ki: r j = k j 1 r j = p, ha k j p, egyébként. Ekkor minden változó egyszeres és a rangszám csökkentés a következ képp fejezhet Y j = z j a j, szinguláris érték szerinti felbontással. Ekkor tetsz leges 0 p r-re A (p) = U (p) Σ (p) V (p), ahol U (p), illetve V (p) U, illetve V els p oszlopából álló részmátrixa, (p) pedig bal fels p p méret része. A (p) A-hoz a Frobenius-normában, illetve a 2-es norma által indukált mátrixnormában (az egyik) lehet legközelebbi olyan m n méret mátrix, amelynek a rangja legfeljebb p. A közelítés hibája min B A F = A (k) r A F = σi 2, rank(b)=p illetve i=p+1 min B A 2 = A (k) A 2 = σ p+1, rank(b)=p ahol σ 1 σ 2... σ r az A mátrix szinguláris értékei. 16
20 ahol z j egy k j hosszú vektor, mely a kategória-értékeket tartalmazza és a j egy p hosszú vektor, amelyben a súlyok szerepelnek. Ezáltal minden kvantikációs mátrix rangja 1- re csökken biztosítva, hogy létezzenek egyetlen kategóriaértékkel rendelkez meggyelés pontszámok. Általános eset: r j tetsz leges minden j-re, feltéve, hogy 1 r j min(k j 1, p). Nemlineáris f komponens analízis esetében a kategória pontszámokat tartalmazó Y j mátrix felírható lineáris kombinációként a következ formában: Y j = Z j A j, ahol Z j egy k j r j dimenziós korlátozott kvantikációs mátrix; A j pedig egy p r j dimenziós súlymátrix. Az általánosság korlátozása nélkül feltehet, hogy Z jd j Z j = I. A rangszámcsökkentés utáni veszteségfüggvény felírásakor - a korábbi jelöléssel analóg módon - használjuk az r -t az r j -k összege, illetve r az r j -k átlaga helyett. A 2. fejezetben bevezetett G blokkmátrix helyett, most az alábbi Q blokk mátrixot vezessük be: Q [G 1 Z 1. G 2 Z GmZm]. Az A j mátrixokat is egy blokk mátrixba gy jtsük össze, az így kapott p r mátrix: A [A 1. A Am]. A fent bevezett blokk mátrixok segítségével felírva a minimalizálandó veszteségfüggvényt, az a következ alakú lesz: σ(x; Z; A) = m tr(x G j Z j A j) M j (X G j Z j A j) = tr(q XA ) (Q XA )+m(p r ). j=1 (2.16) A veszteségfüggvény értékének alsó határa m(p r ), mely határ el is érhet, ha sikerül Z j -ket úgy kiválasztani, hogy Q rangja p legyen. Valójában a 2.16 veszteségfüggvényt minimalizálva X és A felett a következ t kapjuk: r σ(z) min σ(x; Z; A) = X,A ahol λ s a sorbarendezett sajátértékek. s=p+1 λ 2 s(z) + m(p r ), (2.17) Az alábbiakban a Z j -kre vonatkozó megkötések segítségével vesszük gyelembe a változók skála szintjeit[6]. Ehhez els lépésben a veszteségfüggvényt két részre kell bontanunk. 17
21 Bevezetve az Ŷj = D 1 j G jx jelölést a következ t kapjuk: σ(x; Z; A) m tr(x G j Y j ) M j (X G j Y j) j=1 = m tr(x G j (Ŷj + (Y j Ŷj))) M j (X G j (Ŷj + (Y j Ŷj))) j=1 = m tr(x G j Ŷ j ) M j (X G j Ŷ j ) + j=1 m j=1 tr(y j Ŷj) D j (Y j Ŷj) (2.18) Nyilvánvaló, hogy az Y j = Z j A j rangszám csökkentés a kifejezés második részére van csak hatással, ezért a továbbiakban csak ezzel a taggal foglalkozunk: σ(z; A) = m j=1 tr(z j A j Ŷj) D j (Z j A j Ŷj) (2.19) A változók nominális, ordinális, illetve numerikus típusa miatti megszorítások Z j -re a következ módon hatnak. a) Nominális változók esetében Z j minden oszlopa változatlan (nem szükséges korlátozást bevezetni). Ebben az esetben a σ(z; A) minimalizálását kell elvégezni az u D j Z j = 0, Z jd j Z j = I, illetve u D j Y j = 0 feltételek mellett. A stacionárius egyenletek az alábbiak: A j = Y j D j Z j, Y j A j = Z j W + uh, ahol W a Lagrange multiplikátorok szimmetrikus mátrixa. Megoldva az egyenletrendszert kapjuk: h = 1 u D j u A jy j D j u = 0 Behelyettesítve és bevezetve a Z j D 1/2 j Z j és az Y j D 1/2 j Y j jelöléseket az egyenletrendszerb l a következ t kapjuk: Y j Y jz j = Z j W. Ha Y j SVD felbontása Y j = KΛL, akkor belátható, hogy Z j = K r O, ahol O egy tetsz leges rotációs mátrix. Így Z j = D 1/2 j K r O, és A j = Y jz j = L r Λ r O. Továbbá Z j A j = D 1/2 j K r Λ r L r. 18
22 b) Ordinális változók esetén Z j els oszlopa vagy növekv, vagy csökken értékekb l állhat, a többi oszlopára nem vonatkozik semmilyen korlátozás. Ismét a σ(z; A) kifejezést kell minimalizálni a Z jd j Z j = I feltétel mellett (és tetsz leges további Z j -re vonatkozó feltételek mellett). Ha A j szerint minimalizálunk megoldhatjuk a tr(z jd j Y j Y j D j Z j )-t Z jd j Z j = I esetén. c) Numerikus változók esetén Z j els oszlopa rögzített, jelöljük ezt az oszlopot z j0 -val, a többi oszlop szabadon meghatározható. A rögzített oszlop miatt a σ(z; A) a következ alakra írható át: m σ(z; A) = tr(z j A j + z j0 a j0 Ŷj) D j (Z j A j + z j0 a j0 Ŷj). j=1 Mivel z j0 oszlop rögzített Z j rangja k j (r j 1), továbbá az a j0 vektort els oszlopaként tartalmazó A j mátrix rangja p (r j 1). A minimalizálás szükséges feltétele ebben az esetben z j0d j Z j = 0. A fenti megközelítésnek két fontos hatása van: 1. Egyszer bb és könnyebben interpretálható homals modelleket illeszthetünk az adatbázisainkra, mivel nem szükséges a dimenziószám csökkentése. Egyidej leg megkapjuk a meggyelési pontszámokat, illetve az egyes (rangszám csökkentés utáni) kategória értékeléseket. 2. Egyszer vé válik a változók különböz skálaszintjeinek összefogása A minimalizálási algoritmus tulajdonságai Az algoritmus vizsgálatához tekintsük a 2.18 alakban felírt veszteségfüggvény 2.19 egyenletben is szerepl második részének egy tagját. Az egyszer bb tárgyalás érdekében hagyjuk el a mátrixok indexálását is 2 : σ j (Z, A) = tr(za Ŷ ) D(ZA Ŷ ) (2.20) Az új - index nélküli - jelölésnek megfelel en Ŷ k p, Z mátrix k r, az A mátrix pedig p r méret. A Z mátrix els z 0 oszlopa feltétel szerint K konvex kúpban van, 2 a függvény elnevezésének indexálása jelzi, hogy csak egy függvéynrészletr l van szó 19
23 hiszen a fentebb tárgyalt vetítések minden j változóra egy K j konvex kúpra vetítenek. A Z mátrixnak még a szokásos normalizálási feltételeknek is eleget kell tennie: u DZ = 0 és Z DZ = I. Az algoritmus alapötlete az újraskálázás melletti alternáló legkisebb négyzet módszer használata. Tehát rögzített A mellett minimalizálunk Z szerint és rögzített Z mellett minimalizálunk A szerint. A szokásostól elér en ne alkalmazzuk a normalizáló feltételeket akkor, amikor Z szerint optimalizálunk. Az alábbiakban látható lesz, hogy ennek ellenére normalizált megoldások sorozatát kapjuk nemnövekv veszteségfüggvény-értékek mellett. Tegyük fel, hogy (Ẑ, Â) az aktuális legjobb megoldásunk. A javítás érdekében el ször minimalizálunk a normalizálatlan Z szerint rögzített A = Â mellett, megfelelve a konvex kúpra vonatkozó feltételnek. Jelöljük az így kapott mátrixot Z-vel és a hozzákapcsolódó 2.20-beli kifejezés értékét σ j ( Z, Â)-al. Nyilván σ j ( Z, Â) σj(ẑ, Â), (2.21) de Z nem normalizált. Bontsuk fel Z-t Z = Z + S alakba a súlyozott Gram-Schmidt módszerrel, ahol S egy Gram-Schmidt háromszög mátrix. A Gram-Schmidt eljárás tulajdonsága miatt Z + els z 0 + el fordulhat, hogy oszlopa kielégíti a konvex kúpra vonatkozó feltételt. Ugyanakkor σ j (Z +, Â) > σj(ẑ, Â). (2.22) Ez a csökken veszteségfüggvény-érték sorozaton alapuló konvergenciát rontaná el. Ennek elkerülése érdekében helyettesítsük az egyenl tlenség baloldalán Â-t A = Â(S 1 ) - tal, így fennáll a ZÂ = Z + A, és így σ j (Z +, A) = σ j ( Z, Â) (2.23) Végül minimalizájuk A szerint a σ j (Z +, A)-t, az optimumot jelöljük A + -al. Mivel σ j (Z +, A + ) σ j (Z +, A) a fenti egyenl ségeket és egyenl tlenségeket összefoglalva a következ t kapjuk: σ j (Z +, A + ) σ j (Z +, A) = σ j ( Z, Â) σj(ẑ, Â) (2.24) Tehát végs soron elértük, hogy Z és A szerinti opotimalizálás során egyik iterációs lépésben sem növekszik a veszteségfüggvény értéke. 20
24 Ugyanakkor szimulációk sora bizonyítja - és az elemzéseim során én is találkoztam a jelenséggel -, hogy az iterációs lépések során lokális minimumhelyek el fordulhatnak, melyekr l "továbblépve" a veszteségfüggvény értéke növekszik [10]. Meulman és munkatársai kísérleteket végeztek arra vonatkozóan, hogy milyen adatstruktúra esetén fordul el gyakrabban lokális minimum az algoritmus számolása során. Három tényez t találtak, ami befolyásolhatja a jelenséget: a modell alacsony, illetve kevésbé alacsony magyarázó ereje kategóriák magasabb számossága magasabb multikollinearitás (egy változó több összefüggésben szerepel, a változók nem függetlenek egymástól) A szimulációk során a kezdeti értékeket véletlenszer en meghatározva ordinális, vagy monoton skálázású magyarázó változók, illetve numerikus függ változók esetén különböz magyarázó er re (R 2 ) vonatkozó értékeket kaphatunk. Továbbá ugyanazon véletelen kezdeti értékek mellett a magyarázó változók eltér sorrend beemelése a háttér algoritmusba szintén különböz R 2 értékeket eredményez. Maximum 2 q különböz R 2 értéket kaphatunk véletlen kezdeti értékek és q db ordinális, vagy monoton skálájú magyarázó változó esetén. Ugyanakkor az eltér kezdeti értékek nem befolyásolják a modellek magyarázó erejét. 21
25 3. fejezet Adatelemzések az R és az SPSS szoftverekkel 3.1. R program homals csomagjával végzett homogenitás vizsgálat A következ két alfejezetben két konkrét elemzést mutatok be, melyek mindegyike az R program segítségével készült. Az els a homals (homogenitásvizsgálat alternáló legkisebb négyzetek módszerével) programcsomagot kifejleszt k által is használt mintaadaton, az publikációjuk alapján reprodukált elemzés [3]. A másik a 1.1 fejezetben bemutatott saját mintapéldán elvégzett hasonló, háromdimenziós homogenitásvizsgálat Homogenitás vizsgálat a beépített mintapéldán A programcsomagban elérehet "senate" adatbázis a szenátorok 2001-ben leadott szavazatait tartalmazza 20 kiválasztott kérdésre vonatkozóan (ADA (2002). "Voting Record: Shattered Promise of Liberal Progress." ADA Today, 57(1), 1-17.). A kérdések között szerepelnek belügyi, külügyi, gazdasági, hadügyi, környezetvédelmi és szociális vonatkozásúak is. Az R-ben található adattábla 50 republikánus, 49 demokrata és egy független szenátor szavazatát tartalmazza olyan kiválasztott kérdésekre vonatkozóan, amelyek tekintetében a liberális és a konzervatív vélemény élesen eltér egymástól. A publikációban ismertetett következ parancssorokat én is lefuttattam az R-programban: 22
26 > library("homals") - meghívja a programcsomagot > data("senate") - betölti az R-ben található adattáblát > res<-homals(senate, active=c(false, rep(true, 20)), ndim=3) - lefuttatja a homals parancsot a senate adattábla els oszlopát követ 20 oszlopának adatain A futtatás eredménye számszer leg a következ volt: > res Call: homals(data = senate, ndim = 3, active = c(false, rep(true, 20))) Loss: " - a minimalizált veszteségfüggvény értéke Eigenvalues - ún. sajátértékek, melyek a homals adott dimenziókbeli jóságát jelzik (ld.2.9) Az ehhez kapcsolódó screeplot ábra: D1 D2 D Scree plot Eigenvalue Dimension 3.1. ábra. Szenátori szavazatok screeplot ábrája A megoldáshoz tartozó sajátértékek az egyes dimenziók esetében rendre: 0,0060, 0,0037, illetve 13. A sajátértékek összege mindössze 0,0110. Variable Loadings - az X mátrix, vagyis a meggyelések 3-dimenzióra "vetített" koor- 23
27 dinátái: D1 D2 D3 P arty V V V V V V V V V V V V V V V V V V V V Az elemzés grakus megjelenítését is a publikáció alapján végeztem el (a szükséges parancsok a függelékben találhatóak meg), azonban a kapott ábrák nem azonosak teljes mértékben a publikációban találhatóakkal. Leginkább az "object plot" háromdimenziós ábrája tér el a publikációban foglaltaktól, míg a "span plot" ábrák csak skálázásukban mutatnak más képet összehasonlítva a tanulmányban szerepl kkel. Leeuw és Mair cikkükben azt állítják, hogy az 1. és 2. dimenzió egymással szemben nem határolja el jól egymástól a demokratákat és a republikánusokat, míg ha a 3. dimenzió 24
28 3.2. ábra. Szenátori szavazatok object plot grakonjai Span plot for Party Span plot for Party Span plot for Party (D) (I) (R) (D) (I) (R) (D) (I) (R) ábra. Szenátori szavazatok span plot grakonjai is bevonásra kerül, akkor - az utolsó két grakon szerint - az elkülönítés nyílvánvaló. Véleményem szerint viszont épp az els dimenzió az, ami jobban szeparálja a szenátorokat, míg a 2. és 3. dimenzió szerinti metszetet tartalmazó harmadik grakonon a demokrata és republikánus szenátorok csoportjai teljesen egymásba olvadnak. A függelékben szerepl parancssorral el állítható "Loadings plot" ábrával kapcsolatban az idézett szerz k a 19. kérdéssel kapcsolatban - a többi kérdést l eltér, kiugró elhelyezkedése miatt - állapítják meg azt, hogy az erre adott válasz (igen/nem) nem a pártállás, hanem els sorban a delegáló választókörzet értékítéletét tükrözi. Sajnos, az általam el állított ábrán ehhez a kérdéshez tartozó pont nem különül el a többi kérdés 25
29 pontjaitól. Loadings plot Party V20 V4 V15 V5 V17 V ábra. Szenátori szavazatok loadings plot grakonja Az alábbi klasszikációs táblázatból kiolvasható, hogy a meggyelt pártálláshoz (oszlopok) képest a modell a szenátorokat szavazataik alapján milyen pártállásúnak nyilvánította (sorok). El fordulhat, hogy egy egyszer homals megoldás során egy alacsonyabb dimenziószámú megoldás jobb eredményt ad, mint egy magasabb dimenziójú. Ugyanis a módszertannak nem része a klasszikációs arány optimalizálásának feladata. Ebben az esetben - az alábbi táblázat átlójában található értékek összege alapján - a szenátorok 90%-a került a megfelel kategóriába: pre obs (D) (I) (R) (D) (I) (R) Homogenitás vizsgálat a saját mintapéldán Az adattábla tartalmának az "adat" változóba történ beolvasása után lefuttattam az R programcsomag homals parancsát. A futtatás számszer eredménye az alábbi lett: Call: homals(data = adat, ndim = 3, active = c(false, rep(true, 8))) 26
30 Loss: Eigenvalues: D1 D2 D Variable Loadings: D1 D2 D3 nem ovoda elso matek nyelvtan irodalom magatartas szorgalom Scree plot Eigenvalue Dimension 3.5. ábra. Mintaadat elemzésének screeplot ábrája A megoldáshoz tartozó sajátértékek az egyes dimenziók esetében rendre: 0,0263, 0,0281, illetve A sajátértékek összege 0,0741. Az elemzés grakai megjelenítését is elvégeztem. A kapott ábrák segítségével mutatom be az eredményeket. Az els ábrán pirossal határoltam azt a területet, ahol a n nem tanulók sorszámai szerepelnek. A változónként elkészített ábrák közül az els a tanulókat nemük szerint bontja meg 27
31 3.6. ábra. Mintaadatok 3-dimenziós elhelyezkedése - object plot (2=ú, 1=lány) két-két dimenzió vonatkozásában. Az ábrák szerint a 2. dimenzió határolja el a legjobban a nemeket egymástól. Span plot for nem Span plot for nem Span plot for nem ábra. Els ábracsoport - nem A második ábracsoport a tanulókat az óvodában töltött éveik száma szerint jeleníti meg (1="egyáltalán nem jártam óvodába", 2="kevesebb, mint egy évig", 3="egy évig", 4="egy és két év között", 5="két évig", 6="több, mint két évig"). A mintaadat-tábla csak 2, 3, illetve 4 besorolású tanulókat tartalmazott. Itt a 3. dimenzió esetében állapíthatjuk meg, hogy viszonylag jól elhatárolja a törvényileg kötelez 1 évet, illetve az 1 évnél többet óvodában töltött tanulókat egymástól. A harmadik ábracsoport a tanulókat aszerint bontja meg, hogy hány évesen kezdték 28
32 Span plot for óvoda Span plot for óvoda Span plot for óvoda ábra. Második ábracsoport - óvodában töltött évek száma meg iskolai tanulmányaikat (6, vagy 7 évesen). Itt az 1-2, illetve az 1-3 dimenziópárok határolják el jól egymástól az egyes kategóriákat. Span plot for elso Span plot for elso Span plot for elso ábra. Harmadik ábracsoport - 6 vagy 7 évesen mentek els osztályba Az negyedik ábracsoport a tanulók matematikából szerzett érdemjegyét jeleníti meg (elégtelen nincs). A három ábrából látszik, hogy az els dimenzió választja el élesen egymástól a rosszabb (2-es, 3-as), illetve a jó (4-es, 5-ös osztályzatot szerz ) tanulókat. A ötödik ábracsoport a tanulók nyelvtanból szerzett érdemjegyét jeleníti meg (elégtelen és ötös osztályzat nincs, illetve van egy NA érték). A három ábrából látszik, hogy ebben az esetben is az els dimenzió választja el élesen egymástól a rosszabb, illetve a jó tanulókat. A hatodik ábracsoport a tanulók irodalomból szerzett érdemjegyét jeleníti meg. Az eddig ábrázolt tantárgyak közül ebben az esetben a leggyengébb az els dimenzió elhatárolóereje, de még mindig ez a dimenzió választja el legjobban az 5-ös tanulókat a többiekt l. 29
33 Span plot for matek Span plot for matek Span plot for matek ábra. Negyedik ábracsoport - matematikából szerzett érdemjegy Span plot for nyelvtan Span plot for nyelvtan Span plot for nyelvtan ábra. Ötödik ábracsoport - nyelvtanból szerzett érdemjegy Span plot for irodalom Span plot for irodalom Span plot for irodalom ábra. Hatodik ábracsoport - irodalomból szerzett érdemjegy A hetedik ábracsoport a tanulók magatartás jegyét ábrázolja. Ez esetben a második dimenzió választja el élesen a rossz (3-as), illetve a jó (4-es, 5-ös) magaviselet tanulókat 30
34 egymástól. Span plot for magatartas Span plot for magatartas Span plot for magatartas ábra. Hetedik ábracsoport - magatartásból szerzett érdemjegy A nyolcadik ábracsoport a tanulók szorgalomra kapott érdemjegyeit ábrázolja. Ez esetben az 1-2., illetve a 2-3. dimenziópárok választják el jól egymástól a rossz (2-es, 3-as), illetve a jó (4-es, 5-ös) szorgalmú tanulókat. Span plot for szorgalom Span plot for szorgalom Span plot for szorgalom ábra. Nyolcadik ábracsoport - szorgalomból szerzett érdemjegy A "Loadings Plot" ábra szerint az irodalom és a nem változók értékei esetében mindhárom dimenzióra kapott "variable loadings" érték pozitív, míg a többi változó esetében az értékek közül legalább egy negatív el jel. Hangsúlyozva, hogy a korlátozott rekordszám miatt ebb l az ábrából sem szabad messzemen következtetéseket levonni, megállapíthatjuk, hogy ezen 20 tanuló esetében a nemük láthatóan hatással van az irodalomból szerzett érdemjegyükre, méghozzá általában a úk kapnak jobb jegyet irodalomból. Azt tapasztaljuk továbbá, hogy a szorgalom 31
35 Loadings plot nem irodalom szorgalom matek magatartas elso nyelvtan óvoda ábra. Loadings Plot hatással van a matematika eredményekre: a szorgalomból jobb jegyet szerz k rendszerint matematikából is jobban teljesítenek. A kapott homals megoldás klasszikációs képessége az egyes változók esetében a következ táblázatból olvasható ki. Classif ication rate : V ariable Cl.Rate Cl.Rate nem ovoda elso matek nyelvtan irodalom magatartas szorgalom Például a mintaadat 20 eleme közül 19-et sorolt be jól aszerint, hogy a diákok hány 32
36 évesen kezdték meg általános iskolai tanulmányaikat. pre obs Nagyobb elemszámú minta elemzése az R programmal A fenti elemzéseket eddig didaktikai szempontból egy sz k mintaadaton mutattam be. A mostani fejezetben az R programcsomag kapacitását kihasználó, legb vebb elemszámú adatbázison végzem el az elemzést. Eredeti elképzelésem az volt, hogy az R kapacitásának korlátai miatt a tanulóknak csak egy adott részcsoportjának vizsgálatát folytatom le. Els lépésben megnéztem, hogy a tanulók milyen arányban oszlanak meg a következ két változó szerint: telephely (a telephely azonosítója) és osztid (a tanuló osztályának sorszáma). Majd a legnagyobb elemszámú csoporttól indulva kipróbáltam, hogy melyik az a részcsoport, amire még a homals parancs lefuttatható ábra. Tanulók megoszlása telephely és osztid változó szerint Sajnos a legnagyobb elemszámú csoport - az 1-es telephely és 11-es osztid besorolású tanulók - esetében az R program nem tudta eltárolni a számolás során keletkez vektort, annak mérete miatt. Ez a probléma akkor is fennállt, amikor az adattáblából kiszedtem azokat a tanulókat, akiknél vagy mind a 8 vizsgált adat hiányzott, vagy az 5 tantárgyból szerzett érdemjegy egyike sem volt ismert, illetve ahol az óvodában töltött évek és az 33
37 els s életkora is hiányzott ezáltal kicsit több mint rekordszámra csökkentve az elemzend adatok körét. Hasonló okokból a második legnagyobb számú - 1-es telephely, 12-es osztid besorolású - adatbázison sem futott le a homals parancs. A csupa NA értéket tartalmazó rekordok kiszedése után a végs adattábla sort tartalmazott, de a futtatás során kapott hibaüzenet szerint egy 2.4 Gb méret vektort nem sikerült a programnak allokálnia. A harmadik legnagyobb számú - 1-es telephely, 13-as osztid besorolású - adatbázison sem futott le a homals parancs. A csupa NA értéket tartalmazó rekordok kiszedése után a végs adattábla sort tartalmazott, de a futtatás során kapott hibaüzenet szerint egy Mb méret vektort sem sikerült a programnak allokálnia. Ezt követ en - mivel a többi részcsoport nagyságrendileg kevesebb tanulót foglalt magában - próbálgatással teszteltem le, hogy 3000 tanuló esetében a futtatás már végrehajtható. Így véletlenszer en, de az egyes telephelyekr l az eredeti tanulólétszámmal arányosan választva ki 3000 tanulót végeztem el a következ elemzést. 1 Az így kapott adatbázisra lefuttattam a homals parancsot 3 dimenzióra a fenti alfejezetekben leírtak szerint. A futtatás eredménye a következ volt: Loss: e-05 Eigenvalues: D1 D2 D Variable Loadings: 1 A véletlenszám generálást a honlap segítségével végeztem. Az egyes telephelyekr l rendre 2785, 125, 52, 23, 7, 2, 4, 1, 0, 1 tanulót választva ki. 34
38 D1 D2 D3 nem ovoda elsos matek nyelvtan irodalom magatartas szorgalom Scree plot Eigenvalue Dimension ábra. Az elemzés screeplot ábrája A megoldáshoz tartozó sajátértékek az egyes dimenziók esetében rendre: 0,0305, 0,0203, illetve A sajátértékek összege 0,0667. Az elkészített object plot ábrán is látszik az, amit majd az egyes dimenziópárok és változók esetében is meggyelhetünk, hogy egyik dimenzió sem szeparálja a tanulókat a változók értékei mentén. A középs nagy blokktól elkülönül értékek sorszámai alapján beazonosíthatóak az egyes tanulók. Az ábra bal fels sarkában lév 1276-os sorszámú diáknak csak a szorgalomból szerzett osztályzata (jeles) ismert. A jobb fels sarokba mutató "nyúlvány" utolsó három pontjának sorszámai jobb fentr l bal lefelé haladva rendre 1623 és 2643 (ezek szinte egymáson helyezkednek el), illetve Ezen három tanuló értékei az egyes változókra 35
39 3.18. ábra. Mintaadatok 3-dimenziós elhelyezkedése - object plot vonatkozóan a következ k: sorszam nem ovoda elsos matek nyelvtan irodalom magatartas szorgalom A táblázat alapján sejthet - amit majd az alábbi néhány, illetve a függelékben található dimenziópáronkénti és változónkénti ábrákból is kiolvasható lesz -, hogy a "nyúlványban" a rosszul tanuló diákok helyezkednek el. Span plot for ovoda Span plot for ovoda Span plot for ovoda ábra. Az óvodában töltött évek száma Az óvodában töltött évek számára vonatkozóan változó 1-t l 6-ig vehet fel kategóriaértékeket a következ megfeleltetés szerint: 1="egyáltalán nem jártam óvodába", 2="ke- 36
40 Span plot for irodalom Span plot for irodalom Span plot for irodalom ábra. Irodalomból szerzett érdemjegy vesebb, mint egy évig", 3="egy évig", 4="egy és két év között", 5="két évig", 6="több, mint két évig". Az elkészített grakonon a kiugró értékek között kizárólag az "egy évig" besorolású tanulók szerepelnek (az "üres" érték ek mellett), azonban ezen tanulók között van olyan is, aki a középs gócban található. Az irodalomból szerzett érdemjegyeket ábrázolva az egyes dimenziók mentén meggyelhet, hogy az összes elégtelen osztályzatot szerz és csak azok szerepelnek a grakonok "nyúlványaiban". A többi tantárggyal összevetve megfogalmazható, hogy jellemz en a rosszabb tanuló diákok kerültek a "nyúlványba". A "loadings plot" ábrából több érdekes következtetést vonhatunk le. Egyrészt az óvodában töltött évek száma hatással van a humán (magyar nyelv és irodalom) tárgyakban történ el menetelre, illetve a magatartás és szorgalom osztályzatokra. Míg a matematika osztályzat a háromdimenziós ábra különálló részén található, jelezve, hogy a matematikai teljesítmény kevésbé függ a többi input változótól. Hasonlóan a nem és az els s életkor sincs nagy hatással sem egymásra, sem a többi változóra. A 3000-es minta alapján elkészített modell klasszikációs képessége több változó esetében meglehet sen alacsony, amint az az alábbi táblázatból is látszik. Jobb a klasszikációs 37
41 Loadings plot nyelvtan szorgalom ovoda magatartas irodalom matematika elsos nem ábra. Loadings Plot képessége az érdemjegyekre, illetve a nem meghatározására vonatkozóan. Classif ication rate : V ariable Cl.Rate Cl.Rate nem ovoda elsos matematika nyelvtan irodalom magatartas szorgalom A változók közül az óvodában töltött évek számára vonatkozó klasszikációs képességet érdemes részletesebben megvizsgálni. Az értékkel rendelkez 2976 rekord közül 1092-t sorolt be megfelel en a modell. A téves besorolások közül 1724 esetben rövidebbnek ítélte meg a modell az óvodában töltött évek számát, és csupán 160 esetben hosszabbnak a 38
42 valódinál. pre obs nem jart ovodaba kevesebb mint 1 evet pontosan 1 evet es ket ev kozott evet tobb mint 2 evet HOMALS és a nemlineáris f komponens analízis közötti különbség bemutatása egy példán A különbség érzékeltetéséhez [4] alapján az R program beéített "sleeping" adatbázisát használom. Az adatbázis 21 hálózsákra vonatkozóan tartalmaz termékjellemz ket. A h mérséklet (Temperature), a súly (Weight), az ár (Price) numerikus, míg az anyagösszetétel (Material) nominális változó. Sajnos, a cikkben szerepl min ségi besorolás (quality rating) elnevezés ordinális változó nincs benne az általam megtalált adatbázisban. Az adatbázison kétféleképpen futtattam le a homals parancsot. Els esetben minden kiegészít paraméter nélkül két dimenzióra végeztettem el a számítást (HOMALS), míg a második esetben rangszámcsökkentéses futtatáskor kihasználtam a változók típusára vonatkozó információt (nemlineáris f komponens analízis - NLPCA). A két parancs rendre az alábbi volt: >res<-homals(sleeping, ndim=2) >res<-homals(sleeping, rank=1, level=c(rep("numerical",3),"nominal")) A futtatások eredményét végül egy joint plot ábrán jelenítettem meg. A baloldali ábra a homals parancs joint plot grakonja, amely a meggyelésekhez és a kategóriákhoz tartozó pontokat ábrázolja a modell által meghatározott dimenziók függvényében. A megoldáshoz tartozó sajátértékek az egyes dimenziók esetében rendre: 0,1178, illetve 0,1163. A sajátértékekb l következtetést vonhatunk le az illeszkedés jóságának mértékére. Ebben az esetben az összegük 0,2341. A jobboldali grakon az 1-rangszámú NLPCA számításhoz tartozik, ahol a változók 39
43 Joint Plot Joint Plot Ultraloft Tyin Temperature 10 Weight Price Mont 1550 Blanc Cat s Igloo Polarguard Terraloft Super Meow 549 Sund Cobra Comfort Climber Travellers Yeti light Dream Finmark Tour Cobra Interlight L Fox Hollow bermaterial re Thermolite Donna 1750 Duck downs Goose downs Kompakt Basic MTI Loft Climber Viking Eiger Kompakt Touch 1460 the Cloud Liteloft One 2060 Kilo Bag Travellers Dream Yeti light Temperature Weight Tyin Price Material One Kilo Bag Ultraloft Igloo Super 1800 Cobra Comfort Duck downs Mont Blanc Interlight 3 Lyx 1690 Goose downs 0 Donna Climber 1500 Cobra Eiger Sund Terraloft MTI Polarguard Loft Thermolite Liteloft Hollow ber 1380 Finmark Tour Climber light Fox re Touch the Cloud 1280 Cat s Kompakt 1200 Meow 970 Viking Kompakt Basic ábra. Korlátozatlan és 1-rangszámú homals megoldás skálatípusára vonatkozó információt is beépítettem a futtatási parancsba. Ebben az esetben csak egy kategória pontszám sorozat becslése készült el. Nyilvánvalóan a 2. dimenzió kategóriapontszámai egyszer lineáris kombinációi a 2. dimenzió pontszámainak. Gyakorlati szempontból - pl marketing döntés támogatására - ez a korlátozottabb modell megkönnyíti a termékek pozícionálását. Például a hálózsák értékesít k azonnal látják a hatást és a létrejöv piaci pozíciót egy esetleges árváltoztatás esetében. Így annak ellenére, hogy a sajátértékek alapján ez egy kevésbé jó modell (a sajátértékek rendre: 0,0777, illetve 0,0320; az összegük 0,1097), mégis gyakorlati szempontból kedvez bb a használata. Természetesen a különböz hatások vizsgálata az alap homals elemzés esetében is lehetségesek, de egy ilyen korlátozott NLPCA esetében az illusztráció sokkal kézenfekv bb Elemzés PASW Statistics szoftverrel A kérd ív a tanulmányi el menetelen, illetve a tanrendszerben töltött id felmérésén túl kitért a tanulók családi, szociális helyzetére is. Így például a szül k végzettségére, a család média ellátottságára, az együttél családtagok számára és összetételére, az otthon kapott tanulási segítségre, stb. Az eddigi - R programmal végzett - elemzések során nem nyílt lehet ség a teljes adatbázisra vonatkozó elemzés készítésére. A mostani fejezetben az SPSS szoftver segítségével igyekszem egy átfogóbb képet adni a nyolcadik osztályos 40
44 tanulókról F komponens analízist l a homogenitásvizsgálatig A F komponens analízis (PCA - principal component analysis) egy többváltozós elemzési eszköz, mely különböz célokból, eltér megközelítésekben is használható. PCA alapvet eszköz egy adatmátrix alacsony rangú legkisebb négyzetes megközelítés elemzéséhez annak érdekében, hogy feltárjuk a legkisebb, vagy legnagyobb varianciájú lineáris kombinációkat; lineáris modellt illesszünk az adatokra; vagy faktorelemzést végezhessünk. A f komponensanalízis egy lineáris eszköz abban az értelemben, hogy a meggyeléseket a f komponensek lineáris kombinációjával közelíti. Megoldható a "bilinearizálása" oly módon és értelemben, hogy az adatmátrixot bels szorzatokkal közelíti, amik a komponens pontszámok (component scores) és a komponens értékelések (component loadings) kétváltozós függvényei. A f komponensanalízist akkor használjuk, ha egy nagy összetett adatbázist szeretnénk egyszer bb alakra hozni. Hasonlóan a már ismertetett homogenitásvizsgálati módszertannal, feltesszük, hogy van egy X = x ij n sorból (meggyelések) és m oszlopból (változók) álló mátrixunk. Az elemzés során el szeretnénk állítani a p-dimenziós euklideszi térben egy reprezentációját ennek az X mátrixnak. A megoldásnak számos, látszólag különböz, de matematikailag egyenérték módja létezik: például hasonlóan a homogenitásvizsgálathoz veszteségfüggvény-minimalizálással, vagy SVD felbontással is elvégezhetjük a feladatot. A módszer szoros kapcsolatban áll az egyszer korrespondencia analízissel (CA - correspondence analysis) és a többváltozós korrespondencia analízissel (MCA -multiple correspondence analysis), ez utóbbit más terminológiában a homogenitásvizsgálatnak is nevezik. A homogenitásvizsgálat a nominális skálán mért (kategórikus) adatokat min síti azáltal, hogy az esetekhez (meggyelésekhez) és a kategóriákhoz numerikus értéket rendel oly módon, hogy az azonos kategóriába es meggyelések közel kerüljenek egymáshoz, az eltér kategóriákhoz tartozók pedig távol legyenek egymástól. Minden meggyelés a lehet legközelebb legyen a hozzátartozó kategória kategóriapontjához. Ezáltal a kategóriák homogén alcsoportokra bontják a meggyeléseket. A változókat homogéneknek tekintjük, ha az azonos kategóriákat azonos csoportokba sorolják, emiatt is nevezhetjük az eljárást 41
45 homogenitásvizsgálatnak is. Két változóra készített többváltozós korrespondencia analízis megegyezik az egyszer korrespondencia elemzéssel. Amennyiben a változók között van ordinális, vagy numerikus tulajdonságú is, akkor az SPSS eszköztárából a kategórikus f komponens analízist (CATPCA - Categorical Principal Components Analysis) célszer használni. A tanulókra vonatkozó adatbázis változóinak jelent s része kategórikus változó, így ez utóbbi módszertannal foglalkozunk a továbbiakban. A kategórikus f komponens analízis egyidej leg értékeli a kategórikus változókat, miközben az adatbázis dimenzióját is csökkenti (hasonlóan az R-beli homals eszközhöz). A módszer célja egy olyan kisebb méret független komponensekb l álló változókészlet kialakítása, amely a lehet legjobban tükrözi vissza az eredeti változókban található információkat. Az elemzési eszköz hasznos az olyan esetekben, amikor a változók nagy száma lehetetlenné teszi a meggyelések közötti kapcsolatok hatékony interpretálását. A CATPCA segítségével lecsökkentett dimenziószám révén kialakuló néhány komponenst már sokkal könnyebb érzékletesen bemutatni. Ugyanakkor míg a hagyományos f komponens analízis a numerikus változók között lineáris kapcsolatot feltételez, a kategórikus f komponens analízis nemlineáris kapcsolatok modellezésére is képes. Az elemzés sikerességének egyetlen kritériuma, hogy a meggyelési/komponens pontszámoknak (component scores) minden egyes elemzésbe bevont változóval vett korrelációja nagy legyen Az SPSS szoftverrel készített elemzésben használt mutatószámok Az elemzés során felhasználásra kerül módszerek közül a kevésbé elterjedteket mutatom be ebben az alfejezetben. A Kaiser-Meyer-Olkin mutató a tényleges (a parciális korrelációs együtthatóval mérhet ) ok-okozati kapcsolatok és a látens változóstruktúra hatására visszavezethet kapcsolatok arányát fejezi ki. Azt teszteli, hogy milyen mérték ek a parciális korrelációk 42
46 a faktoranalízisbe bevont változók között. Kiszámítása a következ képlettel történik [12]: KMO = p p i=1 j=1,i j r2 ij p i=1 p j=1,i j ρ2 ij + p i=1 p j=1,i j r2 ij, (3.1) ahol r ij = R(X i, X j )-vel a korrelációs együtthatót, ρ ij -vel a parciális korrelációs együtthatót (ahol a többi változó hatását rögzítettnek tekintjük) jelöljük. A KMO képlete azon a gondolaton alapszik, hogy két változó között a tényleges korreláció felbontható egy, a többi változó által lineáris regresszióval megmagyarázható, és egy lineáris regresszióval meg nem magyarázható részre. Az el bbit a páronkénti korrelációs együtthatók, míg utóbbit a parciális korrelációs együtthatók mérik. Ezek szerint a KMO-mutató megmutatja, hogy az összes változópár közötti korreláció mekkora hányada magyarázható lineáris regresszióval. Minél közelebb van a mutató értéke az 1-hez, a változórendszer annál inkább alkalmas a többváltozós elemzésre. A Bartlett-teszt azt a nullhipotézist teszteli, hogy a vizsgálatba bevont változók korrelációs-mátrixa egységmátrix-e. A hipotézis elfogadása azt jelentené, hogy a változók páronként korrelálatlanok. Ennek alapján látens változóstruktúra akkor áll fenn, ha a Bartlett-teszt szignikanciája kisebb mint 5%. A próbastatisztika teszteli a csoportok közötti variancia azonosságát azzal az alternatívával szemben, hogy legalább két csoport esetében eltér a variancia: T = (n k/3 1, 8) lg R (3.2) A fenti képletben n a meggyelések, k a vizsgálatba bevont változók száma, R a változók közötti korrelációs mátrix determinánsa. Az α szignikancia szint mellett a nullhipotézist elvetjük (azaz a varianciákat nem találjuk egyenl knek), ha T > χ 2 (α,k 1), ahol χ 2 (α,k 1) a χ 2 eloszlás fels kritikus értéke α szignikancia szint és k 1 szabadságfok mellett. A Cronbach alfa a bels konzisztenciát méri, vagyis azt, hogy az egy csoportba tartozó elemek mennyire vannnak közeli kapcsolatban. A mutató felírható a vizsgált elemek száma és az elemek közötti átlagos korrelációk segítségével. Standardizált esetben (0 várható érték, 1 szórású változók esetén) a képlet a következ : α = mc ν + (m 1)c, (3.3) 43
47 ahol az m a változók számát, c az átlagos páronkénti kovarianciát, ν az átlagos varianciát jelöli [11]. A mutató nem egy statisztikai teszt, hanem egy megbízhatóságot, illetve konzisztenciát jelz mutatószám. Mint láthatjuk, ha a változók száma vagy az átlagos korreláció alacsony értéket vesz fel, akkor a Cronbach-féle alfa értéke is kicsi lesz. Az is egyértelm, hogy az itemek közötti alacsony korreláció arra enged következtetni, hogy a változók nem egy és ugyanazon dolog vizsgálatára szolgálnak. A Cronbach-féle alfa annak köszönheti népszer ségét, hogy viszonylag könnyen kiszámítható, de sajnos még az alfa nagy értéke sem jelenti azt, hogy a változók egy "közös" jelenséget mérnek, így az "egydimenziósságot" másképpen kell igazolni Homogenitásvizsgálat az SPSS szoftverrel Az SPSS szoftverrel sikerült a hiányzó értékeket tartalmazó cellákat kivéve a teljes adatbázisra elvégezni az elemzést. A korábbi vizsgálatokhoz használt nyolc változón kívül az elemzésbe bevontam a szül k legmagasabb iskolai végzettségét, illetve a szül k rendszeres munkájára vonatkozó információt tartalmazó változókat is. A feliratozáshoz a "Mi az a legmagasabb iskolai végzettség, amelyet szeretnél elérni?" változó kategóriáit választottam ki. A kategórikus f komponens analízis tanulóra futott le, melyek közül esetében minden változó értéke ismert volt, míg diáknál voltak üres, vagy ismeretlen besorolású cellák a kiválasztott változók esetében. Az algoritmus 15 iterációs lépés után megállt, a kapott modell eredményeit a "CatPCA modell jellemz i" elnevezés táblázat tartalmazza. A sajátértékek azt mutatják meg, hogy az egyes dimenziók mennyire magyarázzák meg a teljes varianciát: az els dimenzió több, mint kétszer akkora mértékben magyaráz, mint a második. A táblázat tartalmazza a Cronbach alfa mutatót is, melynek 0,9 feletti értéke alapján a modellt kell en megbízhatónak min síthetjük. Annak érdekében, hogy ne csak egy mutató alapján szülessen döntés a modell elfogadhatóságáról, az SPSS szoftverrel kiszámítottam a Kaiser-Meyer-Olkin mutató értékét, illetve elvégeztem a Bartlett-tesztet. A 3.24 táblázatban szerepl eredmények szerint a 44
48 3.23. ábra. CatPCA model jellemz i KMO-mutató értéke 0.849, ami azt fejezi ki, hogy számos látens kapcsolat van a változórendszerben. A Bartlett próbához tartozó empirikus szignikancia szint kisebb mint 1%. Tehát a mutató és a próba alapján megállapítható, hogy a változórendszer alkalmas a többváltozós elemzésre ábra. KMO-mutató és Bartlett-teszt Az algoritmus eredményeképpen minden input változóra el áll egy táblázat, mely tartalmazza az egyes változóértékek értékelését (quantication), a dimenziónkénti vektor koordinátákat, és a súlyponti koordinátákat. Utóbbiak az azonos kategóriaértékhez tartozó meggyelések dimenziók szerinti értékeinek átlaga. A vektor koordináták a kategóriák azon koordinátái, amelyek esetén az egyes kategóriák egy egyenesen helyezkednek el. Az értelmezhet ség kedvéért vizsgáljuk meg a "Hány évig jártál óvodába?" kérdéshez tartozó változóra vonatkozó táblázatot és a kapcsolódó grakonokat: Az els grakon (Transformation) vízszintes tengelyén az eredeti kategóriaértékek, míg a függ leges tengelyén az optimális értékelés szerepel. Azon változók, ahol az el állított görbe közel egyenes, numerikus változóként interpretálhatóak. Ha viszont a görbe törést mutat, akkor valóban ordinális jelleg az adott változó, és az egyes kategóriértékelések 45
49 3.25. ábra. Óvodai évek számához tartozó változó értékelése és koordinátái ábra. Óvodai évek számához tartozó grakonok különbségeinek abszolútértékei mutatják meg a besorolások "távolságát". Például 3.26 ábracsoport els grakonján lényegesen elhatárolódik egymástól az "egyáltalán nem jártam óvodába" (1), illetve a "több, mint két évig" (6) a többi kategóriaértékt l. A "Hány éves voltál, amikor elkezdted az általános iskolát?" kérdésre adott válasz, illetve a magatartásból kapott érdemjegy els két kategóriájára a modell ugyanazt az értéket adta (iskola: -0,995; magatartás: -2,388), mely eredményb l adódik, hogy a hozzájuk kapcsolódó 3.27 transzformációs ábra egy-egy vízszintes szakasszal kezd dik. Ezek az eredmények azt mutatják, hogy a tanulók között nem tesz különbséget az, hogy 5, vagy 6 évesen mentek iskolába; illetve, hogy 1-est, avagy 2-est kaptak magatartásból. Emiatt célszer ezeket a kategóriákat összevonni. Az összevonás után a magatartás érdemjegyhez tartozó grakon közel lineáris lesz, hasonlóan a többi (szorgalomat kivéve) tantárgy függelékben szerepl grakonjához. 46
50 3.27. ábra. Esetek, ahol két-két kategória összevonható Visszatérve a 3.26 ábracsoporthoz, a második grakonon láthatóak a vektor koordináták és a súlyponti koordináták. A vektor koordináták azon pontok, amelyek az egyenesen helyezkednek el. A súlyponti koordináta a 6-os kategóriaérték esetében majdnem egybeesik a vektorkoordinátával (ebben a kategóriába esett a legtöbb meggyelés), míg a 4-es és 1-es esetekben viszonylag távol helyezkedik el az egyenest l. Ha az összes változó vektor koordinátáját és a hozzájuk tartozó egyenest egy grakonon ábrázoljuk, akkor kapjuk meg a 3.28 ábrát, melyet a kategória pontok joint plot ábrájának nevezünk. Az ábrából leolvasható egyrészt, hogy az egyes változók egymáshoz milyen közel, illetve egymáshoz képest milyen irányban helyezkednek el; valamint, hogy az egyes dimenziók szerinti varianciákból mennyit magyaráznak meg. A nem, az iskolai tanulmányok megkezdésével ("iskola"), illetve az óvodában töltött évek számával (ovoda) kapcsolatos változók elkülönülnek a többi változóhoz tartozó egyenesekt l. A három változó közül -illetve az összes változót tekintve is - a legkevésbé a nem változó magyarázza meg az egyes dimenziók varianciáját. Az irodalom, nyelvtan érdemjegyeket; a szül k végzettségét tartalmazó; illetve a szül k rendszeres munkákájára vonatkozó változók páronként nagyon közel, és a kategóriák szerint azonos irányban helyezkednek el. Az egyes tantárgyakból szerzett érdemjegyeket tartalmazó változókhoz tartozó egyenesek is viszonylag közel és egy irányban helyezkednek el. A szül k végzettsége magyaráz meg a legtöbbet mindkét dimenzió varianciájából. A kategórikus f komponens analízis megoldás dimenzióinak bemutatását a 3.29 Component Loadings ábrával kezdem el. Négy változó (nem, iskola, apa munka, anya munka) 47
51 3.28. ábra. Kategória pontok joint plot ábrája ábra. Component loadings ábra kivételével az összes változónak az els dimenzióban pozitív az értéke. Ez azt jelenti, hogy nincs egy olyan általános faktor, ami az összes változóval pozitívan korrelálna, ugyanakkor van olyan, ami a tantárgyi eredményekkel, az óvodában töltött évek számával, illetve a szül k végzettségével pozitív, míg a többi változóval negatív irányú kapcsolatban áll. A tanulmányi el menetelt tartalmazó változók egy csoportban helyezkednek el, és az 48
52 1-es dimenzióban magas értéket kaptak. Az óvoda és a magatartás változókhoz tartozó félegyenesek mer legesek egymásra, ami azt jelenti, hogy egymással nem korrelálnak. Hasonló viszonyban van egymással a szül k végzettségének csoportja és a nem változó. Az egyes vektorok hossza azt mutatja meg, hogy az adott változó mennyire illeszkedik a megoldáshoz. Ez alapján megállapíthatjuk, hogy az iskolai tanulmányok megkezdésekori életkor nem nagyon illeszkedik a modellbe, így a két-dimenziós modellb l ki is lehetne hagyni. Ugyanakkor el fordulhat, hogy magasabb dimenzióra végezve az elemzést jobban illeszkedne a modellbe a változó, de ennek vizsgálata meghaladja ezen dolgozat kereteit. 49
53 4. fejezet Összefoglalás Dolgozatomban igyekeztem ismertetést adni a feldolgozott szakirodalmak alapján a homogenitásvizsgálat módszertanáról, illetve az algoritmus bizonyos tulajdonságairól. További vizsgálat tárgya lehet, hogy a globális optimum elérése biztosítható-e valamilyen módon az algoritmus bizonyos módosításával. A konkrét elemzések során azt tapasztaltam, hogy bár az R-program valóban számos opcióval ellátott elemzési eszköztárral rendelkezik, kapacitáskorlátai miatt nagyobb adatállományok téljeskör elemzésére nem alkalmas. Az SPSS-en futtatott elemzés esetében semmilyen teljesítmény korlátba nem ütköztem, pedig ugyanazon a száítógépen futott mindkét program. Az utóbbi elemzés esetében a változó kör korlátozása, vagyis hogy az elemzésbe nem vontam be még több változót, kizárólag a személyes döntésemen múlt. A döntés oka egyrészt az R-beli elemzéssel történ esetleges összehasonlíthatóság, illetve terjedelmi önkorlátozás volt. Természetesen további módosításokkal mindkét (R-beli, illetve SPSS-beli) elemzés tovább nomítható, tökéletesíthet. Megvizsgálható, hogy az SPSS-ben milyen elemzés születik, ah azt kett dimenzió helyett háromra futtatjuk le. 50
54 Irodalomjegyzék [1] Greenacre M, Blasius J (2006). "Multiple Correspondence Analysis and Related Methods." Chapman&Hall/CRC, Boca Raton, FL. [2] Nenadi O,Greenacre M (2007). "Correspondence Analysis in R, with Two- and Three-dimensional Graphics: The ca Package." In Journal of Statistical Software,Vol. 20, Issue 3, May [3] Jan de Leeuw, Patrick Mair (2009). "Gi Methods for Optimal Scaling in R: The Package homals" In Journal of Statistical Software, Vol. 31, Issue 4, Aug [4] Jan de Leeuw, Patrick Mair (2009). "Rank and Set Restrictions for Homogeneity Analysis in R." In "JSM 2008 Proceedings, Statistical Computing Section," American Statistical Association., Alexandria, VA. [5] Jan de Leeuw, Patrick Mair (2008). "A General Framework for Multivariate Analysis with Optimal Scaling: The R Package aspect." UCLA Statistics Preprint Series. URL: [6] Jan de Leeuw, Patrick Mair (2007). "Homogeneity analysis in R: The package homals." UCLA Statistics Preprint Series, 525. URL: [7] Jan de Leeuw, George Michailidis (2007). "Homogeneity analysis using Absolute Deviation" UCLA Statistics Preprint Series, 346. URL: [8] Jan de Leeuw, George Michailidid (1998). "The Gi System of Descriptive Multivariate Analysis" UCLA Statistics Preprint Series, 204. URL: 51
55 [9] Jan de Leeuw, George Michailidis, Deborah J. Wang (1997). "Correspondence and Component Analysis" UCLA Statistics Preprint Series, 217. URL: [10] Van der Kooij, A.J., Meulman, J.J., Heiser, W.J.(2006). "Local Minima in Categorical Multiple Regression", Computational Statistics and Data Analysis, 50, p , [11] - letöltve [12] kela/mmfakt.pdf - letöltve [13] markm/statistics/eda357.pdf - letöltve [14] C. Eckart and G. Young (1936), The approximation of one matrix by another of lower rank, Psychometrika, vol. 1, pp , 52
56 A. Függelék Függelék A.1. Senate adattábla elemzésének kiegészítései Az alábbi utasításokkal rajzolhatóak meg a senate adatbázisra vonatkozóan az általam megkapott grakonok (az utasítások csak skálázásukban térnek el a hivatkozott cikkben szerepl khöz képest - utóbbiban a skálaértékek: xlim = c( 2, 3), ylim = c( 2, 3)): > plot3d(res, plot.type="objplot",sphere=false, bgpng=null) > plot(res, plot.type= "spanplot", plot.dim = c(1,2), var.subset =1, xlim=c(-0.05,0.05), ylim=c(- 0.05,0.05), asp=1) > plot(res, plot.type= "spanplot", plot.dim = c(1,3), var.subset =1, xlim=c(-0.05,0.05), ylim=c(- 0.05,0.08), asp=1) > plot(res, plot.type= "spanplot", plot.dim = c(2,3), var.subset =1, xlim=c(-0.05,0.05), ylim=c(- 0.05,0.08), asp=1) > par(mfrow=c(1,1)) > plot3dstatic(res, plot.type="loadplot") A modell klasszíkációs képességének meghatározásához szükséges parancsok: > p.res<predict(res) > p.res > p.rescl.tableparty 53
57 A.2. A saját 20 rekordból álló mintapélda elemzésének kiegészítései A homals parancsot az alábbi paraméterekkel futtattam le: > res<-homals(adat, active=c(false, rep Az elemzés grakai megjelenítéséhez a következ parancsokat használtam: > plot3d(res, plot.type="objplot", sphere=false, bgpng=null) > plot(res, plot.type="spanplot", plot.dim=c(1,2), var.subset=2,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(1,3), var.subset=2,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(2,3), var.subset=2,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(1,2), var.subset=3,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(1,3), var.subset=3,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(2,3), var.subset=3,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(1,2), var.subset=4,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(1,3), var.subset=4,asp=1) > plot(res, plot.type="spanplot", plot.dim=c(2,3), var.subset=4,asp=1)... és így tovább a többi változóra is. > plot3dstatic(res, plot.type="loadplot") A modell klasszíkációs képességének meghatározásához szükséges parancsok: > p.res<predict(res) > p.res > p.rescl.tableelso 54
58 A.3. A 3000 rekordból álló R programmal elkészített elemzés kiegészít ábrái Span plot for nem Span plot for nem Span plot for nem A.1. ábra. A nem változó szerint ábrázolva a tanulókat Span plot for elsos Span plot for elsos Span plot for elsos A.2. ábra. Hány évesen mentek els osztályba Span plot for matematika Span plot for matematika Span plot for matematika A.3. ábra. Matematikából szerzett érdemjegy
59 Span plot for nyelvtan Span plot for nyelvtan Span plot for nyelvtan A.4. ábra. Nyelvtanból szerzett érdemjegy Span plot for magatartas Span plot for magatartas Span plot for magatartas A.5. ábra. Magatartásból szerzett érdemjegy Span plot for szorgalom Span plot for szorgalom Span plot for szorgalom A.6. ábra. Szorgalomból szerzett érdemjegy A.4. Az SPSS szoftver segítségével végzett CatPCA elemzés kiegészítései 56
60 A.7. ábra. Nem változóhoz tartozó grakonok A.8. ábra. Iskolai tanulmányok megkezdésekori életkorhoz tartozó grakonok A.9. ábra. Matematikából szerzett érdemjegyhez tartozó grakonok 57
61 A.10. ábra. Magyar nyelvb l szerzett érdemjegyhez tartozó grakonok A.11. ábra. Irodalomból szerzett érdemjegyhez tartozó grakonok A.12. ábra. Magatartásból szerzett érdemjegyhez tartozó grakonok 58
Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28
Szinguláris értékek Wettl Ferenc 2015. április 3. Wettl Ferenc Szinguláris értékek 2015. április 3. 1 / 28 Tartalom 1 Szinguláris érték 2 Alkalmazások 3 Norma 4 Mátrixnorma Wettl Ferenc Szinguláris értékek
Megoldott feladatok november 30. n+3 szigorúan monoton csökken, 5. n+3. lim a n = lim. n+3 = 2n+3 n+4 2n+1
Megoldott feladatok 00. november 0.. Feladat: Vizsgáljuk az a n = n+ n+ sorozat monotonitását, korlátosságát és konvergenciáját. Konvergencia esetén számítsuk ki a határértéket! : a n = n+ n+ = n+ n+ =
A Markowitz modell: kvadratikus programozás
A Markowitz modell: kvadratikus programozás Harry Markowitz 1990-ben kapott Közgazdasági Nobel díjat a portfolió optimalizálási modelljéért. Ld. http://en.wikipedia.org/wiki/harry_markowitz Ennek a legegyszer
Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35
Szinguláris értékek Wettl Ferenc 2016. április 12. Wettl Ferenc Szinguláris értékek 2016. április 12. 1 / 35 Tartalom 1 Szinguláris érték 2 Norma 3 Mátrixnorma 4 Alkalmazások Wettl Ferenc Szinguláris értékek
Vektorterek. Wettl Ferenc február 17. Wettl Ferenc Vektorterek február / 27
Vektorterek Wettl Ferenc 2015. február 17. Wettl Ferenc Vektorterek 2015. február 17. 1 / 27 Tartalom 1 Egyenletrendszerek 2 Algebrai struktúrák 3 Vektortér 4 Bázis, dimenzió 5 Valós mátrixok és egyenletrendszerek
Függvények július 13. f(x) = 1 x+x 2 f() = 1 ()+() 2 f(f(x)) = 1 (1 x+x 2 )+(1 x+x 2 ) 2 Rendezés után kapjuk, hogy:
Függvények 015. július 1. 1. Feladat: Határozza meg a következ összetett függvényeket! f(x) = cos x + x g(x) = x f(g(x)) =? g(f(x)) =? Megoldás: Összetett függvény el állításához a küls függvényben a független
1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás)
Matematika A2c gyakorlat Vegyészmérnöki, Biomérnöki, Környezetmérnöki szakok, 2017/18 ősz 1. feladatsor: Vektorterek, lineáris kombináció, mátrixok, determináns (megoldás) 1. Valós vektorterek-e a következő
Lineáris algebra 2. Filip Ferdinánd december 7. siva.banki.hu/jegyzetek
Lineáris algebra 2 Filip Ferdinánd filipferdinand@bgkuni-obudahu sivabankihu/jegyzetek 2015 december 7 Filip Ferdinánd 2016 februar 9 Lineáris algebra 2 1 / 37 Az el adás vázlata Determináns Determináns
15. LINEÁRIS EGYENLETRENDSZEREK
15 LINEÁRIS EGYENLETRENDSZEREK 151 Lineáris egyenletrendszer, Gauss elimináció 1 Definíció Lineáris egyenletrendszernek nevezzük az (1) a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a
Egyenletek, egyenlőtlenségek VII.
Egyenletek, egyenlőtlenségek VII. Magasabbfokú egyenletek: A 3, vagy annál nagyobb fokú egyenleteket magasabb fokú egyenleteknek nevezzük. Megjegyzés: Egy n - ed fokú egyenletnek legfeljebb n darab valós
Lineáris egyenletrendszerek
Lineáris egyenletrendszerek 1 Alapfogalmak 1 Deníció Egy m egyenletb l álló, n-ismeretlenes lineáris egyenletrendszer általános alakja: a 11 x 1 + a 12 x 2 + + a 1n x n = b 1 a 21 x 1 + a 22 x 2 + + a
Skalárszorzat, norma, szög, távolság. Dr. Takách Géza NyME FMK Informatikai Intézet takach@inf.nyme.hu http://inf.nyme.hu/ takach/ 2005.
1 Diszkrét matematika II., 4. el adás Skalárszorzat, norma, szög, távolság Dr. Takách Géza NyME FMK Informatikai Intézet takach@inf.nyme.hu http://inf.nyme.hu/ takach/ 2005. március 1 A téma jelent sége
1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok
1. feladat Az egyensúly algoritmus viselkedése: Tekintsük a kétdimenziós Euklideszi teret, mint metrikus teret. A pontok (x, y) valós számpárokból állnak, két (a, b) és (c, d) pontnak a távolsága (a c)
LINEÁRIS ALGEBRA (A, B, C) tematika (BSc) I. éves nappali programtervező informatikus hallgatóknak évi tanév I. félév
LINEÁRIS ALGEBRA (A, B, C) tematika (BSc) I éves nappali programtervező informatikus hallgatóknak 2010-2011 évi tanév I félév Vektoriális szorzat és tulajdonságai bizonyítás nélkül: Vegyes szorzat és tulajdonságai
6. gyakorlat. Gelle Kitti. Csendes Tibor Somogyi Viktor. London András. jegyzetei alapján
Közelítő és szimbolikus számítások 6. gyakorlat Sajátérték, Gersgorin körök Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor Vinkó Tamás London András Deák Gábor jegyzetei alapján . Mátrixok sajátértékei
Gauss-Seidel iteráció
Közelítő és szimbolikus számítások 5. gyakorlat Iterációs módszerek: Jacobi és Gauss-Seidel iteráció Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor London András Deák Gábor jegyzetei alapján 1 ITERÁCIÓS
Határozott integrál és alkalmazásai
Határozott integrál és alkalmazásai 5. május 5.. Alapfeladatok. Feladat: + d = Megoldás: Egy határozott integrál kiszámolása a feladat. Ilyenkor a Newton-Leibniz-tételt használhatjuk, mely azt mondja ki,
Taylor-polinomok. 1. Alapfeladatok. 2015. április 11. 1. Feladat: Írjuk fel az f(x) = e 2x függvény másodfokú Maclaurinpolinomját!
Taylor-polinomok 205. április.. Alapfeladatok. Feladat: Írjuk fel az fx) = e 2x függvény másodfokú Maclaurinpolinomját! Megoldás: A feladatot kétféle úton is megoldjuk. Az els megoldásban induljunk el
Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31
Lineáris leképezések Wettl Ferenc 2015. március 9. Wettl Ferenc Lineáris leképezések 2015. március 9. 1 / 31 Tartalom 1 Mátrixleképezés, lineáris leképezés 2 Alkalmazás: dierenciálhatóság 3 2- és 3-dimenziós
Vektorok. Wettl Ferenc október 20. Wettl Ferenc Vektorok október / 36
Vektorok Wettl Ferenc 2014. október 20. Wettl Ferenc Vektorok 2014. október 20. 1 / 36 Tartalom 1 Vektorok a 2- és 3-dimenziós térben 2 Távolság, szög, orientáció 3 Vektorok koordinátás alakban 4 Összefoglalás
A KroneckerCapelli-tételb l következik, hogy egy Bx = 0 homogén lineáris egyenletrendszernek
10. gyakorlat Mátrixok sajátértékei és sajátvektorai Azt mondjuk, hogy az A M n mátrixnak a λ IR szám a sajátértéke, ha létezik olyan x IR n, x 0 vektor, amelyre Ax = λx. Ekkor az x vektort az A mátrix
Saj at ert ek-probl em ak febru ar 26.
Sajátérték-problémák 2018. február 26. Az alapfeladat Adott a következő egyenlet: Av = λv, (1) ahol A egy ismert mátrix v ismeretlen, nem zérus vektor λ ismeretlen szám Azok a v, λ kombinációk, amikre
Optimalizálás alapfeladata Legmeredekebb lejtő Lagrange függvény Log-barrier módszer Büntetőfüggvény módszer 2017/
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 9. Előadás Az optimalizálás alapfeladata Keressük f függvény maximumát ahol f : R n R és
Az impulzusnyomatékok általános elmélete
Az impulzusnyomatékok általános elmélete November 27, 2006 Az elemi kvantummechanika keretében tárgyaltuk már az impulzusnyomatékot. A továbbiakban általánosítjuk az impulzusnyomaték fogalmát a kvantummechanikában
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
Bázistranszformáció és alkalmazásai
Bázistranszformáció és alkalmazásai Lineáris algebra gyakorlat Összeállította: Bogya Norbert Tartalomjegyzék 1 Elmélet Gyakorlati végrehajtás 2 Vektor bevitele a bázisba Rangszámítás Lineáris egyenletrendszer
II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés
II. Két speciális Fibonacci sorozat, szinguláris elemek, természetes indexelés Nagyon könnyen megfigyelhetjük, hogy akármilyen két számmal elindítunk egy Fibonacci sorozatot, a sorozat egymást követő tagjainak
Gauss-Jordan módszer Legkisebb négyzetek módszere, egyenes LNM, polinom LNM, függvény. Lineáris algebra numerikus módszerei
A Gauss-Jordan elimináció, mátrixinvertálás Gauss-Jordan módszer Ugyanazzal a technikával, mint ahogy a k-adik oszlopban az a kk alatti elemeket kinulláztuk, a fölötte lévő elemeket is zérussá lehet tenni.
0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles
Matematika szigorlat, Mérnök informatikus szak I. 2013. jan. 10. Név: Neptun kód: Idő: 180 perc Elm.: 1. f. 2. f. 3. f. 4. f. 5. f. Fel. össz.: Össz.: Oszt.: Az elérhető pontszám 40 (elmélet) + 60 (feladatok)
Komplex számok trigonometrikus alakja
Komplex számok trigonometrikus alakja 015. február 15. 1. Alapfeladatok 1. Feladat: Határozzuk meg az alábbi algebrai alakban adott komplex számok trigonometrikus alakját! z 1 = 4 + 4i, z = 4 + i, z =
Gauss-eliminációval, Cholesky felbontás, QR felbontás
Közelítő és szimbolikus számítások 4. gyakorlat Mátrix invertálás Gauss-eliminációval, Cholesky felbontás, QR felbontás Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor London András Deák Gábor jegyzetei
Bázistranszformáció és alkalmazásai 2.
Bázistranszformáció és alkalmazásai 2. Lineáris algebra gyakorlat Összeállította: Bogya Norbert Tartalomjegyzék 1 Mátrix rangja 2 Mátrix inverze 3 Mátrixegyenlet Mátrix rangja Tartalom 1 Mátrix rangja
7. gyakorlat. Lineáris algebrai egyenletrendszerek megoldhatósága
7. gyakorlat Lineáris algebrai egyenletrendszerek megoldhatósága Egy lineáris algebrai egyenletrendszerrel kapcsolatban a következ kérdések merülnek fel: 1. Létezik-e megoldása? 2. Ha igen, hány megoldása
Principal Component Analysis
Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták
0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)
Legyen adott a P átmenetvalószín ség mátrix és a ϕ 0 kezdeti eloszlás Kérdés, hogy miként lehetne meghatározni az egyes állapotokban való tartózkodás valószín ségét az n-edik lépés múlva Deniáljuk az n-lépéses
A lineáris programozás alapfeladata Standard alak Az LP feladat megoldása Az LP megoldása: a szimplex algoritmus 2018/
Operációkutatás I. 2018/2019-2. Szegedi Tudományegyetem Informatika Intézet Számítógépes Optimalizálás Tanszék 2. Előadás LP alapfeladat A lineáris programozás (LP) alapfeladata standard formában Max c
Numerikus módszerek 1.
Numerikus módszerek 1. Tantárgy kódja: IP-08bNM1E, IP-08bNM1G (2+2) Az elsajátítandó ismeretanyag rövid leírása: A lebegıpontos számábrázolás egy modellje. A hibaszámítás elemei. Lineáris egyenletrendszerek
3. el adás: Determinánsok
3. el adás: Determinánsok Wettl Ferenc 2015. február 27. Wettl Ferenc 3. el adás: Determinánsok 2015. február 27. 1 / 19 Tartalom 1 Motiváció 2 A determináns mint sorvektorainak függvénye 3 A determináns
Elemi matematika szakkör
Elemi matematika szakkör Kolozsvár, 2015. október 5. 1.1. Feladat. Egy pozitív egész számot K tulajdonságúnak nevezünk, ha számjegyei nullától különböznek és nincs két azonos számjegye. Határozd meg az
Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén
Matematikai modellek, I. kisprojekt Gibbs-jelenség viselkedésének vizsgálata egyszer négyszögjel esetén Unger amás István B.Sc. szakos matematikus hallgató ungert@maxwell.sze.hu, http://maxwell.sze.hu/~ungert
Érdekes informatika feladatok
A keres,kkel és adatbázissal ellátott lengyel honlap számos díjat kapott: Spirit of Delphi '98, Delphi Community Award, Poland on the Internet, Golden Bagel Award stb. Az itt megtalálható komponenseket
A lineáris programozás alapfeladata Standard alak Az LP feladat megoldása Az LP megoldása: a szimplex algoritmus 2017/
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatika Intézet Számítógépes Optimalizálás Tanszék 2. Előadás LP alapfeladat A lineáris programozás (LP) alapfeladata standard formában Max c
Normák, kondíciószám
Normák, kondíciószám A fizika numerikus módszerei I. mf1n1a06- mf1n2a06 Csabai István Lineáris egyenletrendszerek Nagyon sok probléma közvetlenül lineáris egyenletrendszer megoldásával kezelhetı Sok numerikus
Sorozatok I. Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma)
Sorozatok I. DEFINÍCIÓ: (Számsorozat) A számsorozat olyan függvény, amelynek értelmezési tartománya a pozitív egész számok halmaza, értékkészlete a valós számok egy részhalmaza. Jelölés: (a n ), {a n }.
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN
GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN ELTE TáTK Közgazdaságtudományi Tanszék Gazdaságmatematika középhaladó szinten MÁSODFOKÚ EGYENLETEK ÉS EGYENLŽTLENSÉGEK Készítette: Gábor Szakmai felel s: Gábor
Konjugált gradiens módszer
Közelítő és szimbolikus számítások 12. gyakorlat Konjugált gradiens módszer Készítette: Gelle Kitti Csendes Tibor Vinkó Tamás Faragó István Horváth Róbert jegyzetei alapján 1 LINEÁRIS EGYENLETRENDSZEREK
11. Előadás. 11. előadás Bevezetés a lineáris programozásba
11. Előadás Gondolkodnivalók Sajátérték, Kvadratikus alak 1. Gondolkodnivaló Adjuk meg, hogy az alábbi A mátrixnak mely α értékekre lesz sajátértéke a 5. Ezen α-ák esetén határozzuk meg a 5 sajátértékhez
rank(a) == rank([a b])
Lineáris algebrai egyenletrendszerek megoldása a Matlabban Lineáris algebrai egyenletrendszerek a Matlabban igen egyszer en oldhatók meg. Legyen A az egyenletrendszer m-szer n-es együtthatómátrixa, és
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Sorozatok II.
Sorozatok II. DEFINÍCIÓ: (Mértani sorozat) Az (a n ) valós számsorozatot mértani sorozatnak nevezzük, ha van olyan valós szám, amellyel a sorozat bármely tagját megszorozva a következő tagot kapjuk. Jelöléssel:
Matematika III. harmadik előadás
Matematika III. harmadik előadás Kézi Csaba Debreceni Egyetem, Műszaki Kar Debrecen, 2013/14 tanév, I. félév Kézi Csaba (DE) Matematika III. harmadik előadás 2013/14 tanév, I. félév 1 / 13 tétel Az y (x)
1. A k-szerver probléma
1. A k-szerver probléma Az egyik legismertebb on-line probléma a k-szerver probléma. A probléma általános deníciójának megadásához szükség van a metrikus tér fogalmára. Egy (M, d) párost, ahol M a metrikus
9. Tétel Els - és másodfokú egyenl tlenségek. Pozitív számok nevezetes közepei, ezek felhasználása széls érték-feladatok megoldásában
9. Tétel Els - és másodfokú egyenl tlenségek. Pozitív számok nevezetes közepei, ezek felhasználása széls érték-feladatok megoldásában Bevezet : A témakörben els - és másodfokú egyenl tlenségek megoldásának
9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, Leontyev-modell
9. Előadás Megyesi László: Lineáris algebra, 75. 84. oldal. Gondolkodnivalók Mátrix rangja 1. Gondolkodnivaló Tegyük fel, hogy egy elemi bázistranszformáció kezdetekor a sor- és oszlopindexek sorban helyezkednek
Rang, sajátérték. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ február 15
Diszkrét matematika II, 2 el adás Rang, sajátérték Dr Takách Géza NyME FMK Informatikai Intézet takachinfnymehu http://infnymehu/ takach/ 25 február 5 Gyakorlati célok Ezen el adáson, és a hozzá kapcsolódó
: s s t 2 s t. m m m. e f e f. a a ab a b c. a c b ac. 5. Végezzük el a kijelölt m veleteket a változók lehetséges értékei mellett!
nomosztással a megoldást visszavezethetjük egy alacsonyabb fokú egyenlet megoldására Mivel a 4 6 8 6 egyenletben az együtthatók összege 6 8 6 ezért az egyenletnek gyöke az (mert esetén a kifejezés helyettesítési
9. Előadás. Megyesi László: Lineáris algebra, oldal. 9. előadás Mátrix inverze, mátrixegyenlet
9. Előadás Megyesi László: Lineáris algebra, 75. 84. oldal. Gondolkodnivalók Mátrix rangja 1. Gondolkodnivaló Határozzuk meg a p valós paraméter értékétől függően a következő mátrix rangját: p 3 1 2 2
Komplex számok algebrai alakja
Komplex számok algebrai alakja Lukács Antal 015. február 8. 1. Alapfeladatok 1. Feladat: Legyen z 1 + 3i és z 5 4i! Határozzuk meg az alábbiakat! (a) z 1 + z (b) 3z z 1 (c) z 1 z (d) Re(i z 1 ) (e) Im(z
Első zárthelyi dolgozat megoldásai biomatematikából * A verzió
Első zárthelyi dolgozat megoldásai biomatematikából * A verzió Elméleti kérdések: E. Mikor nevezünk egy gráfot gyengén és mikor erősen összefüggőnek? Adjon példát gyengén összefüggő de erősen nem összefüggő
Vektorok, mátrixok, lineáris egyenletrendszerek
a Matematika mérnököknek I. című tárgyhoz Vektorok, mátrixok, lineáris egyenletrendszerek Vektorok A rendezett valós számpárokat kétdimenziós valós vektoroknak nevezzük. Jelölésükre latin kisbetűket használunk.
10. Előadás. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai
Optimalizálási eljárások MSc hallgatók számára 10. Előadás Előadó: Hajnal Péter Jegyzetelő: T. Szabó Tamás 2011. április 20. 1. Feltétel nélküli optimalizálás: Az eljárás alapjai A feltétel nélküli optimalizálásnál
8. Előadás. Megyesi László: Lineáris algebra, , oldal. 8. előadás Mátrix rangja, Homogén lineáris egyenletrendszer
8. Előadás Megyesi László: Lineáris algebra, 51. 56., 70. 74. oldal. Gondolkodnivalók Elemi bázistranszformáció 1. Gondolkodnivaló Most ne vegyük figyelembe, hogy az elemi bázistranszformáció során ez
I. Egyenlet fogalma, algebrai megoldása
11 modul: EGYENLETEK, EGYENLŐTLENSÉGEK MEGOLDÁSA 6 I Egyenlet fogalma, algebrai megoldása Módszertani megjegyzés: Az egyenletek alaphalmazát, értelmezési tartományát később vezetjük be, a törtes egyenletekkel
Numerikus módszerek beugró kérdések
1. Definiálja a gépi számok halmazát (a tanult modellnek megfelelően)! Adja meg a normalizált lebegőpontos szám alakját. (4 pont) Az alakú számot normalizált lebegőpontos számnak nevezik, ha Ahol,,,. Jelöl:
LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL
LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL x 1-2x 2 6 -x 1-3x 3 = -7 x 1 - x 2-3x 3-2 3x 1-2x 2-2x 3 4 4x 1-2x 2 + x 3 max Alapfogalmak: feltételrendszer (narancs színnel jelölve), célfüggvény
Gazdasági matematika II. tanmenet
Gazdasági matematika II. tanmenet Mádi-Nagy Gergely A hivatkozásokban az alábbi tankönyvekre utalunk: T: Tóth Irén (szerk.): Operációkutatás I., Nemzeti Tankönyvkiadó 1987. Cs: Csernyák László (szerk.):
Gauss elimináció, LU felbontás
Közelítő és szimbolikus számítások 3. gyakorlat Gauss elimináció, LU felbontás Készítette: Gelle Kitti Csendes Tibor Somogyi Viktor London András Deák Gábor jegyzetei alapján 1 EGYENLETRENDSZEREK 1. Egyenletrendszerek
7. gyakorlat. Lineáris algebrai egyenletrendszerek megoldhatósága
7. gyakorlat Lineáris algebrai egyenletrendszerek megoldhatósága Egy lineáris algebrai egyenletrendszerrel kapcsolatban a következ kérdések merülnek fel: 1. Létezik-e megoldása? 2. Ha igen, hány megoldása
Pénzügyi matematika. Vizsgadolgozat I. RÉSZ. 1. Deniálja pontosan, mit értünk amerikai vételi opció alatt!
NÉV: NEPTUN KÓD: Pénzügyi matematika Vizsgadolgozat I. RÉSZ Az ebben a részben feltett 4 kérdés közül legalább 3-ra kell hibátlan választ adni ahhoz, hogy a vizsga sikeres lehessen. Kett vagy kevesebb
Függvények Megoldások
Függvények Megoldások ) Az ábrán egy ; intervallumon értelmezett függvény grafikonja látható. Válassza ki a felsoroltakból a függvény hozzárendelési szabályát! a) x x b) x x + c) x ( x + ) b) Az x függvény
1. Homogén lineáris egyenletrendszer megoldástere
X HOMOGÉN LINEÁRIS EGYENLET- RENDSZEREK 1 Homogén lineáris egyenletrendszer megoldástere Homogén lineáris egyenletrendszer definíciója már szerepelt Olyan lineáris egyenletrendszert nevezünk homogénnek,
5 = hiszen és az utóbbi mátrix determinánsa a középs½o oszlop szerint kifejtve: 3 7 ( 2) = (példa vége). 7 5 = 8. det 6.
A pivotálás hasznáról és hatékony módjáról Adott M mátrixra pivotálás alatt a következ½ot értjük: Kijelölünk a mátrixban egy nemnulla elemet, melynek neve pivotelem, aztán az egész sort leosztjuk a pivotelemmel.
Ortogonalizáció. Wettl Ferenc Wettl Ferenc Ortogonalizáció / 41
Ortogonalizáció Wettl Ferenc 2016-03-22 Wettl Ferenc Ortogonalizáció 2016-03-22 1 / 41 Tartalom 1 Ortonormált bázis 2 Ortogonális mátrix 3 Ortogonalizáció 4 QR-felbontás 5 Komplex skaláris szorzás 6 Diszkrét
KOVÁCS BÉLA, MATEMATIKA I.
KOVÁCS BÉLA MATEmATIkA I 6 VI KOmPLEX SZÁmOk 1 A komplex SZÁmOk HALmAZA A komplex számok olyan halmazt alkotnak amelyekben elvégezhető az összeadás és a szorzás azaz két komplex szám összege és szorzata
Analízisfeladat-gyűjtemény IV.
Oktatási segédanyag a Programtervező matematikus szak Analízis. című tantárgyához (003 004. tanév tavaszi félév) Analízisfeladat-gyűjtemény IV. (Függvények határértéke és folytonossága) Összeállította
Numerikus matematika. Irodalom: Stoyan Gisbert, Numerikus matematika mérnököknek és programozóknak, Typotex, Lebegőpontos számok
Numerikus matematika Irodalom: Stoyan Gisbert, Numerikus matematika mérnököknek és programozóknak, Typotex, 2007 Lebegőpontos számok Normák, kondíciószámok Lineáris egyenletrendszerek Legkisebb négyzetes
Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások
Numerikus módszerek I. zárthelyi dolgozat (2017/18. I., A. csoport) Megoldások 1. Feladat. (6p) Jelöljön. egy tetszőleges vektornormát, ill. a hozzá tartozó indukált mátrixnormát! Igazoljuk, hogy ha A
MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ
Matematika emelt szint 1613 ÉRETTSÉGI VIZSGA 016. május 3. MATEMATIKA EMELT SZINTŰ ÍRÁSBELI ÉRETTSÉGI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ EMBERI ERŐFORRÁSOK MINISZTÉRIUMA Fontos tudnivalók Formai előírások:
Dualitás Dualitási tételek Általános LP feladat Komplementáris lazaság 2017/ Szegedi Tudományegyetem Informatikai Intézet
Operációkutatás I. 2017/2018-2. Szegedi Tudományegyetem Informatikai Intézet Számítógépes Optimalizálás Tanszék 7. Előadás Árazási interpretáció Tekintsük újra az erőforrás allokációs problémát (vonat
STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.
STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése
MATE-INFO UBB verseny, március 25. MATEMATIKA írásbeli vizsga
BABEŞ-BOLYAI TUDOMÁNYEGYETEM, KOLOZSVÁR MATEMATIKA ÉS INFORMATIKA KAR MATE-INFO UBB verseny, 218. március 25. MATEMATIKA írásbeli vizsga FONTOS TUDNIVALÓK: 1 A feleletválasztós feladatok,,a rész esetén
MATEMATIKA ÉRETTSÉGI május 10. KÖZÉP SZINT I.
1) Adott két pont: A ; 1 felezőpontjának koordinátáit! AB felezőpontja legyen F. MATEMATIKA ÉRETTSÉGI 005. május 10. KÖZÉP SZINT I. és B 1; Írja fel az AB szakasz 1 1 F ; F ;1 ) Az ábrán egy ; intervallumon
Függvények menetének vizsgálata, szöveges széls érték feladatok
Függvények menetének vizsgálata, szöveges széls érték feladatok 2015. március 29. 1. Alapfeladatok 1. Feladat: Hol növekv az f() függvény, ha deriváltja f () = ( + 2)( 5) 2? Megoldás: Egy függvény növekedését,
Lineáris leképezések. 2. Lineáris-e az f : R 2 R 2 f(x, y) = (x + y, x 2 )
Lineáris leképezések 1 Lineáris-e az f : R 2 R 2 f(x, y = (3x + 2y, x y leképezés? A linearitáshoz ellen riznünk kell, hogy a leképzés additív és homogén Legyen x = (x 1, R 2, y = (y 1, y 2 R 2, c R Ekkor
A KLT (Kanade Lucas Tomasi) Feature Tracker Működése (jellegzetes pontok választása és követése)
A KL (Kanade Lucas omasi) Feature racker Működése (jellegzetes pontok választása és követése) Készítette: Hajder Levente 008.11.18. 1. Feladat A rendelkezésre álló videó egy adott képkockájából minél több
Numerikus módszerek 1.
Numerikus módszerek 1. 3. előadás: Mátrixok LU-felbontása Lócsi Levente ELTE IK 2013. szeptember 23. Tartalomjegyzék 1 Alsó háromszögmátrixok és Gauss-elimináció 2 Háromszögmátrixokról 3 LU-felbontás Gauss-eliminációval
Lineáris algebra gyakorlat
Lineáris algebra gyakorlat 7. gyakorlat Gyakorlatvezet : Bogya Norbert 2012. március 26. Ismétlés Tartalom 1 Ismétlés 2 Koordinátasor 3 Bázistranszformáció és alkalmazásai Vektorrendszer rangja Mátrix
6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban?
6. Függvények I. Nulladik ZH-ban láttuk: 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban? f x g x cos x h x x ( ) sin x (A) Az f és a h. (B) Mindhárom. (C) Csak az f.
Gyakorló feladatok. Agbeko Kwami Nutefe és Nagy Noémi
Gyakorló feladatok Agbeko Kwami Nutefe és Nagy Noémi 25 Tartalomjegyzék. Klasszikus hibaszámítás 3 2. Lineáris egyenletrendszerek 3 3. Interpoláció 4 4. Sajátérték, sajátvektor 6 5. Lineáris és nemlineáris
12. előadás. Egyenletrendszerek, mátrixok. Dr. Szörényi Miklós, Dr. Kallós Gábor
12. előadás Egyenletrendszerek, mátrixok Dr. Szörényi Miklós, Dr. Kallós Gábor 2015 2016 1 Tartalom Matematikai alapok Vektorok és mátrixok megadása Tömbkonstansok Lineáris műveletek Mátrixok szorzása
Az Országos Középiskolai Tanulmányi Verseny 2005-2006. tanévi első fordulójának feladatmegoldásai. 81f 2 + 90l 2 f 2 + l 2
Az Országos Középiskolai Tanulmányi Verseny 2005-2006. tanévi első fordulójának feladatmegoldásai matematikából, a II. kategória számára 1. Két iskola tanulói műveltségi vetélkedőn vettek részt. A 100
Regressziószámítás alkalmazása kistérségi adatokon
Lengyel I. Lukovics M. (szerk.) 2008: Kérdıjelek a régiók gazdasági fejlıdésében. JATEPress, Szeged, 264-287. o. Regressziószámítás alkalmazása kistérségi adatokon Szakálné Kanó Izabella 1 A lokális térségek
9. Előadás. (9. előadás) Lineáris egyr.(3.), Sajátérték április / 35
9. Előadás (9. előadás) Lineáris egyr.(3.), Sajátérték 2019. április 24. 1 / 35 Portfólió-analízis Tegyük fel, hogy egy bank 4 különböző eszközbe fektet be (réz, búza, arany és kakaó). Az ügyfeleinek ezen
Online algoritmusok. Algoritmusok és bonyolultságuk. Horváth Bálint március 30. Horváth Bálint Online algoritmusok március 30.
Online algoritmusok Algoritmusok és bonyolultságuk Horváth Bálint 2018. március 30. Horváth Bálint Online algoritmusok 2018. március 30. 1 / 28 Motiváció Gyakran el fordul, hogy a bemenetet csak részenként
Számelméleti feladatok az általános iskolai versenyek tükrében dr. Pintér Ferenc, Nagykanizsa
Számelméleti feladatok az általános iskolai versenyek tükrében dr. Pintér Ferenc, Nagykanizsa 1. Mutasd meg, hogy a tízes számrendszerben felírt 111111111111 tizenhárom jegyű szám összetett szám, azaz
Ütemezési modellek. Az ütemezési problémák osztályozása
Ütemezési modellek Az ütemezési problémák osztályozása Az ütemezési problémákban adott m darab gép és n számú munka, amelyeket az 1,..., n számokkal fogunk sorszámozni. A feladat az, hogy ütemezzük az
3. Fuzzy aritmetika. Gépi intelligencia I. Fodor János NIMGI1MIEM BMF NIK IMRI
3. Fuzzy aritmetika Gépi intelligencia I. Fodor János BMF NIK IMRI NIMGI1MIEM Tartalomjegyzék I 1 Intervallum-aritmetika 2 Fuzzy intervallumok és fuzzy számok Fuzzy intervallumok LR fuzzy intervallumok
Alkalmazott algebra - SVD
Alkalmazott algebra - SVD Ivanyos Gábor 20 sz Poz. szemidenit mátrixok spektrálfelbontásának általánosítása nem feltétlenül négyzetes mátrixokra LSI - mögöttes szemantikájú indexelés "Közelít " webkeresés