Hallgatói preferencia rangsorok készítése a jelentkezések alapján Telcs András, Kosztyán Zsolt Tibor, Török Ádám Pannon Egyetem, Kvantitatív Módszerek Tanszék, MTA Kutatócsoport
Tartalom Bevezetés Forrásadatok bemutatása Adatok szűrése Mi legyen egy objektum? Gráf reprezentációk, műveletek Rangsorok kialakítására alkalmazott függvények Eredmények További tervek 2013.11.19. Hiányos rangsorok kezelése 2
A kezdetek 2013.11.19. 3
A bőség zavara 2013.11.19. 4
Bevezetés Cél: Objektív egydimenziós rangsor kialakítása. 5
Preferenciák 1. diák (a,c,b) 2. diák (b,a,c,d,e) 3. diák (a) 4. diák (b,a). n. diák (a,b) Egyesített rangsor(a,b,c,d,e) 2013.11.19. 6
Preferenciák (a,c,b) (b,a,c,d,e) (a) (b,a) (a,b) (a,b,c,d,e) 2013.11.19. 7
Hiányok kezelése (a,c,b,(b,e)) (b,a,c,d,e) (a,(b,c,d,e)) (b,a,(c,d,e)) (a,b,(c,d,e)) (a,b,c,d,e) 2013.11.19. 8
Forrásadatok bemutatása Hallgatói felvételi jelentkezések 2001-2011-ig. A fejléc tartalma: Év Eljárás (normál, keresztfélév) Egyedi azonosító Jelentkezési hely Intézmény Kar Szak Képzés formája (alap, mester, osztatlan) Képzés módja (nappali, levelező) Képzés finanszírozása (állami, költség tér.) 9
Rangsor Országos intézmények szerint Tudomány terület szerint Karok szerint Szakok szerint 10
Mi legyen egy objektum? Mik között állítsunk fel rangsort? Objektum Előnyök Hátrányok Kihívások Intézmény Viszonylag kevés objektum Információvesztés, inhomogenitási problémák Inhomogenitás feloldása szűrésekkel Kar Kezelhető számú objektum Információvesztés Információvesztés minimalizálása Szak Nincs információvesztés Rengeteg objektum, Optimális megoldás megtalálása reménytelen Gyors heurisztikus módszer keresése 11
Gráfreprezentáció Objektumok (intézmények, karok, szakok): 1,2,,m. A hallgatói jelentkezési sorrendek: A:={a 1,,a n }, a i :=[a i 1,,a i mi ]T Legyen pl. 4 lehetséges szak. A hallgató jelentkezési sorrendje: a 1 :={1,2,3,4}. ID 1 2 3 4 1 2 3 4 1 -- 1 1 1 2 -- 1 1 3 -- 1 4 -- 0 1 2 3 12
Gráfreprezentáció Legyen pl. 4 lehetséges szak. A hallgató jelentkezési sorrendje: a 2 :={1,2}. 3 ID 1 2 3 4 1 -- 1 1 1 1 2 4 M 2 -- 1 1 3 -- --.5 4.5 -- -- 0 1 2.5 0 2.5 0 13
Csúcsok összevonása Pl. Szakok Karok Intézmények 1 2 I 3 4 II ID 1 2 3 4 1 -- 1 1 1 2 -- 1 1 3 -- 4 -- ID I II I -- 4 II -- 14
Összesítés jósága (a,c,b) 1 (b,a,d,c,e) 2 (a) (b,a) 1 (a,b) (a,b,c,d,e) 2013.11.19. 15
Arrow s impossibility theorem Clear order of preferences cannot be determined while adhering to mandatory principles of fair voting procedures. Investopedia http://www.investopedia.com/terms/a/arrows-impossibility-theorem.asp 2013.11.19. 16
Alkalmazott módszerek Egyszerű heurisztikus módszerek Páros összehasonlításon alapuló módszerek Genetikus algoritmusok Naiv algoritmusok 17
Hibafüggvény M ID 1 2 3 4 1 -- 5 5 3 2 3 -- 1 5 3 2 3 -- 2 4 1 5 3 -- 6 13 9 10, M b ID 1 3 4 2 1 -- 5 3 5 3 2 -- 2 3 4 1 3 -- 5 2 3 1 5 -- 6 9 10 13 h(m,[1,2,3,4] T ) =17 h(m,b) =15 b 1 3 4 2 18
Oszlopösszegek Eredmények Helyezés OBJID Intézmény IW 1 1 BCE 2741 2 3 BME 6770 3 9 XXX * 7779 * -al jelöltek 4 2 BGF szégyenlőssek 7920 5 4 DE 8157 6 8 SZE 8206 7 10 SZTE 8235 8 5 ME 8240 9 7 PTE 8252 10 6 XXX * 8294, 453 2013.11.19. 19
Apriori feltevés Gottfried Wilhelm von Leibniz (July 1, 1646 November 14, 1716) John Maynard Keynes (5 June 1883 21 April 1946) Edwin Thompson Jaynes (July 5, 1922 April 30, 1998) principle of insufficient reason principle of indifference n-objektum 1/n egyenletes valószínűséggel Non-informative prior vagy a maximális entrópia elve Equivalent states of knowledge should be assigned equivalent epistemic probabilities. 2013.11.19. 20
Rangösszeg módszer Példa Legyen: a 1 :=[1,2] T ; m:=4; s 1 :=[1,2,3.5,3.5] T s* 1 :=[0,1,2.5,2.5] T = s 1-1 ID 1 2 3 4 1 2 3 4 x=1.25 1 -- 1 x x 2 -- x x 3 -- 4 -- 0 1 2x 2x = s* 1 0 1 2.5 2.5 21
Rangösszeg módszer Legyen: a 1 :=[2,6] T ; a 2 :=[1] T ; m:=10; Ekkor a rangokat tartalmazó vektor a következőképpen számítható: esetén 22
Rangösszeg módszer - Eredmények Helyezés OBJID Intézmény Átlagos rangérték 1 1 BCE 2,83 2 3 BME 5,03 3 9 XXX 5,67 4 2 BGF 5,73 5 4 DE 5,91 6 10 SZTE 5,96 7 8 SZE 5,97 8 7 PTE 5,99 9 5 ME 6,01 10 6 XXX 6,02, 451 23
Páros összehasonlításon alapuló módszerek Eredetileg csak teljes összehasonlítások esetén lehetett alkalmazni! Létezik olyan változata is, amely nem teljes összehasonlítások esetén is alkalmazható. 24
Páros összehasonlításon alapuló módszerek Páronkénti összehasonlítások Arány skála! => Skála-transzformáció Sorrendi skála 25
Páros összehasonlításon alapuló módszerek Lépései (vázlatosan) Sorrend (kialakítása) Ellenőrzés Gyakorisági táblázat M Relatív gyakorisági táblázat (P) Inverz normál transzformáció (Z) Arányskála az oszlopösszegek alapján Relatív gyakoriságok rekonstruálása ( ) Illeszkedésvizsgálat ( 2 -próba) 26
Páros összehasonlítás eredmények Helyezés OBJID Intézmény Z 1 1 BCE 0,85 2 3 BME 0,44 3 7 PTE 0,05 4 2 BGF 0,03 5 4 DE -0,09 6 6 XXX2-0,14 7 10 SZTE -0,16 8 5 ME -0,22 9 8 SZE -0,38 10 9 XXX1-0,39, 418 27
Genetikus algoritmusok Fogalmazzuk át a problémát! Keresünk egy olyan sorrendjét az 1,2,,m számoknak, amelyre a hiba függvény értéke minimális. Nagyon sok lehetőség van! Több mint Sessa kérése 28
Genetikus algoritmus Populáció: Véletlen sorrendjei az 1,2,,m-nek. Jósági függvény=hibafüggvény Szelekció: Kisebb hibafüggvényérték => nagyobb életképesség fitness 29
Genetikus algoritmus Mutáció: véletlen pozíciócsere Pl. [1 2 3 4 10 5 6 7 8 9] T => [1 2 3 10 4 5 6 7 8 9] T Rekombináció: szekvencia részletek öröklődése Pl. [1 2 3 4 6 10 5 7 8 9] + [3 2 1 6 4 10 9 8 7 5] => [1 2 3 6 4 10 9 8 7 5] 30
Genetikus algoritmus eredmény Bementi mátrix M M Helyezés Intézmény 1 BCE 2 BME 3 XXX1 4 BGF 5 DE 6 SZE 7 ME 8 SZTE 9 PTE 10 XXX2, 454 33
Intézmémyi preferenciák alakulása
További tervek, ötletek, kutatási irányok Preferenciák vizsgálata A végeredményül kapott rangsor hogyan korrelál más módon meghatározott rangsorokkal? Mi az eltérés, egyezés oka? Az időbeli fejlődések elemzése 35
Köszönjük a figyelmet!
Bemutatott módszerek értékelése I Módszer h(m,b) h(m,b) Optimális Miért? megoldás? Oszlopösszeg 10 105 453 Nem Nem teljes rangsor. Rangösszeg 10 175 451 Nem Páros összehasonlítás (M ) Páros összehasonlítás (M) Genetikus (M ) 10 100 454 Nem Nem teljes rangsor. 13 580 418 Sok hiányzó páros összehasonlítás miatt a relatív gyakoriságok jelentősen eltérnek a gyakorisági tábláktól. 10 100 454 Talán Az optimális megoldás megtalálása nem garantálható! Genetikus 12 994 411 (M) Naiv (M ) 10 100 454 Igen Az összes megoldást megvizsgáljuk 37 Naiv (M) 12 994 411
Bemutatott módszerek értékelése II Módszer O(f(n)) Előnyök Hátrányok Oszlopösszeg n+m+m 2 Nagyon gyors módszer Nem vesszük figyelembe, hogy a hallgató egy intézménybe többször is jelentkezhet. Rangösszeg n+m+m 2 Nagyon gyors módszer Nem vesszük figyelembe, hogy a hallgató egy n hallgatók száma m intézmények száma Páros összehasonlítás n+m+m 2 Figyelembe vesszük, hogy a hallgató egy intézménybe többször is jelentkezhet. Genetikus? Optimális megoldás megtalálásának lehetősége nagy m esetén intézménybe többször is jelentkezhet. Nem kapunk rangsort! Nem teljes rangsor => Nem optimális. Az optimum megtalálása nincs garantálva. Naív m 2 m! Optimális Nagy m-ek esetén esélytelen 2013.11.19. 38
Hibafüggvény M, M a preferencia mátrix. b=[b 1,b 2,,b m ] T egy tetszőleges sorrend Legyen M b, illetve M b az M, illetve M mátrix átrendezettjei. 39
Hibafüggvény M ID 1 2 3 4 1 -- 5 5 3 2 3 -- 1 5 3 2 3 -- 2 4 1 5 3 -- 6 13 9 10, M b ID 1 3 4 2 1 -- 5 3 5 3 2 -- 2 3 4 1 3 -- 5 2 3 1 5 -- 6 9 10 13 h(m,[1,2,3,4] T ) =17 h(m,b) =15 b 1 3 4 2 40
Arrow s impossibility In social choice theory, Arrow s impossibility theorem, the General Possibility Theorem, or Arrow s paradox, states that, when voters have three or more distinct alternatives (options), no rank order voting system can convert the ranked preferences of individuals into a community-wide (complete and transitive) ranking while also meeting a specific set of criteria. These criteria are called unrestricted domain, non-dictatorship, Pareto efficiency, and independence of irrelevant alternatives. 2013.11.19. 41