Alapszak KKK-k elemzése duo-mining eszközökkel
Duo-mining (2004 óta) (Kruzslicz Ferenc @ PTE) Duo-mining adat- és szövegbányászat együttes alkalmazása Alapformái: Illesztett numerikus és nominális attribútumok + szó attribútumok (külön forrás, külön előfeldolgozás, attribútum kiegyensúlyozás, hagyományos algoritmusok) Kombinált numerikus, nominális és szó attribútumokból származtatott (egy forrás, sablon alapú struktúra és űrlap alapú entitás azonosítás, de még hagyományos algoritmusok) Együttes illesztett vagy kombinált adat- és szövegelőkészítés (új, mindkét adattípuson hatékony algoritmusok alkalmazása) Alkalmazási területek: orvosi diagn. & terrorelhárítás véd.
Képzési és kimeneti követelmények (BA&BSc) (1) a szak megnevezése (2) a diploma megjelölése szint szakképzettség szakirányok angol nyelven is (3) képzési terület (4) képzési ág (5) képzési idő (6) összes kredit képzési ágon belül közös szakirányhoz kötött szabadon választható szakdolgozathoz gyakorlati ismeretek intézményen kívüli (7) képzés célja, kompetenciák ismeri alkalmas rendelkezik (8) tananyag és részkreditek alapozó szakmai differenciált (9) szakmai gyakorlat és kredit (10) nyelvi követelmények Hitéleti szakok kivételével Korpusz méret: 131 dokumentum
Sablon alapú kváziűrlap feldolgozás Dokumentum szerkezet azonosítása szükségessége A dokumentum sablon szövegei jelentősen torzítják a statisztikákat Részekre bontva célzottabb elemzések valósíthatóak meg (pl. listafeldolgozás) Adatkinyerés pontosítása entitás érték formájú űrlaprészek felismerésével Alkalmazott módszerek Fejlécek kinyerése sortávolság alapú gyakorisági stat.-tal 7. Az alapfokozat és a szakképzettség szempontjából meghatározó ismeretkörök: 8. A törzsanyag (a szakképzettség szempontjából meghatározó) ismeretek: 8. A törzsanyag (a szakképzettség szempontjából meghatározó ismeretkörök): 8. A törzsanyag (a szakképzettség szempontjából meghatározó) ismeretkörök: 8. A törzsanyag (a szakképzettség szempontjából meghatározó ismeretkörök)
Tananyagról készült szófelhők (8. blokk) Teljes szóhalmazról Extra stopszavazás és duplikátum mentesítés után
Alapképzések gyakorlat orientáltsága Numerikus elemzéssel Kredit kitöltöttség (6. blokk) Képzés közös: 51,2% Szakirányú: 68,7% Gyakorlati (min): 97,7% Szabadon választható: 100% Szakdolgozat: 100% Teljes gyak.átlag: 37,9% kr Gyakorlati 6 félév 7 félév 8 félév BA szint 38,62% (61 db) BSc szint 37,88% (16 db) 46,43% (8 db) 36,44% (38 db) 24,30% (3 db) 35,50% (5 db) Szöveges elemzéssel Feldolgozási lépések (8. blokk) Tokenelés Stopszavazás (spec. is!) Összetett szavak felbontása Szótövezés Szinonimák (pl. labor) nem Gyakorlat aránya: 39,2% eml. Szógyakoriság Említés (db) gyakorlat 158 elmélet 245
Bloom-féle taxonómia Bloom féle taxonómia Módosított változat Digitális tanulásra is
Célok és elsajátítandó szakmai kompetenciák top szógyakoriságai cél (6387) ismeri (4873) alkalmas (7276) képes (578) kompet. (430) rendelkezik (1338) 379 képzés 232 ismeret 142 cél 125 rendelkezik 125 elméleti 117 folytatás 104 képes 95 ciklus 94 kettő 90 mélységű 91 ismeret 73 módszer 55 folyamat 48 nevelés 48 működés 42 rendszer 42 eljárás 36 gyakorlati 36 gazdaság 34 fejlesztés 171 ellátás 144 feladat 74 alkalmazás 69 fejlesztés 67 nevelés 57 elemzés 56 ismeret 55 önálló 49 tevékenység 45 tervezés 44 képesség 27 készség 16 érték 15 magatartás 13 törekvő 13 kreativitás 13 együttműködés 12 kritikai 11kommunikációs 11 felelősségtudat 25 ismeret 17 alkalmazás 12 képesség 11 végzett 8 szervezet 8 szakmai 8 modern 6 speciális 6 korszerű 5 vezetés 87 képesség 70 készség 58 idegennyelv 57 kommunikációs 53 együttműködő 33 kapcsolatteremt 29 felelősségtudat 21 igény 20 minőség 19 ismeret Cél: az elméleti ismeretek olyan mélységű megszerzése, hogy a hallgató alkalmas legyen a tanulmányainak mester képzésbeli folytatására
Illeszkedés a Bloomtaxonómiára Tapasztalatok Bloom 1.3. szint rendben, talán a 4. is A 2. szint hiánya ellentmondás A 6. szint inkább a mester képzés dolga A cél és alkalmas ellentmondásban van az emlékezik és alkot szinten A többi dimenzióban egységes az alakzat konzekvens megfogalm.
Levenshtein és Jaccard távolságok Szintaktikus módszerek (vs. Szemantikus módszerek) Jaccard halmaz hasonlósági mérték és Levenshtein elem hasonlósági mérték alapján A M R N T F K I O B s=60,0% I N F O R M A T I K A B O T A N I K A s=36,8%
Szintaktikai alapú objektív szaktávolság Szintaktikus módszerek vs. Szemantikus módszerek Vegyített ill. Általános szakok és Sziget szakok toplistái Legkisebb maximális hasonlóság 0,189 gyógypedagógia 0,193 csecsemő és kisgyermeknevelő 0,203 orvosi laboratóriumi és képalkotó diag. analitikus 0,205 kommunikáció és médiatudomány 0,218 történelem 0,218 egészségügyi szervező 0,218 büntetés végrehajtási nevelő 0,219 pszichológia 0,227 alkalmazott látványtervezés 0,230 informatikus könyvtáros Legnagyobb minimális hasonlóság 0,086 katonai vezetői 0,078 mezőgazdasági szakoktató 0,076 igazgatásszervező 0,076 emberi erőforrások 0,075 testnevelő edző 0,074 nemzetközi gazdálkodási 0,074 katonai gazdálkodási 0,074 humánkineziológia 0,072 andragógia 0,069 bűnügyi igazgatási
Átfedési hálózat Tapasztalatok h=0,33-as vágás mellett 38 egyes csúcs Visszakaptuk a szakterületi besorolás egy finomított változatát Híd szakok: 15. élelmiszermérnök, 168. járműmérnök, 58. közszolgálati Szinonima szakok: túl sűrű szövésű részgráfok Informatika blokk: h(31.gi; 63.PTI) = 44%, h(31.gi; 84.MI) = 43% és h(63.pti; 84.MI) = 35%
50%-ban nem eltérő szakpárok listája Mintha elég lett volna egy üzleti alapszakot meghirdetni Hasonlóság Alapszak1 Alapszak2 0,883 12. bűnügyi igazgatási 87. rendészeti igazgatási 0,868 107. vegyészmérnöki 9. biomérnöki 0,733 115. kerámiatervezés 116. üvegtervezés 0,717 1. alkalmazott közgazdaságtan 29. gazdaságelemzés 0,626 65. mezőgazdasági mérnöki 76. növénytermesztő mérnöki 0,621 49. kereskedelem és marketing 82. pénzügy és számvitel 0,614 49. kereskedelem és marketing 72. nemzetközi gazdálkodási 0,606 93. szociális munka 94. szociálpedagógia 0,602 103. turizmus vendéglátás 49. kereskedelem és marketing 0,583 28. gazdálkodási és menedzsment 82. pénzügy és számvitel 0,583 103. turizmus vendéglátás 82. pénzügy és számvitel 0,574 117. fémművesség 118. formatervezés 0,567 103. turizmus vendéglátás 28. gazdálkodási és menedzsment 0,563 3. állattenyésztő mérnöki 65. mezőgazdasági mérnöki 0,558 28. gazdálkodási és menedzsment 72. nemzetközi gazdálkodási 0,557 28. gazdálkodási és menedzsment 49. kereskedelem és marketing 0,555 126. kameraman 127. gyártásszervező 0,533 132. táncművész 134. táncos és próbavezető 0,527 1. alkalmazott közgazdaságtan 58. közszolgálati 0,512 72. nemzetközi gazdálkodási 82. pénzügy és számvitel 0,506 Jól-lét 67. az munkaügyi információs és társ.bizt. társadalomban igazgatási 73. nemzetközi igazgatási 0,500 29. gazdaságelemzés 58. közszolgálati 0,500 103. turizmus vendéglátás 72. nemzetközi gazdálkodási
Egy ismeretkörre jutó kreditmennyiség Legmagasabb egy tárgyra jutó kreditértékek 225,0 130. előadóművészet (44 szakirány) 45,0 92. szlavisztika (14 szakirány) 45,0 33. germanisztika (8 szakirány) 40,6 70. műszaki szakoktató (11 szakirány) 21,7 66. mezőgazdasági szakoktató (5 szi) 21,7 88. romanisztika (6 szakirány) 16,1 107. vegyészmérnöki (1 szakirány) 15,0 83. politológia (1 szakirány) 14,4 97. tanító (2 szakirány) 14,0 6. anyagmérnöki (1 szakirány) 14,0 9. biomérnöki (1 szakirány) 14,0 17. energetikai mérnöki (1 szakirány) 14,0 94. szociálpedagógia (1 szakirány) 13,8 133. koreográfus (1 szakirány) Legalacsonyabb egy tárgyra jutó kreditértékek... 3,5 16. emberi erőforrások (52 tárgyelem) 3,5 167. csecsemő és kisgyermeknevelő (52 te.) 3,4 101. testnevelő edző (53 tárgyelem) 3,3 90. sportszervező (54 tárgyelem) 3,2 141. képi ábrázolás (56 tárgyelem) 3,0 38. humánkineziológia (59 tárgyelem) 3,0 14. egészségügyi szervező (69 tárgyelem) 3,0 134. táncos és próbavezető (60 tárgyelem) 2,8 4. andragógia (65 tárgyelem) 2,6 79. orvosi lab. és képalkotó diag. anal. (93 te.) 2,5 122. alkalmazott látványtervezés (73 tárgy.) 2,3 81. pedagógia (80 tárgyelem) 2,0 86. rekreációszerv. és egészségfejl. (93 tárgy.) 1,6 91. szabad bölcsészet (115 tárgyelem) Kombinált elemzés: egy tárgyra jutó kredit = tanulmányi idő * (1 + szakirányok száma) / 2 * 30 / ismeretkörök száma
Korpusz alapú mutatók Páronkénti kölcsönös információ: DF(a&b) DF(*) PMI(a, b) = log2 --------------, ahol DF: dok. frekvencia DF(a) DF(b) Polaritási érték: SO( [a, b], x) = PMI(x, b) PMI(a, x) illetve ezek normalizált változatai
Páronkénti kölcsönös információ Érdekes PMI értékek 0.063 informatika vs. információ 1.383 kémia vs. fizika 0.957 matematika vs. fizika 0.576 matematika vs. statisztika 0.346 informatika vs. statisztika 0.280 informatika vs. matematika 0.479 informatika vs. algebra 0.258 informatika vs. geometria Informatika vs. PMI értékek 0.479 adatbázis 0.479 programozás 0.415 alkalmazott 0.337 rendszer 0.272 bor 0.222 nyelv 0.216 modellezés 0.175 gazdaság 0.157 biztonság 0.157 menedzsment 0.138 egészség 0.080 humán 0.078 tér 0.149 társadalom 0.369 zene 0.521 intelligencia PMI: a két fogalom független (0), erősen kapcsolódik (+), erősen kerüli egymást (-)
Polaritás vizsgálatok Gyakorlat (+1)? Elmélet ( 1) Tudomány (+1)? Művészet ( 1) 0.156 kémia 0.130 pedagógia 0.103 zene 0.069 irodalom 0.047 társadalom 0.010 fizika 0.003 menedzsment 0.100 informatika 0.145 statisztika 0.161 matematika 0.166 gazdaság 0.560 matematika 0.560 gazdaság 0.536 kémia 0.454 statisztika 0.396 fizika 0.373 informatika 0.351 menedzsment 0.111 társadalom 0.219 irodalom 0.234 pedagógia 0.501 zene SO: +1 pozitív, 0 semleges, -1 negatív