Módszertani kísérlet az életpálya fogalmának formalizálására Előtanulmány a fiatal biológusok életpályakutatását célzó támogatott projekthez



Hasonló dokumentumok
Kutatói pályára felkészítı modul

24. tétel A valószínűségszámítás elemei. A valószínűség kiszámításának kombinatorikus modellje.

BIOMATEMATIKA ELŐADÁS

VII. A határozatlan esetek kiküszöbölése

A biostatisztika alapfogalmai, konfidenciaintervallum. Dr. Boda Krisztina PhD SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

(A TÁMOP /2/A/KMR számú projekt keretében írt egyetemi jegyzetrészlet):

Az új építőipari termelőiár-index részletes módszertani leírása

Hiba! Nincs ilyen stílusú szöveg a dokumentumban.-86. ábra: A példa-feladat kódolási változatai

VÉLETLENÍTETT ALGORITMUSOK. 1.ea.

Rudas Tamás: A hibahatár a becsült mennyiség függvényében a mért pártpreferenciák téves értelmezésének egyik forrása

Kidolgozott feladatok a nemparaméteres statisztika témaköréből

A matematikai statisztika elemei

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

Cserjésné Sutyák Ágnes *, Szilágyiné Biró Andrea ** ismerete mellett több kísérleti és empirikus képletet fel-

6. Elsőbbségi (prioritásos) sor

Kontra József A pedagógiai kutatások módszertana

2. egy iskola tanulói, a változók: magasságuk cm-ben, súlyuk (tömegük) kilóban; 3. egy iskola tanulói, a változó: tanulmányi átlaguk;

f (M (ξ)) M (f (ξ)) Bizonyítás: Megjegyezzük, hogy konvex függvényekre mindig létezik a ± ben

Virág Katalin. Szegedi Tudományegyetem, Bolyai Intézet

A figurális számokról (IV.)

Populáció. Történet. Adatok. Minta. A matematikai statisztika tárgya. Valószínűségszámítás és statisztika előadás info. BSC/B-C szakosoknak

MÉRÉSMETODIKAI ALAPISMERETEK FIZIKA. kétszintű érettségire felkészítő. tanfolyamhoz

2. Hatványsorok. A végtelen soroknál tanultuk, hogy az. végtelen sort adja: 1 + x + x x n +...

Elsőbbségi (prioritásos) sor

Statisztika 1. zárthelyi dolgozat március 21.

1. A radioaktivitás statisztikus jellege

EGYENLETEK ÉS EGYENLETRENDSZEREK MEGOLDÁSA A Z n HALMAZON. egyenletrendszer megoldása a

A szórások vizsgálata. Az F-próba. A döntés. Az F-próba szabadsági fokai

Megjegyzések. További tételek. Valódi határeloszlások. Tulajdonságok. Gyenge (eloszlásbeli) konvergencia

1. ALGORITMUSOK MŰVELETIGÉNYE

Komputer statisztika

Pályázat címe: Pályázati azonosító: Kedvezményezett: Szegedi Tudományegyetem Cím: 6720 Szeged, Dugonics tér

Sorozatok, határérték fogalma. Függvények határértéke, folytonossága

6 A teljesítményelektronikai kapcsolások modellezése

Az átlagra vonatkozó megbízhatósági intervallum (konfidencia intervallum)

1. előadás: Bevezetés. Irodalom. Számonkérés. Cél. Matematikai statisztika előadás survey statisztika MA szakosoknak. A matematikai statisztika tárgya

Témakörök. Egyed-kapcsolat modell. Alapfogalmak

Nevezetes sorozat-határértékek

Kvantum párhuzamosság Deutsch algoritmus Deutsch-Jozsa algoritmus

Matematika I. 9. előadás

A brexit-szavazás és a nagy számok törvénye

1. Adatok közelítése. Bevezetés. 1-1 A közelítő függvény

2. gyakorlat - Hatványsorok és Taylor-sorok

Matematikai statisztika

Függvényhatárérték-számítás

Statisztikai hipotézisvizsgálatok

I. Függelék. A valószínűségszámítás alapjai. I.1. Alapfogalamak: A valószínűség fogalma: I.2. Valószínűségi változó.

Kalkulus I. Első zárthelyi dolgozat szeptember 16. MINTA. és q = k 2. k 2. = k 1l 2 k 2 l 1. l 1 l n 6n + 8

Intervallum Paraméteres Hipotézisek Nemparaméteres. Statisztika december 2.

A települési hősziget-intenzitás Kárpátalja alföldi részén 1

Számsorozatok. 1. Alapfeladatok december 22. sorozat határértékét, ha. 1. Feladat: Határozzuk meg az a n = 3n2 + 7n 5n létezik.

IKT eszközök használata az oktatásban

Témakörök. Alapkoncepciók. Alapfogalmak. Egyed-kapcsolat modell. Alapfogalmak. Egyed-kapcsolat diagram

Kalkulus II., második házi feladat

Adatkezelési tájékoztató

CIVILEK A NYOMTATOTT SAJTÓBAN ÉRDEKÉRVÉNYESÍTÉS A MÉDIÁBAN 1

6. feladatsor. Statisztika december 6. és 8.

A FUNDAMENTÁLIS EGYENLET KÉT REPREZENTÁCIÓBAN. A függvény teljes differenciálja, a differenciális fundamentális egyenlet: U V S U + dn 1

Az iparosodás és az infrastrukturális fejlődés típusai

A válaszadó-vezérelt mintavétel megbízhatóságának vizsgálata szimulációs módszerekkel 1

Ingatlanfinanszírozás és befektetés

Matematika B4 I. gyakorlat

BIOSTATISZTIKA ÉS INFORMATIKA. Leíró statisztika

Piacmeghatározás. Hipotetikus monopolista teszt. Hipotetikus monopolista teszt alkalmazása. Hipotetikus monopolista teszt alkalmazása

3. SOROZATOK. ( n N) a n+1 < a n. Egy sorozatot (szigorúan) monotonnak mondunk, ha (szigorúan) monoton növekvő vagy csökkenő.

ezek alapján kívánunk dönteni. Ez formálisan azt jelenti, hogy ellenőrizni akarjuk,

DIGITÁLIS DOMBORZATMODELLEK ELŐÁLLÍTÁSI TECHNOLÓGIÁI ÉS MINŐSÉGI PARAMÉTEREI

Feladatok megoldása. Diszkrét matematika I. Beadandó feladatok. Bujtás Ferenc (CZU7KZ) December 14, feladat: (A B A A \ C = B)

A függvénysorozatok olyanok, mint a valós számsorozatok, csak éppen a tagjai nem valós számok,

Reálbérek és kereseti egyenlõtlenségek,

XXII. Nemzetközi Köztisztasági Szakmai Fórum és Kiállítás

Kétoldali hibás Monte Carlo algoritmus: mindkét válasz esetén hibázhat az algoritmus, de adott alsó korlát a hibázás valószínűségére.

VII.Valószínűségszámítási, statisztikai, gráfelméleti alapfogalmak

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

NUMERIKUS SOROK II. Ebben a részben kizárólag a konvergencia vizsgálatával foglalkozunk.

Eötvös Loránd Tudományegyetem Informatikai Kar. Analízis 1. Írásbeli beugró kérdések. Készítette: Szántó Ádám Tavaszi félév

biometria III. foglalkozás előadó: Prof. Dr. Rajkó Róbert Hipotézisvizsgálat

Gyakorló feladatok II.

Villamos gépek tantárgy tételei

3.1. A Poisson-eloszlás

A MAGYAR NONPROFIT SZEKTOR JÖVÕJE

Reakciómechanizmusok leírása. Paraméterek. Reakciókinetikai bizonytalanságanalízis. Bizonytalanságanalízis

FOLYADÉKSZÁLLÍTÓ RENDSZER LINEÁRIS PARAMÉTER-ÉRZÉKENYSÉG ELEMZÉSE 2 1. BEVEZETÉS

V. Deriválható függvények

2. Az együttműködő villamosenergia-rendszer teljesítmény-egyensúlya

AZ EURÓPAI UNIÓS TÁMOGATÁSOK HATÁSA A

KAOTIKUS VAGY CSAK ÖSSZETETT? Labdák pattogása lépcsôn

Diszkrét matematika II., 3. előadás. Komplex számok

Paktum Hírlevél. közzétételét. Amellett, hogy rendszeresen tájékoztat majd a Hegyháti Paktum aktuális történéseirõl, szeretne gyakorlatias

EGYENLETEK ÉS EGYENLETRENDSZEREK MEGOLDÁSA A Z n HALMAZON. egyenletrendszer megoldása a Z

RÁBAKÖZI TAKARÉKSZÖVETKEZET

Ki a Köz és mi a haszon és Ki szerint? a Közhasznúság fogalmi és tartalmi deilemmái. a magyar civil crowdsourcing és crowdfunding jó gyakorlatai

MATEMATIKA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Napjainkban többféle álláspont támasztja alá, vagy vonja kétségbe a kvalitatív

1 k < n(1 + log n) C 1n log n, d n. (1 1 r k + 1 ) = 1. = 0 és lim. lim n. f(n) < C 3

Optika. sin. A beeső fénysugár, a beesési merőleges és a visszavert, illetve a megtört fénysugár egy síkban van.

KÍSÉRLETTERVEZÉS ÉS ÉRTÉKELÉS A MIKROBIOLÓGIAI GYAKORLATBAN

Kombinatorika. Variáció, permutáció, kombináció. Binomiális tétel, szita formula.

ISMERETEK ÉS VÉLEMÉNYEK A NONPROFIT SZEKTOR SZERVEZETEIRŐL Egy empirikus kutatás tapasztalatai a Nyugat-Dunántúlon

( a b)( c d) 2 ab2 cd 2 abcd 2 Egyenlőség akkor és csak akkor áll fenn

Átírás:

[ξ ] Módszertai kísérlet az életpálya fogalmáak formalizálására Előtaulmáy a fiatal biológusok életpályakutatását célzó támogatott projekthez Soós Sádor ssoos@colbud.hu; 2009/9 http://www.mtakszi.hu/kszi_aktak/ MTA Kutatásszervezési Itézet 2009

Soós Sádor Az életpálya-fogalom modellezése /9 Módszertai kísérlet az életpálya fogalmáak formalizálására Előtaulmáy a fiatal biológusok életpályakutatását célzó támogatott projekthez Az életpályamodell formális megközelítése Az életpályakutatás általáos módszertaát illetőe alapvető kérdés az életpálya fogalma, aak formalizálhatósága. Céluk az alább ismertetett mukába, amely a fiatal biológusok életpályakutatását célzó programhoz kapcsolódik, egy olya modell vagy modellcsalád leírása volt, amely az életpálya-fogalmat formálisa és empirikusa is tesztelhető módo reprezetálja. Az eek eredméyekét előállt eszközöket arra az adatbázisra alkalmaztuk, amely a kutatás sorá fiatal biológusok körébe végzett kérdőíves felmérés alapjá keletkezett 2. Eek fő változói a karrierállomásokat, az életpályára hatást gyakorló számos további téyezőt (taulmáyok, családi körülméyek stb.) és attitűdöket rögzítették. A szokásos szóhaszálattól kissé eltérőe életpályamodell alatt olya formalizmust, matematikai kostrukciót értük, amely az alábbi jellemzőkkel redelkezik: () modellezi, ill. reprezetálja az egyéi életpályák felvételéből, az adatbázisból kiemelkedő tedeciákat, (2) modellezi az életpálya alakulását befolyásoló téyezők kapcsolatát, és eek révé (3) prediktív, vagyis előrejelzésre alkalmas. A karrierkimeetek előrejelzési modellje: Bayes-klasszifikáció A feti három kritérium alapjá az életpálya ituitív fogalmáak megragadásához az ú. Bayes-hálók, ill. Bayes-klasszifikáció módszerét vizsgáltuk meg. A Bayes-háló általáosságba egy iráyított (ciklusmetes) gráf, grafikus statisztikai modell, amely (többyire) diszkrét valószíűségi változók együttes eloszlását reprezetálja. Csomópotjai az éritett változók, élei pedig a köztük feálló feltételes függőségi viszoyokat jelzik: bármely gráfbeli változó feltételese függ a szülőódusoktól, vagyis azoktól a változóktól, és csak azoktól, amelyektől a gráfba él vezet ahhoz. Fotos kitétel a kizárólagosság: a vizsgált változók körébe a szülőódusoktól való függés a többi változótól való függetleséget implikálja. Egy adott eredméyváltozóra hatást gyakorló téyezők modellezéséél tehát egy Bayes-háló a (mért) háttérváltozók teljes összefüggésredszeréek taulmáyozását lehetővé teszi. A Bayes-hálók egyik defiitív jellemzője tehát a függőségi struktúra. A másik összetevő az egyes függőségi viszoyokat számszerűsítő paramétereket, vagyis a változókak a szülőódusoktól függő feltételes eloszlásait tartalmazza. A gyakorlatba egy X változó eloszlását ú. feltételes valószíűségi táblákkal (FVT) szokás meghatározi, amelyek mide kovariás, vagyis a szülőódusok lehetséges értékeiek A taulmáy eredméyei a következő közleméybe kerültek felhaszálásra: Mosoié Fried Judit Pálikó Éva Soós Sádor: Tudomáyos fokozattal redelkező fiatal biológusok mukahelyi orietációja. LVII. évf., 200. jauár (7 90. o.), Melléklet: Iovációkutatás. 2 Az adatbázis jellemzését lásd az idézett cikkbe.

Soós Sádor Az életpálya-fogalom modellezése 2/9 mide kombiációja mellett rögzítik X kimeetét. A gráf és paraméterei ismeretébe lehetségessé válik az eredméyváltozó valószíűsíthető értékére voatkozó következtetés, vagy, más aspektusból, az egyedek valószíűségi osztályozása, klasszifikációja. Ez utóbbi elvet haszosítják az alább bemutatott életpályamodellbe is alkalmazott módszer, az ú. Bayes-háló alapú klasszifikáció sorá. A módszer feltételez egy adatbázist, amelyek egy választott C eredméyváltozóját, az ú. osztályozó változót kívájuk a többi változó (az ú. attribútumok) alkalmas Bayes-hálója segítségével modellezi. Az adatokhoz legikább illeszkedő hálózat az ú. klasszifikátor (classifier), amelyek fő fukciója, hogy lehetővé tegye az adatbázisba em szereplő egyedek besorolását a C kategóriáiak valamelyikébe azok modellbeli attribútumai alapjá. Ez a valószíűségi következtetés a Bayes-háló fet leírt tulajdoságai, és a klasszifikátorok általáos felépítésé alapszik. Utóbbi alapvető voása, hogy kiiduló- (gyökér-) potjába a C áll: ebből azokhoz a változókhoz vezet él, amelyek közvetleül függeek a C-től. Az idirekt hatású változókhoz más változóktól is futak élek: ezek hatása tehát más változók értékétől is függ. E hatásokat az FVT-k számszerűsítik, amelyek becslése utá a következtetés (bármely egyed C szeriti jellemzése) az ú. Bayes-szabályra támaszkodik, amely a megfigyelt X X változók értékéek függvéyébe úgy defiiálja a C értékeiek feltételes, posterior valószíűségét, hogy az X X értékeiek (kovariásaiak) a C-től való függésére vagyis az FVT-kre hivatkozik: P( C = c i X = x K X = x ) = P( C = c i ) P( X P( X = x K X = x K X = x = x ) C = c i ) Ebből az elvből mivel a Bayes-gráfalkotás szabálya szerit a kapcsolatba em álló csomópotok függetleek levezethető, hogy a C-beli kategóriák valószíűsége az egyed x x tulajdoságai feltételes valószíűségéek szorzata. Ezeket a valószíűségeket az FVT-k kódolják (direkt hatású változókál a C értékeiek, idirekt hatásúakál pedig a gráf szerit arra hatást gyakorló változók kovariásaiak függvéyébe). A Bayes-klasszifikátor mit életpályamodell Midezek alapjá a Bayes-háló alapú osztályozás ígéretes eszközt szolgáltat egy prediktív poteciállal redelkező életpályamodell kidolgozásához, ha azt az alábbiak szerit közelítjük meg. Az karrier jelelegi állapotát/kimeetét befolyásoló téyezőket és azok kapcsolatredszerét kívájuk hatékoya modellezi. A feladatot klasszifikációs problémakét kezeljük: a kérdés, hogy milye előrejelzést tehetük a karrier kimeetét jellemző C változó (pl. beosztás, mukaerőpiaci pozíció, tudomáyos raglétrá elfoglalt hely stb.) értékére a többi változó (előzméyek, attitüdök stb.) értékeiek ismeretébe.

Soós Sádor Az életpálya-fogalom modellezése 3/9 Ebbe a megközelítésbe életpálya-modellük egy G,Θ Bayes-klasszifikátor, amelybe G egy iráyított (körmetes) gráf C gyökérpottal (karrierkimeet), Θ pedig az ábrázolt eloszlás paramétereiek halmaza (FVT-k). Egy ilye életpálya-modell kokrét adatbázis alapjá való feltárása az adatokhoz legjobba illeszkedő Bayes-klasszifikátor felépítését jeleti. Eek korszerű módszere az adatbáyászat és a mesterséges itelligecia területéek metszetébe álló gépi taulás paradigmája. Az erre a célra készült algoritmusok az adatbázis alapjá igyekezek megtauli a legjobb modellt. A Bayes-háló tauló algoritmusok két kompoese a megfelelő gráf, vagyis a változók függőségi struktúrájáak keresése, illetve a struktúra alapjá a paraméterek becslése. A taulási folyamat vázlatosa egy kiiduló gráf heurisztikus ismételt módosítása valamely célfüggvéy maximalizálása mellett, amely a gráfak az adatokhoz (az együttes eloszláshoz) való illeszkedését méri (etwork score). Az adatbázis egyidejűleg ú. taító és tesztadatbáziskét fukcioál: a tauló algoritmus ez alapjá kostruálja meg az osztályozó változó és az attribútumok közti viszoyokat, de erre alkalmas érvéyességi feltételek mellett eze is teszteli és értékeli a modellt (l. let). A követekzőkbe bemutatott kísérlet célja egy ilye életpályamodell, azaz (legalább) egy Bayes-háló alapú klasszifikátor (BHK) megalkotása a fiatal biológusokra voatkozó adatbázis mit taító- és tesztadatbázis felhaszálásával. Az eredméykét remélt predikciós eszköz dötéshozatali alkalmazásáak előyeit em elsősorba a téyleges előrejelzésbe vagyis az új egyedek életpálya-kimeetéek becslésébe, haem a klasszifikátor tulajdoságaiak jeletőségébe jelölhetjük meg: predikciós modell fehér doboz jellegű, vagyis a predikció levezetése átlátható, és a hátterébe álló struktúra betekitést yújt a relevás életpálya-téyezők kapcsolatredszerébe (egy adott kimeeti változó függvéyébe). A fiatal biológusokra voatkozó modell előkészítése: az adatbázis exploratív vizsgálata Az adatbázisra épülő modellépítés alapvető mozzaata az életpálya-kimeet valamely relevás aspektusát kódoló C eredméyváltozó kiválasztása. Nagyszámú poteciális magyarázó változó eseté a Bayes-hálók számításigéyét figyelembe véve ugyacsak elkerülhetetle a dimezióredukció, vagyis a változóhalmaz jóval kisebb számú változóval való reprezetációja. Az általuk haszált kérdőíves adatbázis az aktuális kérdésfeltevéshez mért mauális szűkítés, vagyis a relevás dimeziókra voatkozó miimalista hipotézis yomá agyjából ötve kategoriális változóból épült fel. A C és a relevás attribútumok kiválasztásához egy exploratív techika vezetett el. Az exploratív szakaszba az adatbázis változói közötti asszociációt és aak mértékét vizsgáltuk. Asszociációs mutatókét a kategoriális változók kölcsöös függőségét számszerűsítő ú. kölcsöös iformációt vagy MI-idexet haszáltuk, amely a változók együttjárását léyegébe együttes eloszlásuk egyeletességével, etrópiájával fejezi ki:

Soós Sádor Az életpálya-fogalom modellezése 4/9 MI( X, Y ) = H ( X ) + H ( Y ) H ( X, Y ), ahol = i H ( A) P( Ai ) * l P( A i ) az A változó etrópiája, P(A i ) pedig az A i változóérték együttes etrópia eseté az A i B i kovariás valószíűsége. Az ötve változó asszociációs mátrixa alapjá ezek utá egy asszociációs térképet készítettük: egy olya gráfot, amelyek csomópotjai a változók, élei pedig a köztük lévő asszociációs kapcsolatot jelzik. A gráfból töröltük az izolátumokat, vagyis azokat a változókat, amelyek kevésbé iformatívak a többi viszoylatába. Az így megmaradt összefüggő részgráfot kompoest jeleíti meg a. ábra. Az asszociációs struktúra értelmezését két további jellemző segíti: ) a mértékre voatkozóa megállapítottuk egy határértéket (az asszociációra kapott hatváyfüggvéy-eloszlás alapjá 0.2), és az ezt meghaladó kapcsolatokat folytoos voallal, az alatta maradókat potozott voallal jelöltük. 2) A csomópotok agysága azok ú. sajátvektor-cetralitásával aráyos: ez a változók pozíciójára voatkozó mutató ebbe az esetbe úgy értelmezhető, mit az adott változó (közvetle és közvetett) függőségi kapcsolatredszeréek mérete, kiterjedtsége. Az gráf alapjá megállapítható, hogy a fiatalbiológus-adatbázisba a változók közötti kapcsolat általáosságba viszoylag gyege. Az általába látható gyege kapcsolat mellett a változótérképről leolvashatók bizoyos, egymás tekitetébe iformatív változócsoportok. A térkép magját alkotó, viszoylag összefüggő csoport a mukapiaci státus külöböző jellemzőit írja le: jelelegi mukahely szektoriális helye (q42), szervezeti típusa (q4), beosztás (illetve két, ezekből képzett változó, amelyek defiíció szerit összefüggeek az előbbiekkel: jelelétük a módszer tesztjekét értékelhető). Hasolóa erős klasztert alkot a családi paraméterek egy csoportja (családi állapot, háztartás mérete, va/ics gyermek m32, m33, 40a,). Figyelemre méltóbb eek, valamit az előző klaszterek az összefüggése: a háztartás mérete (m33) és a beosztás között látható szorosabb összefüggés. További kapcsolatot figyelhetük meg a fokozatszerzés átfogó területe (q5: ifra- vagy szupraidividuális biológia) és aak itézméye között (q3, egyetemek): az utóbbi szité kapcsolódik a beosztáshoz. A gráf tükrözte viszoylag triviális további összefüggés a képzés formája (q3) appali, levelező, esti tagozat és a képzés fiaszírozása között áll fe (q5).

Soós Sádor Az életpálya-fogalom modellezése 5/9.. ábra A kérdőíves adatbázis változóiak asszociációs térképe (kölcsöös iformáció, MI alapjá) Figyelembe véve a változótérképet, Bayes-klasszifikátorukhoz eredméy- vagy osztályozó változó gyaát a jelelegi mukáltató szervezeti típusát választottuk (q42), vagyis ugyaazt a dimeziót, amelyet korábba a karriertérképekél is alkalmaztuk. Ez a tartalmi szempotból karrier-kimeet jellegű változó redelkezik a legagyobb (sajátérték-) cetralitással, vagyis a legkiterjedtebb függőségi kapcsolatredszerrel a változógráfba (a hasoló méretű mukahely6 csomópot egy ebből képzett változót jelez). A magyarázó változók kiválasztásához szité egy MI-alapú modellépítési techikát, az adatbáyászatba széles körbe alkalmazott ú. korreláció-alapú jellemzőkiválasztást (correlatio-based feature selectio, CFS) haszosítottuk. Az algoritmikus eljárás valamely keresési módszer segítségével igyekszik azt a változócsoportot azoosítai az adatbázisba, amely a legkevésbé redudás és a legikább iformatív az eredméyváltozó tekitetébe. Eek megvalósítása a heurisztikus keresés sorá megvizsgált változócsoportok értékelésével, és a legjobb jellemzőhalmaz kiválasztásával zajlik. Az alkalmazott kritérium az MI-idex ormalizált változata, az ú. szimmetrikus bizoytalaság, amely a kategoriális változók korrelációs mutatójakét szolgál: az ebből képzett maximalizált célfüggvéy (merit) magas értéke azt jelzi, hogy a kiválasztott jellemzőhalmaz elemei a lehető legkevésbé korrelálak

Soós Sádor Az életpálya-fogalom modellezése 6/9 egymással (redudacia-metesség), és a lehető legagyobb mértékbe a célváltozóval (iformativitás). A klasszifikátor felépítéséhez a célváltozó (q42) megjelölésével a teljes adatbáziso lefuttatuk egy CFS-keresést. Az így kapott legjobb változóhalmazra (és az eredméyváltozóra) szűkített adatbáziso gépi taulással kostruáltuk meg a legvalószíűbb Bayes-hálózatot mit klasszifikátort. A feladathoz a Weka 3 yílt forráskódú gépi taulást megvalósító alkalmazáscsomagot vettük igéybe (a Bayes et classifier sémát a szülőódusok lehetséges számát maximalizálva, egyébkét az alapértelmezett paraméterekkel taítottuk). Az alábbiakba elsőkét rövide ismertetjük az ebből adódó modellt (2. ábra), majd aak értékelését. A adatbázis alapjá tault modell A külöböző szervezeti típusokba való elhelyezkedés valószíűségét (q42) a mitából felépíthető modell értelmébe kilec változó befolyásolja. A változók tartalmát az. táblázatba foglaltuk össze. A hálózat struktúrája viszoylag egyszerű: egy téyező kivételével a csomópotok egyetle szülője a célváltozó (q42), vagyis ebbe a kotextusba egymástól függetleül, közvetleül hatak a q42 kimeetére. A kivétel az a jellemző, amely a PhD-taulmáyok alatti külföldi szakmai tevékeységre voatkozik (q32): ez (és így eek hatása) két további téyezőtől függ: befolyásolja a képzés formája (q3: appali, esti, levelező) és a doktori fokozat megszerzésére voatkozó motiváció típusa (q25.3). Összességébe azt modhatjuk, hogy a kapott modellbe a szervezeti hovatartozásra égy fő téyezőcsoporból következtethetük: () A doktori képzésbe való részvétel itezitása: q3, q27, q32 (2) a mukapiaci előzméyek: q4, (3) a tudomáyos karrierre voatkozó attitüdők. q25.3, m04, m20.4, ill sajátos, de érthető módo a fokozatszerzés átfogó szakterülete. 3 WITTEN, I. H. EIBE, F. [2005]: Data Miig: Practical machie learig tools ad techiques, 2d Editio. Morga Kaufma, Sa Fracisco.

Soós Sádor Az életpálya-fogalom modellezése 7/9 2. ábra A mukáltató szervezeti típusát előrejelző Bayes-klasszifikátor. táblázat A Bayes-klasszifikátort felépítő változók defiíciója Kód Leírás q5 Melyik átfogó területe szerzett fokozatot? q3 Milye tagozato járt doktorképzésre? q25.3 Az alább felsoroltak közül mi ösztöözte Öt legikább a fokozat megszerzésére? q27 Tault, esetleg dolgozott Ö ösztödíjaskét külföldö egyetemista korába? q32 Tault, esetleg dolgozott Ö ösztödíjaskét külföldö PhD hallgató, illetve doktorjelölt korába? q4 Milye ágazatba tevékeykedik jelelegi/idöbe legközelebbi mukáltatója? beosztas Mi a beosztása? Életpályája sorá hogya szereté maximálisa kiteljesítei saját tudomáyos-szakmai m04 ambícióit? Kérjük, az alább felsoroltak közül válassza ki azt az állítást, melyet a legikább sajátjáak érez! m20.4 Kit tart Ö sikeres kutatóak? / Magas presztízsü állást tölt be Az összefüggésredszer részleteit, mit korábba részleteztük, az FVT-k tartalmazzák, vagyis azok a feltételes valószíűségi táblák, amelyekből megállapítható, hogy a jellemzők egyes értékei milye mértékbe valószíűsítik az egyes szektorokat (mivel itt a legtöbb változóak egyetle szülőódusa va, a célváltozó, ezek a táblák egyszerű kereszttáblák: kivétel ez alól a három jellemzőtől függő q32, amelyek FVT-je az összes kovariás, vagyis a három jellemző értékéek összes kombiációja mellett adja meg ezeket a valószíűségeket). Ezek az FVT-k a modell részét képezik, a gráf egyes csomópotjaihoz tartozak. Demostrációs céllal itt a q5-höz tartozó FVT-t közöljük, amely a fokozatszerzés átfogó területéek szerepét jellemzi (2. táblázat).

Soós Sádor Az életpálya-fogalom modellezése 8/9 2. táblázat A fokozatszerzés átfogó területéhez (q5) tartozó feltételes valószíűségi tábla (FVT) Ifraidividuális biológia Szupraidividuális biológia Nem döthetö el igazá Más szakterülete, éspedig: Akadémiai 0.57 0.9 0.2 0.2 kutatóitézet Egyéi vállalkozás 0.25 0.25 0.25 0.25 Egyetem 0.53 0.35 0.08 0.04 Más állami K+F 0.63 0.25 0.00 0.3 itézméy Más itézméy, 0.38 0.63 0.00 0.00 éspedig: Noprofit szervezet 0.00 0.67 0.33 0.00 Profitorietált 0.00 0.00.00 0.00 kisvállalkozás (0-49 fös) Profitorietált 0.67 0.33 0.00 0.00 középvállalkozás (50-250 fös) Profitorietált 0.00.00 0.00 0.00 mikrovállalkozás (max. 9 fös) Profitorietált agyvállalat (250 fö felett) 0.86 0.4 0.00 0.00 A táblázatból taúsága szerit ha egy biológusjelölt az ifraidividuális biológiát választja, úgy jóval agyobb a valószíűsége a profitorietált agyvállalatál való elhelyezkedések, mit a ha a szupraidividuális területe kutat. Ez az eredméy jól iterpretálható, mithogy ituitíve is köyebb biokémikuskét vagy molekuláris biológuskét ipari területe érvéyesüli (gyógyszeripar), mit taxoómuskét vagy ökológuskét. A táblázat szerit ugyaakkor az akadémiai és az egyetemi szféra is favorizálja ezt a területet (bár az egyetemek esetébe kiegyelítettebb az aráy). Másfelől a szupraidividuális terület elsősorba a oprofit szférát (ill. a mikrovállalkozást) valószíűsíti: ez szité értelmezhető, ha figyelembe vesszük a jellemzőe ökológusokat igéylő köryezetvédelem mit szektor szervezeti formáit. A kokrét magyarázatoko túl ugyaakkor figyelemre méltó, hogy az elhelyezkedési mitázatokat már a (bilógiá belüli) területválasztás agyba befolyásolja. A modell értékelése Az fet bemutatott modell érvéyéek vizsgálatához több, az adatbáyászatba klasszifikátorok értékelésére jellemző mutatót vizsgáltuk meg. A modellek az adatokhoz való lehető legjobb illeszkedését már maga a taulási folyamat is igyekszik biztosítai: a gépi taulás két lépcsője, a taulás és tesztelés az ú. keresztvalidáció módszerével zajlik. (Witte Eibe, [2005]). Ebből fakadóa mide egyed szerepel legalább egyszer taító- és tesztalaykét is.

Soós Sádor Az életpálya-fogalom modellezése 9/9 A modellépítés első lépcsőjekét értékelhető jellemző-kiválasztás (CFS) sikerességéek mutatója ige magas (merit = 0.9). Némileg áryalja ugyaakkor ezt a képet, ha a magyarázó változók halmazát összevetjük a változótérképpel. A magyarázó változók között megtaláljuk a térkép szerit a célváltozóval erőse asszociált (vele függőségi viszoyba lévő) változókat, de olyaokat is, amelyek a térkép szerit gyegébb kapcsolatba állak vele. Másfelől az erőse asszociált magyarázó változók egy kisebb köre egymással is szorosabba korrelál (ami elletmodai látszik a redudacia-elvek). Az első megfigyelésre a magyarázat az, hogy a térkép csak a legerősebb kapcsolatokat vizualizálja (amelyek sokszor viszoylag triviálisak). A második megfigyelés a függőségi viszoyredszer egészével hozható kapcsolatba: a függőség mértékéek ilye eloszlása mellett (kevés erős, sok gyegébb kapcsolat) a legjobb változóhalmaz kiválasztása kompromisszumot eredméyez. Összességébe azt modhatjuk, hogy a CFS agyobb felbotású képet yújt a relevás változókról. A kísérlet eredméyekét kapott klasszifikátor értékeléséek elsődleges mutatója a megfelelőe besorolt egyedek száma, illetve részaráya (percet of correctly classified istaces, PCC). Az adott taító (és teszt-) adatbáziso a feti, vagyis a legjobba illeszkedő modell közepes teljesítméyt mutat: a mukáltató szervezeti típusát 63%-ba volt képes helyese (vagyis az adatbázisba szereplő téyleges érték szerit) megítéli. Ez a részaráy azoba egyidejűleg a célváltozó egyes értékeire, vagyis az egyes szervezeti típusokra voatkozó helyesség, a helyes pozitív ráták átlaga. A klasszifikátor teljesítméyét az egyes kimeetekre voatkozóa értékelve jóval iformatívabb képet kapuk (3. táblázat). A táblázat értelmébe a modell kellőe megbizható eredméyt, vagyis jó jellemzést ad az akadémiai kutatóitézet, az egyetem és a profitorietált agyvállalat típusra voatkozóa, a többi esetébe viszot kimodotta rosszul teljesít. Ez utóbbi értékek olya, bővebb mita révé javíthatók, amelybe a voatkozó kategóriákat jóval több eset képviseli, ebből következőleg a tauló algoritmus számára több iformáció áll redelkezésre az adott kimeetekről. 3. táblázat A Bayes-klasszifikátor értékelése Érték HP ráta FP ráta Potosság Fedés Akadémiai kutatóitézet 0.8 0.288 0.596 0.8 Egyetem 0.74 0.23 0.795 0.74 Más állami K+F itézméy 0 0.044 0 0 Egyéi vállalkozás 0 0 0 0 Profitorietált mikrovállalkozás (max. 9 fös) 0 0 0 0 Profitorietált kisvállalkozás (0-49 fös) 0 0 0 0 Profitorietált középvállalkozás (50-250 fös) 0 0.008 0 0 Profitorietált agyvállalat (250 fö felett) 0.857 0.035 0.6 0.857 Noprofit szervezet 0 0 0 0 Más itézméy, éspedig: 0.375 0.08 0.6 0.375 Súlyozott átlag (- PCC) 0.639 0.55 0.599 0.639 Rövidítések: HP=helyes pozitív, FP=false pozitív