Doménspecifikus korpusz építése és validálása
|
|
- Katalin Királyné
- 6 évvel ezelőtt
- Látták:
Átírás
1 Dodé R.: Doménspecifikus korpusz építése és validálása 17 Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudományi Doktori Iskola Kivonat: Egy terminuskivonatoló fejlesztésének első lépése az adott domént lefedő korpusz építése, minél relevánsabb és minél több anyagból. Elegendő nagyságú korpusz kézzel történő gyűjtése azonban időigényes. Jelen tanulmány a disszertációmhoz szükséges korpusz építésének módszertani vizsgálata, amelyben az ökoinnováció doménhez tartozó szövegeket gyűjtök és értékelek, oly módon, hogy hasonlóságot mérek a letöltött anyagok között. A szövegek letöltése egy filtereket alkalmazó programkóddal történt. A szkript magyarra történő átültetése után szükség volt egy kezdő URL-lista, illetve egy mintákat tartalmazó fájl összeállítására. A kezdő, manuálisan összeállított lista alapján a program letöltötte a szövegeket, amelyeket az előre megadott minták alapján szűrt. A 2000 szövegből a validáláshoz 20 darab szöveget választottam. Referenciaszövegeknek a legtöbb mintát tartalmazó 4 szöveg lett kijelölve. A szövegek előfeldolgozását követően a JSI Similarity programmal számoltam hasonlóságot (vektorok közötti koszinuszhasonlóság). Nem parametrikus tesztet használtam annak megállapítására, hogy a hasonlósági értékek eltérnek-e az előre megállapított 0,5-es küszöbtől. Egyik szöveg esetében sem találtam szignifikáns eltérést a 0,5-es értéktől. A szövegek szószáma és hasonlósága között enyhe negatív kapcsolatot találtam, amelyet egy kiugró szószámmal rendelkező szöveg okozott. 1 Bevezetés Napjainkban az interneten fellelhető tartalmak tömegesen elérhetők, és némi ráfordítással milliárdos nagyságrendű korpuszok állíthatók elő. Ezek előnyei, hogy számos nyelvi jelenség megfigyelhető bennük, hátrányuk viszont, hogy sokféle szöveget tartalmaznak, így nem tudunk például ezeken olyan ún. doménspecifikus osztályozókat tanítani és építeni, amelyek csak az adott típusú szövegre jellemzőek. Jelen tanulmány a doktori disszertációmhoz tartozó előzetes kutatás, mivel értekezésem a magyar szövegeken történő terminuskivonatolással foglalkozik, és a terminuskivonatoló alkalmazás fejlesztésének első lépéseként szükség van egy olyan korpuszra, amely lehetőleg minél relevánsabb és minél több anyagot tartalmaz a vizsgált doménból. (Nagy 2012). A disszertációm azökoinnováció tárgykörrel foglalkozik, a domén szövegeiből áll majd a használt doménspecifikus korpusz. Az ökoinnováció mint fogalom nem feltétlenül egyértelmű, így nézzük, hogyan definiálja az ökoinnovációt az Európai Bizottság Az ökoinnovációs cselekvési tervben (Eco-AP 2011: 3).
2 18 XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia Az ökoinnováció az innováció minden olyan formája, amelynek eredménye vagy célja a fenntartható fejlődés irányába történő jelentős és igazolható előrelépés a környezeti hatások csökkentése, a környezetterheléssel szembeni ellenálló képesség növelése, vagy a természeti erőforrások hatékonyabb és felelősségteljesebb felhasználásának megvalósítása révén (Eco-AP 2011: 3). A választott domén korszerű technológiákkal (hulladékkezelés, alternatív energiák stb.) kapcsolatos szövegeket, anyagokat foglal magában, így egyrészt folyamatosan változik, másrészt jelenleg még nem áll rendelkezésre nagy mennyiségű magyar nyelvű írásos anyag a témában, ami még inkább megnehezíti a kutatást. Mivel azonban innovatív és kurrens témáról van szó, a későbbiekben rendkívül hasznossá válthatnak a kutatás eredményei. A tanulmány két fő részből áll: az első felében (2. fejezet) a korpusz építését részletezem, azon belül is a speciális mintákat használó keresőmotor működését, a második részben pedig a korpusz validálásának módszertanát és eredményeit (3. fejezet). A validáláshoz a korpusz egy részét használtam, amely így a 2000 szöveg 1%-ából, azaz 20 véletlenszerűen kiválasztott szövegből, illetve 4 referenciaszövegből áll. Ezek között a szövegek között mértem hasonlóságot a JSI Similarity Service i segítségével. Az eredményeket és következtetéseket tartalmazó részben (4. fejezet) részletesen bemutatom a kapott eredményeket, melyeket statisztikailag elemeztem. A kutatáshoz két hipotézist állítottam fel. (1) A letöltött szövegek elérik a 0,5-es hasonlósági értéket. (2) Minél kevesebb szövegszóból áll a szöveg, annál kisebb lesz a vektorok közti hasonlóság értéke az előre kijelölt referenciaszöveghez képest. 2 A korpusz építése Ha nem az a célunk szövegek letöltésekor, hogy a gyűjtés különösebb tematikus megkötéssel történjen, a letöltés könnyedén kivitelezhető. Egy bizonyos doménhez tartozó korpusz építéséhez azonban már különböző módszerek alkalmazására van szükség. Ezekhez a módszerekhez pedig már szükség van valamilyen korpuszvezérelt eredmény, eszköz, forrás felhasználására, mint például a WordNet, egy előre meghatározott taxonómia vagy egy n-gram statisztika (vö. Remus Biemann 2016; Safran et al. 2012; Chakrabarti et al. 1999), amely kevésbé támogatott nyelvek esetében nem minden esetben áll rendelkezésre. Az irányított webkeresés (focused crawling, topical crawling, directed crawling) egy olyan webes letöltési folyamat, amely irányított módon specifikus témakörre fókuszál (Remus Biemann 2016: 3607). Jelen doménspecifikus korpusz építése egy irányított keresőmotor segítségével történt, amelyet Gregory Greffenstette és Lawrence Muchemi mutattak be 2016-ban egy nemzetközi konferencián (Greffenstette Muchemi 2016). Greffenstette-ék keresőszkriptje angol nyelvre volt megírva, így azt először némileg módosítani kellett. Ez csupán annak a lépésnek az eltávolítását jelentette, amelyben a program angol szavakat keresett a szövegekben (quickenglish.awk). A magyarban ezt a lépést amiatt nem tartottuk különösképpen fontosnak, mivel a kulcsszavak listája 48 elemből állt, ezért kisebb volt rá az esély, hogy idegen nyelvű oldalak is bekerülnek a letöltött szövegek közé. A későbbi kutatásokban azonban tervezem alkalmazni. i Elérhető: Letöltve: július 14.
3 Dodé R.: Doménspecifikus korpusz építése és validálása 19 A szkript shell programozási nyelvben van megírva, és az awk (szövegfeldolgozó és programozási nyelv), illetve fgrep (szövegfeldolgozó) parancsokkal dolgozza fel az előre megadott szöveges mintákat: az URL-eket és a kulcsszavakat. Az awk parancs a UNIX-rendszerek része, így nem szükséges külön installálni. Az awk és az fgrep nagyon hatékony parancsok, amelyeket szöveges fájlok feldolgozására, például minták keresésére használnak. A szkriptben jelen futtatáskor maximum 2000 oldal letöltése volt beállítva paraméterként. A kód egy része azt a célt szolgálta, hogy egy oldal csak egyszer kerülhessen bele a letöltött szövegek közé amennyiben megtalálható volt benne a mintafájl legalább egy mintája. A futtatáshoz szükség volt egy 40 elemből álló kezdő URL-listára, amelyet kézzel állítottam össze a böngészőben az ökoinnovációra kapott találatokból kiindulva, illetve egy mintákat tartalmazó fájlra, amelyek gyakorlatilag kulcsszavak, kulcskifejezések és azok variánsai voltak a weboldalakból kiindulva. Összesen 48 kifejezést tartalmaz, amelyek magukba foglalják a kisbetűs, nagybetűs, kötőjeles, kötőjel nélküli variánsokat, a gépelési hibákat (rövid, hosszú magánhangzó) és néhány eltérő szótővariánst. Ezek felvételére a karakterek pontos egyezése miatt volt szükség (pl. fenntartható energia, Fenntartható energia, ökoinnováció, öko-innováció, napenergia, napenergiá). Az eredeti Greffenstette Muchemi-féle korpuszösszeállításban a mintafájl csupán 2 elemű volt, a domén kis és nagybetűs variánsa. A szkript a letöltött kezdő weboldalakon található szövegek, illetve az ott található URLek letöltése után a mintafájlok alapján elkülönítette a jó szövegeket a nem megfelelő szövegektől annak alapján, hogy megtalált-e benne legalább egy kulcskifejezést a felsoroltak közül. A 2000 letöltött szöveg hossza szövegszó lett. 3 A részkorpusz validálása A kutatás második felében az összeállított korpuszt validáltam. Azt a tanulmány első felében láthattuk, hogy a letöltés és a szövegek kiválasztása egy mintákat tartalmazó fájl alapján történt, mégis azt feltételeztem, hogy a validálásra szükség lehet ahhoz, hogy ténylegesen úgy kezelhessük az összeállított korpuszunkat, mint az ökoinnovációs domént reprezentatívan lefedő szövegek halmazát, amelyben a szövegek hasonlóak, tehát ugyanahhoz a doménhez tartoznak. A következőkben a validálás módszerét fejtem ki. 3.1 A részkorpusz összeállítása Mind a 2000 szöveg összehasonlítására az idő hiányában nem volt lehetőségem, így 20 szöveget választottam véletlenszerűen (randomgenerátor), csupán azzal a feltétellel, hogy a szöveg szószáma haladja meg az 500-at. Ezt azért tartottam fontosnak, hogy az összehasonlításnál kellő szó álljon rendelkezésre, illetve mert azt feltételeztem, hogy a kevés szövegszóból álló fájlok olyan kezdőoldalak, amelyeken a szövegek inkább csak menüpontok, illetve egyéb nem releváns pontok, mint Kapcsolat / Elérhetőség, Szervezetről / Rólunk stb. Az összehasonlítandó részkorpusz összeállítása után kerültek kiválasztásra a referenciaszövegek. A 2000 szövegből összesen négyet választottam referenciaszövegnek annak alapján, hogy egyrészt nem tartoznak a már kiválasztott szövegek közé, illetve ezekben fordult elő a legtöbb kulcskifejezés.
4 20 XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia Mind a részkorpusz szövegeit, mind a referenciaszövegeket tokenizáltam, lemmatizáltam, és kiszűrtem belőlük a gyakori nem tartalmas szavakat (stopszószűrés). A tokenizálást és lemmatizálást a 2016-ban elkészült e-magyar elemzőláncban lévő eszközökkel, az emtoken és emlem eszközökkel végeztem (Mittelholcz 2017, Váradi et al. 2017). Az így kapott stopszavak nélküli, szótövesített szövegeken számoltattam aztán hasonlóságot. A 20 random kiválasztott szöveg átlag hossza stopszavak nélkül 1428 szövegszó, a szövegek hosszának szórása 1054,49. A 4 referenciaszöveg átlag hossza 4936, a szövegek hosszának szórása 3062, A hasonlóság mérése A hasonlítás során minden szöveget összevetettem egymással, és a kapott eredményeket elemeztem. A hasonlítás a JSI Similarity Service webszolgáltatással történt, amely a zajló XLike projekt keretében készült. Az XLike projekt célja egy olyan nyelvtechnológiai infrastruktúra készítése volt, amely hatékonyan nyer ki információkat különböző nyelvű szövegekből, és a nyelveken átívelő adatokkal segíti a különböző eszközök fejlesztését pl. hasonló cikkek ajánlását különböző nyelveken (García-Cuesta et al. 2014: 10). Ennek az infrastruktúrának az egyik eleme a JSI Similarity Service, amely (akár eltérő nyelvű) szövegek hasonlóságát állapítja meg 0 és 1 közé eső mértékben A korpusz- és dokumentumhasonlítás elméleti háttere Nem új keletű igény, hogy korpuszokat, dokumentumokat képesek legyünk objektíven összehasonlítani,. Adam Kilgarriff 2001-es tanulmányának célja olyan különféle módszerek bemutatása, amelyekkel korpuszokat lehet egymással összehasonlítani, minél objektívebb módon (Kilgarriff 2001). Általában elmondható, hogy az összes módszer a szövegek szavainak előfordulásával számol különböző módokon. Kilgarriff először a statisztikai módszereket ismerteti: khi-négyzet-próba, t-teszt, kölcsönös informácisó (MI), log-likelihood, Fischer-egzakt-teszt, TF-IDF, melyek közül a Mann Whitney rangsorolási tesztet emeli ki, majd a valószínűségi eloszlás három módszerét: a Poisson-eloszlást, a binomiális eloszlást és a normál eloszlást. (Ezek a szavak gyakoriságával és azzal a ténnyel számolnak, hogy a tartalmas szavak halmozottan fordulnak elő, szemben a grammatikai szavakkal.) Végül az emberi interpretációs módszerek közül mutat be néhányat (előre meghatározott fogalmak, dimenziók nyelvi megnyilvánulásai). Ezt követően a korpuszhasonlóság, korpuszhomogenitás számolására javasol megoldást. Ehhez elkészíti a Known-Similarity Corporát, a korpuszhasonlóság mérésére szolgáló gold standardot, majd az 500 leggyakoribb szón Spearman-féle rangkorrelációt, khi-négyzet-próbát és keresztentrópiát számol a hasonlósági értékhez. Bemutatja, hogy a módszerek közül a khi-négyzet-próba teljesített a legjobban. A szövegek, dokumentumok hasonlóságának számolása az általam használt módszerrel egészen a disztribúciós szemantika elméletéig, annak háttere pedig Saussure-ig vezethető vissza, aki megfigyelte, hogy a szavak jelentésének kulcsa a szavak funkciójának különbsége (Saussure 1916/1983). Ennek két típusa van, a szintagmatikus és a paradigmatikus. A szintagmatikus kapcsolat egy szó helyzetére vonatkozik, azon entitások kapcsolatára, amelyek együtt fordulnak elő a szövegben
5 Dodé R.: Doménspecifikus korpusz építése és validálása 21 (szekvenciális kombinációk). Ilyen például egy mondat a szövegben. A paradigmatikus kapcsolat ezzel szemben a szó helyettesítésére vonatkozik, azon entitások kapcsolatára, amelyek ugyanabban a kontextusban fordulnak elő, de nem ugyanakkor (pl. tej, kávé, tea, szörp). A disztribúciós hipotézis Harris nevéhez fűződik. A hipotézis szerint a szavak, amelyek hasonló kontextusban jelennek meg, szemantikailag kapcsolódnak egymáshoz (Harris 1968, 1970). A disztribúciós hipotézis a korpusznyelvészet megjelenésével tudott teret hódítani, mivel modellje az empirikus (korpuszok által szolgáltatott) adatoknak egy geometrikus, vektoralapú interpretációján alapul (Sahlgren 2008). A vektorok és az azokból álló mátrixok képesek dokumentumokat reprezentálni a szavak előfordulási gyakorisága szerint A hasonlóságot mérő eszköz Az XLike dokumentumindexelője, a JSI Similarity Service fogalomalapú módszereket használt a dokumentumok összehasonlítására. E módszer a dokumentumokat egy többdimenziós térbe transzformálja oly módon, hogy a dokumentumok kifejezéseinek súlyai, fontossága (term weight) által reprezentált vektorokat egy ún. illesztett konceptuális vektorrá transzformálja a többnyelvű konceptuális térben, és azokat veti össze egymással (vektortér-modellezés). Ezek a vektorok a fogalmak egyfajta leírásai különböző nyelveken. Ezen belül a fogalmak meghatározásához különböző elméleteket használtak: K-középpontú klaszteranalízist, látens/rejtett szemantikai indexelést, explicit szemantikai analízist és kanonikus korrelációelemzést. A vektorok hasonlóságát a koszinusztávolsággal számolják, amely a két vektor által bezárt szög koszinusza (Rettinger et al. 2012). Az 1. ábrán látható 0,88-os hasonlósági érték két génmódosítással kapcsolatos szöveghez tartozik. Ezek tartalmilag csak némileg tértek el egymástól. A következő részben foglalkozom a 0,5-es küszöbszint kijelölésével.
6 22 XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia 1. ábra. A génmódosításról szóló szövegek hasonlósága a JSI programban 4 Eredmények és következtetések A következőkben az eredményeket ismertetem a hipotézisek alapján, ezt követően pedig az eredmények alapján levonok néhány következtetést a kutatással kapcsolatban. 4.1 Első hipotézis A letöltött szövegek elérik a 0,5-es hasonlósági értéket. A küszöbérték meghatározása előzetes tapasztalatok alapján történt. Míg azok a szövegek, amelyek egymásnak fordításai voltak, 0,92 0,95-os hasonlóági értéket értek el, a tematikusan megegyező szövegek (lásd 1. ábra) 0,85 0,88, a tematikusan eltérő szövegek 0,25 0,3-es értéket. Ezeknek a tapasztalatoknak a birtokában állítottam fel a 0,5-es küszöbértéket, számolva a szövegek eltérő hosszával és az előforduló zajjal (nem releváns szövegek megjelenése). Az eredmények a 2. ábrán és az 1. táblázatban láthatók.
7 Dodé R.: Doménspecifikus korpusz építése és validálása ábra. A szövegek hasonlósági értékei referenciaszövegenként százalékban A 2. ábrán látható az összes szöveghez tartozó hasonlósági érték referenciakorpuszonként. (Az egyszerűség kedvéért a 0 és 1 közötti értékek helyett 0 és 100 közötti értékeket használok.) Az ábrán látható az átlagos érték is, illetve látható a szórás mértéke is. Az 1. táblázat ezeket számszerűsítve mutatja. Referenciaszöveg Átlag hasonlóság 0,524 0,373 0,541 0,297 Szórás 0,198 0,192 0,201 0,14 1. táblázat. Átlag és szórás referenciaszövegenként. Az átlagokat tekintve látható, hogy az 1-es és a 3-as szövegek esetében átlagosan magasabb a hasonlósági érték, azonban statisztikailag számolva ez nem mondható el. Mivel az értékek nem normál eloszlásúak voltak, ezért non-parametrikus tesztet (az egymintás t-próba nem parametrikus megfelelőjét) használtam annak megállapítására, hogy a hasonlósági értékek eltérnek-e az előre megállapított 0,5-es küszöbtől. Egyik szöveg esetében sem találtam szignifikáns eltérést az 0,5-es értéktől (p 1szöveg = 0,68; p 2szöveg = 0,36; p 3szöveg = 0,8; p 4szöveg = 0,22). A referenciaszövegek között is mértem hasonlóságot. A eredményeket a 2. táblázatban láthatók. Referenciaszövegek Hasonlóság 0,585 0,844 0,443 0,772 0,568 0, táblázat. Referenciaszövegek hasonlósága egymáshoz mérve
8 24 XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia A 3. táblázat a szövegek hasonlóságainak eltérését mutatja referenciaszövegenként. Ennek megállapítására a páros t-próba nem parametrikus formáját használtam. Referenciaszövegek p-érték Szignifikáns (<0,05*, <0,01**, <0,001***) ,021 * , <0,001 (0,0006) *** ,011 * , <0,001 (0,0004) *** 3. táblázat. Referenciaszövegek hasonlóságának eltérése a szövegek hasonlóságának függvényében A táblázatból látható, hogy az 1-es, a 4-es, illetve a 3-as és a 4-es referenciaszövegeket között erős szignifikáns, míg az 1-es és 2-es, továbbá a 2-es és a 3-as szövegek között szignifikáns eltérés van. Az első hipotézis részben teljesült, mivel egyik referenciaszöveghez mért átlag hasonlósági érték sem lett magasabb, mint 0, Második hipotézis A második hipotézisem, hogy minél kevesebb szövegszóból áll a szöveg, annál kevesebb lesz a hasonlósági értéke a referenciaszöveghez képest. A második hipotézis tehát a szövegek szószáma és a hasonlóság mértékének kapcsolatára vonatkozott. Ennek megállapítására korrelációs analízist használtam. Ebből az látszott, hogy egy enyhe tendenciózus (0,05 < p < 0,1) negatív kapcsolat van közöttük (r Pearson = 0,41, p = 0,071), amely ellentétes a várttal, tehát minél több szóból áll a szöveg annál kevésbé hasonló, viszont ahogy a 3. ábrán látható, ezt az eltérést egyetlen kiugró szószámmal rendelkező szöveg okozta. Ennek a szövegnek az ignorálásával az értékek a következőképpen alakulnak: r Pearson = 0,25, p = 0,30.
9 Dodé R.: Doménspecifikus korpusz építése és validálása ábra. A szövegek hasonlósági értékei referenciaszövegenként százalékban Mindezek alapján elmondható tehát, hogy a második hipotézis nem teljesült, mivel a szövegek mérete és az eredmény között ugyan mutatkozott egy gyenge negatív kapcsolat, azt azonban egyetlen szöveg okozta. 5 Összefoglalás és kitekintés A kutatás a doktori disszertációmhoz kapcsolódó pilot kutatás volt, melyben egy ökoinnovációhoz tartozó korpuszt állítottam össze egy kezdő URL-lista és egy mintákat tartalmazó fájl alapján. Ezt követően a korpusz egy részkorpuszán végeztem összehasonlítást a szövegek között, melynek során arra voltam kíváncsi, hogy az egyébként irányított módon letöltött szövegek valóban hasonlóak-e, azaz valóban az ökoinnováció tárgykörhöz tartoznak. Az első hipotézis nem igazolódott be, de összességében elmondható, hogy a letöltéshez használt szkript robusztus, egyszerűen átültethető más nyelvekre, és előnye más irányított webkeresővel szemben, hogy nincs szükség a szövegek előzetes elemzésére, illetve más módszerek, eszközök, források felhasználására, csupán egy átgondolt kulcskifejezés-lista összeállítására. A lista összeállításakor számolnunk kell a minták karakterszintű egyezésével, tehát a kulcsszavak variánsait (kisbetű/nagybetű, eltérő helyesírás, eltérő szintaktikai szerkezetek) is érdemes felvenni, illetve átgondolni a túl általános vagy épp túl speciális kulcsszavak megadását.
10 26 XI. Alkalmazott Nyelvészeti Doktoranduszkonferencia A kutatás arra is rámutat, hogy mindezek mellett is szükség lehet a korpusz validálásra. A JSI Similarity Service bár nyelvek közötti hasonlóság számolására készült egy nyelven belül is használható. A vektortérmodell mint szöveg-összehasonlítási módszer jó irány, mivel bár a szavak előfordulási gyakoriságát használja, a vektorreprezentációk miatt képes egyéb szemantikai információkat is kezelni (pl. szinonimitás). A későbbiekben érdekes volna további szöveg-összehasonlítási módszereket alkalmazni, mint például a khi-négyzet-próba. A szövegek és a referenciaszövegek is eltéréseket mutattak, ami az ökoinnováció domén ismeretében annak tudható be, hogy rendkívül széles skálán mozognak az aldomének. Láthatjuk az ökoinnováció meghatározásából, hogy a megújuló energia aldomén mellett az újrahasznosítás is az ökoinnováció területe alá tartozik, miközben azok intuitíve és a szókincsben is nagy különbségeket mutatnak. Így tehát a későbbiekben megfontolandó, hogy figyelembe kell venni az ökoinnováció aldoménjeit, és esetleg szűkíteni a vizsgált területeket egy-egy aldoménre. Mindenesetre a további statisztikai vizsgálatok a minta növelését igénylik. További érdekes kutatási módszer lehetne a szövegek összehasonlítására az emberi annotátorok bevonása, akiknek azt kellene eldönteniük, hogy a szöveg milyen mértékben tartozik a doménhez, illetve miért. Irodalom Chakrabarti, S., Van den Berg M., Dom B Focused crawling: a new approach to topicspecific Web resource discovery. Computer Networks, 31(11): De Saussure, F. 1916/1983. Course in general Linguistics. London: G. Duckworth. Európai Bizottság Innováció a fenntartható jövőért Az ökoinnovációs cselekvési terv (Eco-AP). Brüsszel, COM(2011) 899 végleges. nload/1/a3/40000/ecoap.pdf. Letöltve: február 3. García-Cuesta, E., Caparros A., Fortuna B., Carreras X., Zhang L., Li Z., Rettinger A Final toolkit architecture specification. D6.1.2 XLike project. Elérhető: Letöltve: február 12. Grefenstette, G., Muchemi, L Determining the Characteristic Vocabulary for a Specialized Dictionary using Word2vec and a Directed Crawler. In: Kernerman, I., Kosem I., Krek S., Trap-Jensen L. (szerk.) Lexicographic Resources for Human Language Technology GLOBALEX 2016 Workshop Proceedings. Portorož, 24 May Elérhető: Letöltve: december. 3. Harris, Z Mathematical structures of language. New York: Interscience Publishers. Harris, Z Distributional structure. In: Harris, Z. (szerk.) Papers in Structural and Transformational Linguistics. Formal Linguistics Series. Dordrecht: Springer Netherlands Kilgarriff, A Comparing Corpora. International Journal of Corpus Linguistics, 6(1): Mittelholcz I emtoken: Unicode-képes tokenizáló magyar nyelvre. In: Vincze, V. (szerk.) XIII. Magyar Számítógépes Nyelvészeti Konferencia. MSZNY Szeged: JATEPress Nagy Á Terminológiakivonatolás francia nyelvű szabadalmi leírásokból szabály alapú és statisztikai módszerek segítségével. PhD-értekezés. Szegedi Tudományegyetem Bölcsészettudományi Kar, Nyelvtudományi Doktori Iskola. Elérhető: Letöltve: május. 15. Remus, S., Biemann, Ch Domain-Specific Corpus Expansion with Focused Webcrawling. In: Calzolari, N., Choukri K., Declerck T., Goggi S., Grobelnik M., Maegaard B., Mariani J., Mazo H., Moreno A., Odijk J., Piperidis S. (szerk.) Proceedings of the Tenth International
11 Dodé R.: Doménspecifikus korpusz építése és validálása 27 Conference on Language Resources and Evaluation (LREC 2016). Portorož, May Párizs: European Language Resources Association (ELRA) Rettinger, A., Zhang L., Rupnik J., Muhič A Cross-lingual document linking prototype. D4.1.1 XLike project. Elérhető: D411Crosslingualdocumentlinkingprototype.pdf. Letöltve: február 12. Safran, M. S., Althagafi A., Che D Improving Relevance Prediction for Focused Web Crawlers. In: 2012 IEEE/ACIS 11th International Conference on Computer and Information Science. Los Alamitos, California: IEEE Computer Society Sahlgren, M The Distributional Hypothesis. Rivista di Linguistica 20(1): Váradi T., Simon E., Sass B., Gerőcs M., Mittelholcz I., Novák A., Indig B., Prószéky G., Farkas R., Vincze V Az e-magyar digitális nyelvfeldolgozó rendszer. In: Vincze, V. (szerk.) XIII. Magyar Számítógépes Nyelvészeti Konferencia. MSZNY Szeged: JATEPress
Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17
Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott
Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában
Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar Doktori Disszertáció Tézisei Recski Gábor Számítógépes módszerek a szemantikában Nyelvtudományi Doktori Iskola Tolcsvai Nagy Gábor MHAS Elméleti Nyelvészet
1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása
HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a
Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,
Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás
STATISZTIKA Hipotézis, sejtés 11. Előadás Hipotézisvizsgálatok, nem paraméteres próbák Tudományos hipotézis Nullhipotézis felállítása (H 0 ): Kétmintás hipotézisek Munkahipotézis (H a ) Nullhipotézis (H
Igekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt
Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Galbács Gábor KIUGRÓ ADATOK KISZŰRÉSE STATISZTIKAI TESZTEKKEL Dixon Q-tesztje Gyakori feladat az analitikai kémiában, hogy kiugrónak
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
Bevezetés a hipotézisvizsgálatokba
Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -
Populációbecslés és monitoring. Eloszlások és alapstatisztikák
Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás
Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát
A évi kompetenciamérés eredményeinek értékelése a FITjelentés
A 2017. évi kompetenciamérés eredményeinek értékelése a FITjelentés alapján EBESI ARANY JÁNOS MAGYAR-ANGOL KÉT TANÍTÁSI NYELVŰ ÁLTALÁNOS ÉS ALAPFOKÚ MŰVÉSZETI ISKOLA 4211 Ebes, Széchenyi tér 5. OM azonosító:
YANG ZIJIAN GYŐZŐ 杨子剑
YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
Segítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.
Kiváltott agyi jelek informatikai feldolgozása 2018 Statisztika - Gyakorlat Kiss Gábor IB.157. kiss.gabor@tmit.bme.hu Példa I (Vonat probléma) Aladár 25 éves és mindkét nagymamája él még: Borbála és Cecília.
A napsugárzás mérések szerepe a napenergia előrejelzésében
A napsugárzás mérések szerepe a napenergia előrejelzésében Nagy Zoltán 1, Dobos Attila 2, Rácz Csaba 2 1 Országos Meteorológiai Szolgálat 2 Debreceni Egyetem Agrártudományi Központ Könnyű, vagy nehéz feladat
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint
MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori
STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba
Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 15. Nemparaméteres próbák Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November
6. Előadás. Vereb György, DE OEC BSI, október 12.
6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás
Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint
ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
Biostatisztika VIII. Mátyus László. 19 October
Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.
Matematikai statisztika c. tárgy oktatásának célja és tematikája
Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:
Normális eloszlás tesztje
Valószínűség, pontbecslés, konfidenciaintervallum Normális eloszlás tesztje Kolmogorov-Szmirnov vagy Wilk-Shapiro próba. R-funkció: shapiro.test(vektor) balra ferde eloszlás jobbra ferde eloszlás balra
A nappali tagozatra felvett gépészmérnök és műszaki menedzser hallgatók informatikai ismeretének elemzése a Budapesti Műszaki Főiskolán
A nappali tagozatra felvett gépészmérnök és műszaki menedzser hallgatók informatikai ismeretének elemzése a Budapesti Műszaki Főiskolán Kiss Gábor BMF, Mechatronikai és Autótechnikai Intézet kiss.gabor@bgk.bmf.hu
Kettőnél több csoport vizsgálata. Makara B. Gábor
Kettőnél több csoport vizsgálata Makara B. Gábor Három gyógytápszer elemzéséből az alábbi energia tartalom adatok származtak (kilokalória/adag egységben) Három gyógytápszer elemzésébô A B C 30 5 00 10
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István
BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján Hegedűs István Ajánló rendszerek Napjainkban egyre népszerűbb az ajánló rendszerek alkalmazása A cégeket is hasznos információval
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
Eloszlás-független módszerek 13. elıadás ( lecke)
Eloszlás-független módszerek 13. elıadás (25-26. lecke) Rangszámokon alapuló korrelációs együttható A t-próbák és a VA eloszlásmentes megfelelıi 25. lecke A Spearman-féle rangkorrelációs együttható A Kendall-féle
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat
Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi fizika és statisztika I. előadás 2016.11.09 Orvosi
Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes
Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 9. előadás Előadó: Dr. Ertsey Imre Statisztikai hipotézis vizsgálatok elsősorban a biometriában alkalmazzák, újabban reprezentatív jellegű ökonómiai vizsgálatoknál, üzemi szinten élelmiszeripari
Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.
Kiválasztás A változó szerint Egymintás t-próba Mann-Whitney U-test paraméteres nem-paraméteres Varianciaanalízis De melyiket válasszam? Kétmintás t-próba Fontos, hogy mindig a kérdésnek és a változónak
A kibővített Magyar történeti szövegtár új keresőfelülete
A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged Nszt
1/8. Iskolai jelentés. 10.évfolyam matematika
1/8 2009 Iskolai jelentés 10.évfolyam matematika 2/8 Matematikai kompetenciaterület A fejlesztés célja A kidolgozásra kerülő programcsomagok az alább felsorolt készségek, képességek közül a számlálás,
Új alapokon az egészségügyi informatika
Új alapokon az egészségügyi informatika XXVIII. Neumann Kollokvium Új alapokon az egészségügyi informatika A XXVIII. Neumann Kollokvium konferencia-kiadványa Pannon Egyetem, Veszprém, 2015.november 20-21.
Biomatematika 13. Varianciaanaĺızis (ANOVA)
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:
Közoktatási Statisztika Tájékoztató 2012/2013. Használati útmutató
Közoktatási Statisztika Tájékoztató 2012/2013 Tartalomjegyzék 1. Technikai információk... 2 2. Publikus felület... 2 2.1 Bejelentkezés... 2 2.2 Összesítés... 3 2.2.1 Statisztikai tábla megtekintése...
Függetlenségvizsgálat, Illeszkedésvizsgálat
Varga Beatrix, Horváthné Csolák Erika Függetlenségvizsgálat, Illeszkedésvizsgálat 4. előadás Üzleti statisztika A sokaság/minta több ismérv szerinti vizsgálata A statisztikai elemzés egyik ontos eladata
Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.
Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért 2018. november 15. PÉNZ a boldogság bitorlója? A jövedelemegyenlőtlenség természetes határa A boldog ember gondolata a
A KONFLIKTUS, AMI ÖSSZEKÖT A kirekesztéstől a befogadásig
A KONFLIKTUS, AMI ÖSSZEKÖT A kirekesztéstől a befogadásig Dr. Ferenczi Andrea Egyetemi adjunktus KRE BTK Pszichológiai Intézet Új utak az iskolai konfliktusok kezelésében c. konferencia 2012. december
I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE
I. BESZÁLLÍTÓI TELJESÍTMÉNYEK ÉRTÉKELÉSE Komplex termékek gyártására jellemző, hogy egy-egy termékbe akár több ezer alkatrész is beépül. Ilyenkor az alkatrészek általában sok különböző beszállítótól érkeznek,
Szomszédság alapú ajánló rendszerek
Nagyméretű adathalmazok kezelése Szomszédság alapú ajánló rendszerek Készítette: Szabó Máté A rendelkezésre álló adatmennyiség növelésével egyre nehezebb kiválogatni a hasznos információkat Megoldás: ajánló
w w w. h a n s a g i i s k. h u
Weblapkészítés weblap: hypertext kódolású dokumentumok, melyek szöveget képet linkeket, könyvjelzőket/horgonyokat táblázatokat / szövegdobozokat és más objektumokat tartalmaznak. Kódolásuk HTML (Hypertext
32. A Knuth-Morris-Pratt algoritmus
32. A Knuth-Morris-Pratt algoritmus A nyers erőt használó egyszerű mintaillesztés műveletigénye legrosszabb esetben m*n-es volt. A Knuth-Morris-Pratt algoritmus (KMP-vel rövidítjük) egyike azon mintaillesztő
AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK
AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK HOFGESANG PÉTER ÜZLETI INTELLIGENCIA A JÖVŐ, AHOGY MI LÁTJUK Hagyományos és új kommunikációs formák Szöveges adatok Szöveganalitika
Félidőben félsiker Részleges eredmények a kutatásalapú kémiatanulás terén
Félidőben félsiker Részleges eredmények a kutatásalapú kémiatanulás terén Szalay Luca 1, Tóth Zoltán 2, Kiss Edina 3 MTA-ELTE Kutatásalapú Kémiatanítás Kutatócsoport 1 ELTE, Kémiai Intézet, luca@caesar.elte.hu
Kabos: Statisztika II. ROC elemzések 10.1. Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.
Kabos: Statisztika II. ROC elemzések 10.1 ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás szóhasználatával A riasztóberendezés érzékeli, ha támadás jön, és ilyenkor riaszt. Máskor nem. TruePositiveAlarm:
A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában
A Markovi forgalomanalízis legújabb eredményei és ezek alkalmazása a távközlő hálózatok teljesítményvizsgálatában Horváth Gábor ghorvath@hit.bme.hu (Horváth András, Telek Miklós) - p. 1 Motiváció, problémafelvetés
KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20
INTERNET 1/42 KERESÉS A NETEN DR. KÓNYA LÁSZLÓ: KERESÉS A NETEN KERESÉS MÓDSZERE, KERESŐPROGRAMOK 2004.04.20 FORRÁS: TARR BENCE : KERESÉS AZ INTERNETEN PANEM KIADÓ, 2001 ISBN 963 545 326 4 INTERNET 2/42
Óvodás és kisiskolás gyermekek interpretált beszédének vizsgálata
X. Alkalmazott Nyelvészeti Doktoranduszkonferencia 2016. február 5.. Óvodás és kisiskolás gyermekek interpretált beszédének vizsgálata Vakula Tímea ELTE BTK NyDI, III. évf. Bevezetés a beszélt nyelv feldolgozásának
TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23
TARTALOMJEGYZÉK 1. téma Átlagbecslés (Barna Katalin).... 7 2. téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23 3. téma Összefüggések vizsgálata, korrelációanalízis (Dr. Molnár Tamás)... 73 4. téma Összefüggések
2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év).
1. fejezet AWK 1.1. Szűrési feladatok 1. Készítsen awk szkriptet, ami kiírja egy állomány leghosszabb szavát. 2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét,
Az igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
Mérési hibák 2006.10.04. 1
Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség
x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:
Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel: Valószínűségi változó általános fogalma: A : R leképezést valószínűségi változónak nevezzük, ha : ( ) x, x R, x rögzített esetén esemény.
Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA
SZDT-04 p. 1/30 Számítógépes döntéstámogatás OPTIMALIZÁLÁSI FELADATOK A SOLVER HASZNÁLATA Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Előadás
Iskolai jelentés. 10. évfolyam szövegértés
2008 Iskolai jelentés 10. évfolyam szövegértés Az elmúlt évhez hasonlóan 2008-ban iskolánk is részt vett az országos kompetenciamérésben, diákjaink matematika és szövegértés teszteket, illetve egy tanulói
Magspektroszkópiai gyakorlatok
Magspektroszkópiai gyakorlatok jegyzıkönyv Zsigmond Anna Fizika BSc III. Mérés vezetıje: Deák Ferenc Mérés dátuma: 010. április 8. Leadás dátuma: 010. április 13. I. γ-spekroszkópiai mérések A γ-spekroszkópiai
Honlap szerkesztés Google Tudós alkalmazásával
Dr. Mester Gyula Honlap szerkesztés Google Tudós alkalmazásával Összefoglaló: A közlemény tematikája honlap szerkesztés Google Tudós alkalmazásával. A bevezetés után a tudományos teljesítmény mérésének
SZTE Eötvös Loránd Kollégium. 2. Móra György: Információkinyerés természetes nyelvű szövegekből
2010/2011 tavaszi félév SZTE Eötvös Loránd Kollégium 1. Dombi József: Fuzzy elmélet és alkalmazásai 2011. március 3. 19:00 2. Móra György: Információkinyerés természetes nyelvű szövegekből 2011. március
Páros összehasonlítás mátrixok empirikus vizsgálata. Bozóki Sándor
Páros összehasonlítás mátrixok empirikus vizsgálata Bozóki Sándor MTA SZTAKI Operációkutatás és Döntési Rendszerek Kutatócsoport Budapesti Corvinus Egyetem Operációkutatás és Aktuáriustudományok Tanszék
KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:
Normális eloszlás ξ valószínűségi változó normális eloszlású. ξ N ( µ, σ 2) Paraméterei: µ: várható érték, σ 2 : szórásnégyzet (µ tetszőleges, σ 2 tetszőleges pozitív valós szám) Normális eloszlás sűrűségfüggvénye:
Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása
Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból
Szövegbányászat Információ Visszakeresés és egyéb alkalmazások
Szövegbányászat Információ Visszakeresés és egyéb alkalmazások A diák nagyban támaszkodnak a Stanford Egyetem Information Retrieval and Web-mining kurzusának anyagára: http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html
Különírás-egybeírás automatikusan
Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
7. 1. A formatív értékelés és lehetséges módjai (szóbeli, feladatlapos, számítógépes) az oktatásban. - valamilyen jelenségről, ill.
7. 1. A formatív értékelés és lehetséges módjai (szóbeli, feladatlapos, számítógépes) az oktatásban Pedagógiai értékelés fogalma: Az értékelés során értéket állapítunk meg: közvetlenül: közvetve: - valamilyen
Teszt elemzési beszámoló
Teszt elemzési beszámoló Nemzetközi laktációs szaktanácsadók (IBCLC ) minősítő vizsgája 2017. áprilisi vizsgák Készült a Nemzetközi Laktációs Szaktanácsadói Vizsgabizottság (IBLCE ) számára Készítette:
Lövedékálló védőmellény megfelelőségének elemzése lenyomatmélységek (traumahatás) alapján
Lövedékálló védőmellény megfelelőségének elemzése lenyomatmélységek (traumahatás) alapján Eur.Ing. Frank György c. docens az SzVMSzK Szakmai Kollégium elnöke SzVMSzK mérnök szakértő (B5) A lövedékálló
Magyar nyelvű néprajzi keresőrendszer
Szeged, 2013. január 7 8. 361 Magyar nyelvű néprajzi keresőrendszer Zsibrita János 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport zsibrita@inf.u-szeged.hu 2 MTA-SZTE Mesterséges
Webműfajok az egészségügyi honlapokon Szántóné Csongor Alexandra
Webműfajok az egészségügyi honlapokon Szántóné Csongor Alexandra 1. Bevezetés A honlapok, ezen belül a digitális vagy webműfajok kutatása külföldön és Magyarországon is dinamikusan fejlődik az alkalmazott
Loss Distribution Approach
Modeling operational risk using the Loss Distribution Approach Tartalom»Szabályozói környezet»modellezési struktúra»eseményszám eloszlás»káreloszlás»aggregált veszteségek»további problémák 2 Szabályozói
Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév
Matematika A3 Valószínűségszámítás, 6. gyakorlat 2013/14. tavaszi félév 1. A várható érték és a szórás transzformációja 1. Ha egy valószínűségi változóhoz hozzáadunk ötöt, mínusz ötöt, egy b konstanst,
Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.
Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának
Megyei tervezést támogató alkalmazás
TeIR (Területfejlesztési és Területrendezési Információs Rendszer) Megyei tervezést támogató alkalmazás Felhasználói útmutató 2015. május Tartalomjegyzék 1. BEVEZETŐ... 3 2. AZ ALKALMAZÁS BEMUTATÁSA...
Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika
Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika Autokorreláció white noise Autokorreláció: a függvény önnmagával számított korrelációja különböző
BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011.
BAGME11NNF Munkavédelmi mérnökasszisztens Galla Jánosné, 2011. 1 Mérési hibák súlya és szerepe a mérési eredményben A mérési hibák csoportosítása A hiba rendűsége Mérési bizonytalanság Standard és kiterjesztett
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED BASH recap, reguláris kifejezések Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
Az ember, a korpusz és a számítógép *
301 Tóth Ágoston Az ember, a korpusz és a számítógép * Magyar nyelvű szóhasonlósági mérések humán és disztribúciós szemantikai kísérletben Abstract The paper reports on the results of two word similarity
Matematikai geodéziai számítások 10.
Matematikai geodéziai számítások 10. Hibaellipszis, talpponti görbe és közepes ponthiba Dr. Bácsatyai, László Matematikai geodéziai számítások 10.: Hibaellipszis, talpponti görbe és Dr. Bácsatyai, László
2001-ben végze Eötvös-kollégistaként. angol nyelv és irodalom szakán, majd 2006 júliusában
B y G y F v v m y b E y u m y ( m ó ) y v b y v u m y m j 20. A j m : m y v 1 ü - b ü ó, v m y v - v ó y, m y j y v - u m y ü m j m v. A y v u m y y m u m y, ó ü v, m m m u m y. J, m b m ó b. A MTA 56
A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE
A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE Manninger M., Edelényi M., Jereb L., Pödör Z. VII. Erdő-klíma konferencia Debrecen, 2012. augusztus 30-31. Vázlat Célkitűzések Adatok Statisztikai,
GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet
GVMST22GNC Statisztika II. 3. előadás: 8. Hipotézisvizsgálat Kóczy Á. László Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet Hipotézisvizsgálat v becslés Becslés Ismeretlen paraméter Közeĺıtő
Biostatisztika Összefoglalás
Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni
Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 10. előadás Előadó: Dr. Ertsey Imre Varianciaanalízis A különböző tényezők okozta szórás illetőleg szórásnégyzet összetevőire bontásán alapszik Segítségével egyszerre több mintát hasonlíthatunk