Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Hasonló dokumentumok
Doménspecifikus korpusz építése és validálása

Eötvös Loránd Tudományegyetem Bölcsészettudományi Kar. Doktori Disszertáció Tézisei. Recski Gábor. Számítógépes módszerek a szemantikában

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kettőnél több csoport vizsgálata. Makara B. Gábor

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

y ij = µ + α i + e ij

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

[Biomatematika 2] Orvosi biometria

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Lövedékálló védőmellény megfelelőségének elemzése lenyomatmélységek (traumahatás) alapján

A HŐMÉRSÉKLET ÉS A CSAPADÉK HATÁSA A BÜKK NÖVEKEDÉSÉRE

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

K oz ep ert ek es variancia azonoss ag anak pr ob ai: t-pr oba, F -pr oba m arcius 21.

Mangalica specifikus DNS alapú módszer kifejlesztés és validálása a MANGFOOD projekt keretében

Kiváltott agyi jelek informatikai feldolgozása Statisztika - Gyakorlat Kiss Gábor IB.157.

Bevezetés a hipotézisvizsgálatokba

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

Normális eloszlás tesztje

Függetlenségvizsgálat, Illeszkedésvizsgálat

Hipotézis vizsgálatok

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

6. Előadás. Vereb György, DE OEC BSI, október 12.

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Az értékelés során következtetést fogalmazhatunk meg a

Varianciaanalízis 4/24/12

Kettőnél több csoport vizsgálata. Makara B. Gábor MTA Kísérleti Orvostudományi Kutatóintézet

Többváltozós lineáris regressziós modell feltételeinek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Kísérlettervezés alapfogalmak

Populációbecslések és monitoring

Géprajz - gépelemek. Előadó: Németh Szabolcs mérnöktanár. Belső használatú jegyzet 2

Érzékeink csábításában

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Populációbecslések és monitoring

LINEÁRIS REGRESSZIÓ (I. MODELL) ÉS KORRELÁCIÓ FELADATOK

NYELVISMERET, NYELVTANULÁSI

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Igekötős szerkezetek a magyarban

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Kísérlettervezés a kémia tanításában a természettudományos gondolkodás fejlesztéséért

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Kísérlettervezés alapfogalmak

JULIUS-K9 IDC Powerhám mozgástanulmány

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

JOURNAL CITATION REPORTS Tóth Szász Enikő Customer Education Specialist

YANG ZIJIAN GYŐZŐ 杨子剑

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Több valószínűségi változó együttes eloszlása, korreláció

Kovács Ernő 1, Füvesi Viktor 2

Abban a farmerba nem mehetsz színházba. A (bvn) variabilitásának vizsgálata a BUSZI tesz9eladataiban

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Gyakorlat 8 1xANOVA. Dr. Nyéki Lajos 2016

Iskolai jelentés. 10. évfolyam szövegértés

Hosszú távú vizsgálat jobban kimutatja a társulási szabályok változásait a másodlagos szukcesszió során, mint a tér-idő helyettesítés módszere

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018

VIZSGÁLATOK MEGFELELŐSÉGE

Az fmri alapjai Statisztikai analízis II. Dr. Kincses Tamás Szegedi Tudományegyetem Neurológiai Klinika

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok.

BitTorrent felhasználók értékeléseinek következtetése a viselkedésük alapján. Hegedűs István

Biostatisztika VIII. Mátyus László. 19 October

Hanthy László Tel.:

Dr. Nagy Zita Barbara igazgatóhelyettes KÖVET Egyesület a Fenntartható Gazdaságért november 15.

A telefonnal való ellátottság kapcsolata a rádió és televízió műsorszórás használatával a 14 éves és idősebb lakosság körében

1/8. Iskolai jelentés. 10.évfolyam matematika

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

Biostatisztika Összefoglalás

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

ä ä

IV. Változók és csoportok összehasonlítása

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

ÉLETMINŐSÉG ÉS KÖLTSÉGEK A KÖZÉP- ÉS SÚLYOS FOKÚ PSORIASISOS BETEGEK KÖRÉBEN

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

szerepe a gasztrointesztinális

Magyarország, 4031, Debrecen szeptemberétől jelenleg is Ph.D. tanulmányok folytatása

A évi kompetenciamérés eredményeinek értékelése a FITjelentés

H0 hipotézis: μ1 = μ2 = μ3 = μ (a különböző talpú cipők eladási ára megegyezik)

TARTALOMJEGYZÉK. 1. téma Átlagbecslés (Barna Katalin) téma Hipotézisvizsgálatok (Nagy Mónika Zita)... 23

Óvodás és kisiskolás gyermekek interpretált beszédének vizsgálata

Segítség az outputok értelmezéséhez

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Statisztika I. 10. előadás. Előadó: Dr. Ertsey Imre

Horváth Krisztina Pécsi Tudományegyetem Közgazdaságtudományi Kar Regionális Politika és Gazdaságtan Doktori Iskola, III. évfolyam

Kabos: Statisztika II. ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Normális eloszlás paramétereire vonatkozó próbák

[Biomatematika 2] Orvosi biometria

Első egyéni feladat (Minta)

Élelmiszer-hamisítás kimutatásának lehetősége NIR spektroszkópia segítségével

Átírás:

Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 1 / 17

Áttekintés Áttekintés 1 Bevezetés és hipotézisek 2 Filtereket alkalmazó keresőrobot 3 A validálás módszere 4 Eredmények és következtetések Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 2 / 17

Bevezetés Bevezetés és hipotézisek Terminuskivonatoló alkalmazás Doménspecifikus korpusz Ökoinnováció doménhez tartozó szövegek Hasonlóság: ugyanahhoz a doménhez tartozó szövegek Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 3 / 17

Hipotézisek Bevezetés és hipotézisek 1. Hipotézis A letöltött szövegek elérik a 0,50-es hasonlósági értéket. 2. Hipotézis Minél kevesebb szövegszóból áll a szöveg, annál kevesebb lesz a hasonlósági értéke a referenciaszöveghez képest. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 4 / 17

Szövegek letöltése Filtereket alkalmazó keresőrobot Filtereket alkalmazó keresőrobot (Grefenstette Muchemi 2016) Kezdő URL-lista (40 db) Mintákat tartalmazó fájl (kézzel: 48 kifejezés) Minta alapján válogatott szövegek 2.000 fájl, 2.625.164 szövegszó Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 5 / 17

Validálás Részkorpusz összeállítása Validálás módszere 20 db véletlenszerűen kiválasztott szöveg (min. 500 szövegszó). Referenciaszövegek kiválasztása 4 db. Választás minták alapján. Lemmatizálás és stopszavak kiszűrése. Hasonlóság mérése: XLike projekt kereteiben készült összehasonĺıtó program. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 6 / 17

Validálás Hasonlóság mérése JSI Similarity Service Dokumentumindexelés fogalomalapú megközeĺıtéssel. Vektortér-modellezés: vektor reprezentálja a dokumentumokat a vektortérben. Indexelés rejtett szemantikai elemzéssel: a megfigyelt vektorokon kívül rejtett tulajdonságok is léteznek. Cél: kiválasztani a szöveg néhány olyan jellemző attribútumát, amely még alkalmas a dokumentumok közeĺıtő jellemzésére és páronkénti összehasonĺıtására. Előny: a szinonimák kezelése (a dimenzióredukcióval az azonos jelentésű szavak hasonló helyen jelennek meg a térben). Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 7 / 17

Validálás Hasonlóság mérése JSI Similarity Service Hasonlóság számolása a szövegek között: vektorok hasonlóságának mérése. Koszinusz hasonlóság mérése. A hasonlóság mérésekor kapott értékek (-1) 0 és 1 közé esnek. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 8 / 17

Eredmények és következtetések Eredmények Eredmények I. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 9 / 17

Eredmények és következtetések Eredmények Eredmények II. A 20 random kiválasztott szöveg átlag hossza stopszavak nélkül 1428 szövegszó, a szövegek hosszának szórása 1054,49. Referenciaszöveg 1 2 3 4 Átlag hasonlóság 0,524 0,373 0,541 0,297 Szórás 0,198 0,192 0,201 0,14 Table 1: Átlag és szórás referenciaszövegenként. Az értékek nem normál eloszlásúak, ezért non-parametrikus tesztet (az egymintás t-próba nem parametrikus megfelelőjét) használtunk annak megállapítására, hogy a hasonlósági értékek eltérnek-e az előre megállapított 0,50-es küszöbtől. Egyik szöveg esetében sem találtunk szignifikáns eltérést az 0,50-es értéktől (p1szöveg =0,68; p2szöveg=0,36; p3szöveg=0,80; p4szöveg=0,22). Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 10 / 17

Eredmények és következtetések Eredmények Eredmények III. Referenciaszövegek 1 2 1 3 1 4 2 3 2 4 3 4 Hasonlóság 0,585 0,844 0,443 0,772 0,568 0,505 Table 2: Referenciaszövegek hasonlósága egymáshoz mérve. Referenciaszövegek p-értékek szignifinkáns (<0.05*, <0.01**, <0.001***) 1. 2. 0,021 * 1. 3. 0,695 1. 4. <0,001 (0,0006) *** 2. 3. 0,011 * 2. 4. 0,223 3. 4. <0,001 (0,0004) *** Table 3: Szövegek hasonlóságának eltérése referenciaszövegenként. Páros t-próba nem parametrikus formája Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 11 / 17

Eredmények és következtetések Eredmények Eredmények IV. A szövegek szószámának kapcsolata a hasonlóság mértékével (korrelációs anaĺızis). Enyhe tendenciózus (0.05<p>0.1) negatív kapcsolat van közöttük (rpearson=-0.41, p=0.071) egyetlen kiugró szószámmal rendelkező szöveg okozta (rpearson=-0.25, p=0.30). Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 12 / 17

Eredmények és következtetések Következtetések Következtetések I. 1. Hipotézis Az első hipotézis részben teljesült, mivel egyik referenciaszöveghez mért átlag hasonlósági érték sem lett magasabb, mint 0,50. 2. Hipotézis A második hipotézis nem teljesült, mivel a szövegek mérete és az eredmény között bár van kapcsolat, de egy gyenge negatív kapcsolat, amit egy szöveg okozott. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 13 / 17

Eredmények és következtetések Következtetések Következtetések II. 1 A szkript egyszerűen átültethető más nyelvekre, robosztus. 2 Előzetesen nincs szükség a szövegek elemzésére. 3 A minták kiválasztása kulcsfontosságú. 4 Validálásra így is szükség van. 5 A további statisztikai vizsgálatok a minta növelését igénylik. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 14 / 17

Eredmények és következtetések Következtetések További vizsgálatok Kitekintés A korpusz összeálĺıtásánál minták összeálĺıtásánál figyelembe kell venni a ökoinnováció aldoménjeit (pl. megújuló energia, újrahasznosítás). Emberi annotátorok bevonása: a szöveg milyen mértékben tartozik a doménhez, illetve miért. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 15 / 17

Irodalom Rettinger, A. Zhang, L. Rupnik, J. Muhič, A. 2012. Cross-lingual document linking prototype. Deliverable D4.1.1. XLike project. Grefenstette, G. Muchemi, L. 2016. Determining the Characteristic Vocabulary for a Specialized Dictionary using Word2vec and a Directed Crawler. Lexicographic Resources for Human Language Technology GLOBALEX 2016 Workshop Proceedings, 24 May 2016, Portoroz. Nagy Á. 2012. Terminológiakivonatolás francia nyelvű szabadalmi leírásokból szabály alapú és statisztikai módszerek segítségével. PhD-értekezés. Szegedi Tudományegyetem Bölcsészettudományi Kar, Nyelvtudományi Doktori Iskola. Remus, S. Biemann, Ch. 2016. Domain-Specific Corpus Expansion with Focused Webcrawling. Proceedings of the 10th edition of the Lexicographic Resources for Human Language Technology 23-28 May 2016, Portorož (Slovenia). García Cuesta, E. Galán, F. Muhic, A. Trampus, M. Li, Zh. Carreras, X. 2013. Early Prototype. D6.2.1. XLike project. Lu, J. Ruan, D. Zhang, G. 2007. E-Service Intelligence. Methodologies, Technologies and Applications. Springer-Verlag, Berlin Heidelberg. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 16 / 17

Köszönöm szépen a figyelmet! kovacs.reka@nytud.mta.hu Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) 2017. február 3. 17 / 17