A 4lang fogalmi szótár gráfelméleti vizsgálata

Hasonló dokumentumok
Fogalmak fontossága a definíciós gráf vizsgálatával

A rosszindulatú daganatos halálozás változása 1975 és 2001 között Magyarországon

1. tétel - Gráfok alapfogalmai

3. Történeti kertek rekonstrukciója Tatai Angolkert és Alcsúti Habsburg kastély kertje

0,424 0,576. f) P (X 2 = 3) g) P (X 3 = 1) h) P (X 4 = 1 vagy 2 X 2 = 2) i) P (X 7 = 3, X 4 = 1, X 2 = 2 X 0 = 2) j) P (X 7 = 3, X 4 = 1, X 2 = 2)

A matematika nyelvér l bevezetés

8. Születési hely (ország, város) / Place of birth (country, town) 10. Szolgálati igazolvány / Útlevél száma / Military ID Card / Passport No.

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Markov-láncok stacionárius eloszlása


Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Lineáris algebra gyakorlat

discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo

Analitikus térgeometria

Karrier gyermekvállalás előtt és után. Cukrowska-Torzewska Ewa, Lovász Anna, Szabó-Morvai Ágnes Szirák November

A HUNGLISH PÁRHUZAMOS KORPUSZ

Matematika szigorlat javítókulcs, Informatika I máj. 30.

Szeretettel hívjuk, várjuk sporttársainkat az Eger Ünnepe és az Egri Senior Úszó-Klub fennállásának 25-ikévében rendezett versenyünkre

Rekurzív sorozatok oszthatósága

FAMILY STRUCTURES THROUGH THE LIFE CYCLE

KERÜLETI DIÁKHETEK VERSENYKIÍRÁS 2017.

Hortobágyi fehér pecsenyelúd üzemi teljesítményvizsgálatának eredményei

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

THERE IS / ARE SZERKEZET A létezés vagy a létező dolog hangsúlyozására szolgáló nyelvtani szerkezet

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

Programozás alapjai Bevezetés

Hipotézis vizsgálatok

Komplex hálózatok: alapfogalmak, modellek, módszerek

Diszkrét matematika 1. estis képzés

Nem teljesen kitöltött páros összehasonlítás mátrixok sajátérték optimalizálása Newton-módszerrel p. 1/29. Ábele-Nagy Kristóf BCE, ELTE

Társadalmi és gazdasági hálózatok modellezése

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

Év Tájépítésze pályázat Wallner Krisztina. 1. Vízparti sétány kiépítése Balatonfüreden, 3 km hosszon

LOGIKA ÉS ÉRVELÉSTECHNIKA

Szélesség (cm) 60 x 60. Magasság (cm) 60. Mélység (cm) 30. Felső sarok ferde konyhabútor elem. Ajtó típus ÁR kulcsrakész ÁR lapraszerelt

Szélesség (cm) 60 x 60. Magasság (cm) 60. Mélység (cm) 30. Felső sarok L konyhabútor elem. Ajtó típus ÁR kulcsrakész ÁR lapraszerelt

Szemantika, lexikográfia: jelentés-egyértelműsítés, wordnetek. Nyelvészet az informatikában informatika a nyelvészetben november 13.

1. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

VIK A2 Matematika - BOSCH, Hatvan, 3. Gyakorlati anyag. Mátrix rangja

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

Diszkrét matematika 2.C szakirány

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

EN United in diversity EN A8-0206/419. Amendment

A legfontosabb szabály: a HASZNÁLAT jobb, mint az ismételgetés!

Előszó.2. Starter exercises. 3. Exercises for kids.. 9. Our comic...17

Diszkrét matematika I.

Registered Trademark of Hemos Group Austria

Mátrixhatvány-vektor szorzatok hatékony számítása

Elgin Cyclones Swim Team (IL-ECST) 100 Symphony Way, Elgin, IL Meet Entry Report

Feladat: Hogyan tudunk létrehozni egy olyan vector nevű tömb típust, amely egy háromdimenziós térbeli vektort reprezentál?

CSAK RÁNÉZÉSRE EGYSZERŰ

Mélyesetek a 4lang fogalmi szótárban

Órarend szeptember január 16.

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Diszkrét matematika 2. estis képzés

0-49 pont: elégtelen, pont: elégséges, pont: közepes, pont: jó, pont: jeles

2. gyakorlat. A polárkoordináta-rendszer

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Skalárszorzat, norma, szög, távolság. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ 2005.

C++ programozási nyelv

(Ability) (Megj.: ez nem modális segédige, de hasonló jelentést hordozó modális kifejezés)

Eötvös Loránd Tudományegyetem Természettudományi Kar. Maros Alexandra. PerronFrobenius tételkör és alkalmazásai. Matematika BSc szakdolgozat

Regional Expert Meeting Livestock based Geographical Indication chains as an entry point to maintain agro-biodiversity

Relative Clauses Alárendelő mellékmondat

Travel General. General - Essentials. General - Conversation. Asking for help. Asking if a person speaks English

SZEMANTIKA ÉS PRAGMATIKA A TERMINOLÓGIÁBAN

Lexikon és nyelvtechnológia Földesi András /

ENROLLMENT FORM / BEIRATKOZÁSI ADATLAP

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Matematika szigorlat, Mérnök informatikus szak I máj. 12. Név: Nept. kód: Idő: 1. f. 2. f. 3. f. 4. f. 5. f. 6. f. Össz.: Oszt.

Rang, sajátérték. Dr. Takách Géza NyME FMK Informatikai Intézet takach/ február 15

Lineáris egyenletrendszerek

KN-CP50. MANUAL (p. 2) Digital compass. ANLEITUNG (s. 4) Digitaler Kompass. GEBRUIKSAANWIJZING (p. 10) Digitaal kompas

Lineáris algebra Gyakorló feladatok

Report on the main results of the surveillance under article 11 for annex II, IV and V species (Annex B)

Diszkrét matematika 2.C szakirány

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

124 Dust-proof for block. Kocsi porvédelme

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

Mátrixfüggvények. Wettl Ferenc április 28. Wettl Ferenc Mátrixfüggvények április / 22

TARTALOM. Összefoglaló-ellenőrző feladatok... 55

Hasonlósági keresés molekulagráfokon: legnagyobb közös részgráf keresése

MBNK12: Permutációk (el adásvázlat, április 11.) Maróti Miklós

Diszkrét matematika 2. estis képzés

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

Rendszermodellezés: házi feladat bemutatás

PorceLine 2011 katalógus árlista

Relációk. 1. Descartes-szorzat

windshield Cardioid microphone complete with XLR module, clip and windshield Super-cardioid microphone complete with XLR module, clip & windshield

Páros összehasonlítás mátrixokból számolt súlyvektorok Pareto-optimalitása

Új eredmények a nem teljesen kitöltött páros összehasonlítás mátrixok témájában (2. rész)

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

1 F őnevek és melléknevek

10 OLD BOOKS (published before World War Two) AND 10 CONTEMPORARY BOOKS (published after 2000)

y ij = µ + α i + e ij

Relációk. 1. Descartes-szorzat. 2. Relációk

Átírás:

MTA SZTAKI Nyelvtechnológiai Kutatócsoport témavezet Kornai András VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia

Számítógépes szövegértés kérdésmegválaszolás emberi nyelv utasításokat végrehajtó gépek gépi fordítás tudásreprezentáció

Absztrakció (monoszémia) Áttekintés Absztrakció (monoszémia)

Absztrakció (monoszémia) Összehasonlítás: a WordNet stomach tétele

Absztrakció (monoszémia) A 4langben egyértelm sítés lehet leg csak tiszta homonímia esetén state: `állam' és `állapot' szófajmentes szemantika A 4lang stomach tétele: 939 gyomor N stomach venter z1ol1a1dek: organ, animal HAS, tubes, food TO

Absztrakció (monoszémia), folytatás fogalmak közötti kapcsolatokat, analitikus igazságokat rögzít többnyelv, lehet leg nyelvfüggetlen

Absztrakció (monoszémia) Méret 4lang: 2 897 fogalom (magyar WordNet: 42.000 synset) az angol tokenfedés kb. 3848% a WSJ Corpus illetve a British National Corpus alapján számolva

A tételek felépítése, több nyelv

A tételek felépítése, több nyelv 102 átenged V pass concedo przepu±ci : LET[DAT HAS ACC] id magyar POS angol latin lengyel deníció

A tételek felépítése, több nyelv 102 átenged V pass concedo przepu±ci : LET[DAT HAS ACC] id magyar POS angol latin lengyel deníció 40 nyelvre való kiterjesztés folyamatban van

Áttekintés Absztrakció (monoszémia)

egyváltozós predikátumok 1474 lány N girl puella dziewczyna: female, child 112 acél N steel chalybs stal: metal, hard, strong kétváltozós predikátumok 1656 mell N breast mamma pier±: two, organ, breast ON chest, woman HAS breast 1233 kard N sword gladius miecz: weapon, sword HAS blade[<long>,pointed], sword HAS edge mélyesetek 102 átenged V pass concedo przepu±ci : NOM LET[DAT HAS ACC] 2374 tesz V put pono kªa± : NOM CAUSE[ACC AT OBL], NOM MOVE ACC, ACC[object] többargumentumúak visszavezetése kétargumentumúakra (Kornai 2012)

alapértelmezett (default) 1614 medence N pool piscina basen: water IN, <swim> IN, <play> IN 1724 mos V wash lavo myc1: CAUSE[ACC[clean]], INSTRUMENT liquid, INSTRUMENT <soap>, INSTRUMENT rub eseményszerkezet: before[], after[] 715 fagy N freeze gelu mróz: cold CAUSE, before[liquid], after[solid,<ice>] 2616 vezet V guide rego prowadzi : CAUSE[ACC HAS information], information ABOUT place 1026, after[acc AT place 1026 ] tagadás az alapértelmezett l való eltérés 500 e1j N night nox noc: period, FOLLOW sunset, sunrise FOLLOW, dark, lack(sun), <sleep AT> 931 gyerek N child puer/puella dziecko: person, young, lack(responsible), parent MAKE

Áttekintés Absztrakció (monoszémia)

Az alapszókincs a lexikográa régi problémája a körkörösség, valódi létezik a szótáraknál szokásos megoldás: deniáló szókincs (DV) Longman: 82 128 2 960 4lang: 2 960 1 156 uroborosz tulajdonságú szóhalmaz maradnak primitívek maradnak körök hivatkozunk érzékletekre (függ leges) és az enciklopédia elemeire (baseball) kötött morfémák (seventh)

A deníciós gráf

A deníciós gráf csúcsok: fogalmak, 2 897 db irányított élek: `acél' `fém', 7816 db

a szókincs súlyozása a deníciókban való fontosság szerint véletlen séta határeloszlása a véletlen séta határeloszlása egyértelm a gráf er sen összefügg egy u és egy v csúcs er sen összefügg, ha van u v és v u út ekvivalenciareláció, komponensei az er sen összefügg komponensek

A 4lang gráf er sen összefügg komponensei méret db 662 1 {yellow, four, sleep, under, lack, month... } 12 1 {január, február,..., december} 7 1 {hétf, kedd,..., vasárnap} 5 1 {furniture, chair, table, bed, cupboard} 4 3 {queen, royal, monarch, king}, {cereal, our,... }... 3 8 {male, sex, female}, {calm, disturb, upset},... 2 26 {exist, real}, {reason, cause}, {child, parent},... 1 2302 {PART_OF}, {other}, {IS_A}, {number},...

Page Rank, csillapítás Page Rank: az átmenetmátrixot csillapítással (damping) er sen összefügg vé tesszük M d (i, j) = 1 d N + dm(i, j) ahol az M mátrix N N-es d 1 esetén a Page Rank közelíti az eredeti séta határeloszlását

terv: a Longman szótár 82 000 szavának lefordítása a mi formalizmusunkba gépi tanulással http://hlt.sztaki.hu/resources/4lang/ Köszönöm a gyelmet!

A fogalmak Page Rankje hatványeloszlást követ? p(x) x α fennáll? Clauset és tsai 2009 α = 1.9244 x min = 2.4219 10 4 KolmogorovSmirnov-statisztika: 0.5840 > 0.1, nem rossz kellne még: likelihood-arány tesztek likelihood-ratio tests

Deníciók bonyolultsága az átmenetmátrix legnagyobb jobboldali sajátértékéhez tartozó sajátvektor koordinátái 0.22008937659358 mind 0.1483881645837043 read 0.1419981763311443 autumn 0.1343248456669039 brain 0.1340132834187455 feel 0.1296319053350392 understand 0.1256292901034924 remember 0.1210243324308604 summer 0.1199256807742143 sensible 0.1130671228119619 spring 2318