Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Hasonló dokumentumok
A kibővített Magyar történeti szövegtár új keresőfelülete

Korpuszkeresés, NoSkE, Mtsz, MNSZ2, NKP

Keresés korpuszban október 19., SZTE JGYPK Sass Bálint MTA Nyelvtudományi Intézet

Korpuszlekérdezők evolúciója

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

KERESÉS KORPUSZBAN: A KIBŐVÍTETT MAGYAR TÖRTÉNETI SZÖVEGTÁR ÚJ KERESŐFELÜLETE

A MAGYAR BRAILLE-RÖVIDÍRÁS MEGÚJÍTÁSA

Az új magyar Braille-rövidírás kialakítása

A Mazsola KORPUSZLEKÉRDEZŐ

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Igekötős szerkezetek a magyarban

Magyar nyelvű történeti korpuszok

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

NYELVÉSZETI SZÖVEGKERESŐK, NEMZETI KORPUSZPORTÁL

PÁRHUZAMOS IGEI SZERKEZETEK

A HUNGLISH PÁRHUZAMOS KORPUSZ

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

SZÖVEGES LEJEGYZÉSBŐL NYELVI ADATBÁZIS

Az URaLUID adatbázis bemutatása

Az Ómagyar Korpusz bemutatása

Ó Ó É ü É ü ü

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Ö Ó Ó Ó

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Ö Ö É Ő Ú É

Ö


Ü ű Ü É ű ű É Ü Ü

ű ű ű Ö ű ű ű Ú ű ű ű Ö ű ű ű ű ű ű ű

Ó ű ű ű ű ű ű É É É

Ú Ú Ü Ü ű ű ű É Ú É ű

Ó Ó ú ú ú ú ú É ú

Ü Ü Ó Ü Ó

Ó ú É ú É É É Ő ú ú ű Ó Ö É É ú Ü ú É ú

É ö

ű ő ű ű ű ö ő ú ö ő ő ő ő ő ő ő ű ő ő ő ő ü ü ő ü ü ő ú ü ő ő ü ü ü ő ú ü

Ó ú É Ú

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Beszéd- és nyelvelemző szoftverek a versenyképességért és az esélyegyenlőségért

A Hunglish Korpusz és szótár

A magyar nyelv oktatása(1) a csatlakozás(2) után

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Webdesign II Oldaltervezés 3. Tipográfiai alapismeretek

Az XCZ állományban szereplő állományok nevének UTF-8 kódolásúnak kell lennie. Probléma esetén használjon ékezet nélküli állományneveket.

A zsidóság nyelvei. Biró Tamás március 10.

é ü ó ö é Ö é ü é é ó ö é ü ü é é ó ó ó é Á é é ü ó é ó ó é ö ö ö é é ü é ü é é ö ü ü é ó é é é é é é ö é é é é é é ö é ó ö ü é é é ü é é ó é ü ó ö é

Ó Ó ó ö ó

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK


É É Ö ű Ú Ú É ű

ó Ó ú ó ó ó Á ó ó ó Á ó ó ó ó Á ó ú ó ó ó

Á ű ó ó

Hol hallod a sz hangot?

Ó é é Ó Ó ő ű Ó Ö ü Ó é Ó ő Ó Á Ö é Ö Ó Ó é Ó Ó Ó Ó ú Ó Ó Ó Ó ű Ö Ó Ó Ó é Ó Ó ö Ö Ó Ö Ö Ó Ó Ó é ö Ö é é Ü Ó Ö Ó é Ó é ö Ó Ú Ó ő Ö Ó é é Ö ú Ó Ö ö ű ő

Lexikon és nyelvtechnológia Földesi András /

ó ő ő ó ő ö ő ő ó ó ó ö ő ó ó ó ö ő ó ő ő ö Ö ő ö ó ő ö ő ő ú ö ö ü ö ó ö ö ö ő ö ö Ö ú ü ó ü ő ő ő ő ó ő ü ó ü ö ő ö ó ő ö ő ö ü ö ü ő ö ö ó ö ő ő ö

ű ű ű Ú Ú Á ű Ö ű ű Ú Ő É

ű Ö ű Ú ű ű ű Á ű

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Á Ó ű ű Á É ű ű ű ű Ú Ú

Á Á ő ő Ö ő ő ö É ö ő ö ő ő ö ő ő ö ő ő ü ö

Ú ű É ű ű Ü Ü ű ű Ú É ű ű Ü ű ű ű ű ű ű ű Ú ű ű

Á Ö Ö Ö Ö ú ú Ö Ö Ó Ó ú ú Ü ú Ó Ö Ö Ü Ó Ö Ö Á Ó ú ú ú ű Ö Ö Ö Ö Á Ó Ö Ó ú ú Ö

ű Ú ű ű É Ú ű ű

ő ű É Ó Ü É É É É Ü Ö É É É ű É Ö É Ü É Ú Ó ő Ó

Ó Ó ö ú ö ö ö ö ü ú ú ö ö ö ú ú ö ö ö ú ú ú ű ö ö ú ö ü ö ö ö ö ü ú Á ö ü Á ö ö ö ö ö ö

ö ö Á Á Ó Á ö ö ö ö ö ú ű ö ö Á Á ű ű ö ö ö ö ű

Á Ü É Ü Ú Ü É

ü ü Ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü ü É ü ü

ő ü ó í í í ő ó Ó í

Dokumentumformátumok Jelölő nyelvek XML XML. Sass Bálint Bevezetés a nyelvtechnológiába 2. gyakorlat szeptember 20.

ú Ó ú ú ú ú ú ú ú É Á

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

ú ö ö ö ö ö ö Á ö ö ö á á á ű Ü ű ö ö Á á Á

ö ö É ő ó ó ő ü ó ó Ü É É ö ö ó ű ü ó ó ö ű Í ö ó ö Í ő ü ü ö ö ő ö ó ö ó ó É ó ő ö ö ó Ö ü ő Í ű ó ő ü ő Ó Ö ű Í ó Ó ő ő ö ő ő ő ö

w w w. h a n s a g i i s k. h u

ü É ü Ö ü ü ü Ü ü ü Í

í í í í í

Á ó ó ó Ü Ü ó ó Ü ó ó ú ú ó ó Ü ó ó ó Ü ó ó

É Á Á Ö Á

KORPUSZNYELVÉSZETI ESZKÖZ A MAGYAR IGÉK B VÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA

ű ő ő ő

É É Ö

ö ü í ú í ö ö í ú ü í ü ö í ú ö ü í ö ü ö ö ö Í ö ö

É É Í É É ö Í í í í ű ü ö í í Í

É ó Í É

Project1:Layout :34 Page 1 Magyar Ifjúság 2020

5. Automatikus korpuszépítés és a benne való keresés

ü ö í ü ö í ü ö ű í í í ö Ü í ü ü ö í í ü ö í ű í ö í í ú ö ö í í ü ű ö ü í í ü í ü í í ö ü í ö ö ü í ö ű ö í í ö ú ö í ö í ű ö ö ö í í í í ö ö

ü ú ú ü ú ú ú ú

ű ú ú ö ö ö É ö ú ú ú ö ű Ó ű Ö Ö ú

ú ü ú ü ú

ö ő ü ö ő ő ü ü ő ő ő ü ö ü ü ő ú ő ő ő ü ő ő ő ő ő ú ő ő ü ő ő ő ü ö ü ú ő ő ő ő ü ü ő ő ú

ö ű ü ü ö ü ö ö ü ö ö Í Ö ö ü ö Í ű ö ű ü ü ö ú ö ű ü ü ö ö ö ü ű ü ö ü ű ű ú ö ö ö ű ü ú ú

ű ű ű ű ű ű Ú Ú ű ű ű Ö ű ű ű ű ű ű

í ö ó í ö í Í ó ú ó ö ű ó ű ö í ó ó ó ó ó Í ú í ó í í ó Í ö ö ú í ú ó ö Í ó ó Í í ó ó ö ö ö ö ö í ö ó ű í ó ó ö ú ó ó ö ö ó í ö ö ó ó ö ö í ö ó í ű ö


Átírás:

Korpusznyelvészet 2016 április 18, ELTE Sass Bálint MTA Nyelvtudományi Intézet sassbalint@nytudmtahu 1/29

http://nsztnytudhu/nszthtml 2/29

Mi mindent kell csinálni ahhoz, hogy sima szövegből ilyen korpuszlekérdezőfelület legyen? Ezt fogjuk most megnézni lépésről lépésre Példa: / Ám de viſzont hallá, hogy majd a Trójai vérb öl / 3/29

1 Az Mtsz építése 4/29

Karakterkódolás 1 karakter = 1 byte kitûnõ és idõszerû 1 karakter > 1 byte: Unicode helytakarékos kódolás: UTF-8 HÃ c tfå n talã lkozunk Megvan az egységes UTF-8 kódolású szövegünk é ő ſ ö 5/29

XML Kenjük a vajat a késsel a kenyérre 6/29

XML tagek <recept> Kenjük a <hozzavalo>vajat</hozzavalo> a <eszkoz>késsel</eszkoz> a <hozzavalo>kenyérre</hozzavalo> </recept> 7/29

XML attribútumok <recept nev="vajas kenyér"> Kenjük a <hozzavalo id="41">vajat</hozzavalo> a <eszkoz id="5">késsel</eszkoz> a <hozzavalo id="12">kenyérre</hozzavalo> </recept> 8/29

Mtsz XML <section> <head> <id>7021030</id> <author>baróti Szabó Dávid</author> <wdate>1808</wdate> egyéb adatok </head> <text> <page> <p>18</p> <par> Ám de viſzont hallá, hogy majd a Trójai vérb öl<br/> Nemzet ered, melly e várat valahára le-dönti;<br/> további sorok </par> további bekezdések </page> további oldalak </text> </section> 9/29

TEI The Text Encoding Initiative (TEI) is a consortium which collectively develops and maintains a standard for the representation of texts in digital form Korpuszkezelő NoSketchEngine (NoSkE) https://nlpfimunicz/trac/noske 10/29

NoSkE XML <doc mtsz_id="7021030" author="baróti Szabó Dávid" wdate="1808" > <oldal oldalszam="18"> <par> Ám de viſzont hallá, hogy majd a Trójai vérb öl<br/> Nemzet ered, melly e várat valahára le-dönti;<br/> további sorok </par> további bekezdések </oldal> további oldalak </doc> 11/29

NoSkE XML XSLT Mtsz XML <doc mtsz_id="7021030" author="baróti Szabó Dávid" wdate="1808" > <oldal oldalszam="18"> <par> Ám de viſzont hallá, hogy majd a Trójai vérb öl<br/> Nemzet ered, melly e várat valahára le-dönti;<br/> további sorok </par> további bekezdések </oldal> további oldalak </doc> 12/29

Találatok időrendben Hogy lehet a találatok idő szerinti rendezését megvalósítani? 1 Lekérdezés után az eredményt mindig rendezzük 2 Előre rendezzük és azt kérdezzük le Megoldás (erre is): XSLT 13/29

Tokenizálás <doc mtsz_id="7021030" author="baróti Szabó Dávid" wdate="1808" > <oldal oldalszam="18"> <par> Ám de viſzont hallá <g/>, hogy <br/> további tokenek </par> további bekezdések </oldal> további oldalak </doc> 14/29

XML+TAB formátum <doc mtsz_id="7021030" author="baróti Szabó Dávid" wdate="1808" > <oldal oldalszam="18"> <par> Ám ám KOT de de KOT viſzont viſzont KOT hallá hall VIpfS3Def <g/>,, WPUNCT hogy hogy KOT <br/> további tokenek </par> további bekezdések </oldal> további oldalak </doc> 15/29

2 Az Mtsz használata 16/29

Reguláris kifejezések Bizonyos tulajdonságú karaktersorozatok megadására tetszőleges karakter * a megelőző karakterből 0 vagy több + a megelőző karakterből 1 vagy több? a megelőző karakterből 0 vagy 1 [ab] a vagy b karakter [ˆab] nem a és nem is b karakter r s r vagy s reguláris kifejezés () egybefoglalás Példák: 1 alma 5 * 2 tejfl 6 *bb 3 mentők? 7 alma almá* 4 nélk[üű ü]l 8 mondjá(to)?k 17/29

CQL (Corpus Query Language) [] egy tokenre vonatkozó megkötések x="y" x attrib értéke legyen y Mtsz: csak word attrib van x!="y" x attrib értéke ne legyen y & és kapcsolat megkötések között Példák: 1 [] [] 2 [word="majd"] 3 "majd" 4 [word!="a*"] 5 []? 6 [word="nem"] [word="kellett"] [word="volna"]? [word="*ni"] 18/29

Mtsz példalekérdezés Feladat Keressünk ilyet: tárgyesetű szó + múltidejű E/3 ige! 19/29

Mtsz példalekérdezés Feladat Keressünk ilyet: tárgyesetű szó + múltidejű E/3 ige! "*t" "*tt" 20/29

Mtsz példalekérdezés Feladat Keressünk ilyet: tárgyesetű szó + múltidejű E/3 ige! "*t" "*tt" [word="*t"] [word="*tt" & word!="alatt" & word!="azelőtt"] 21/29

Diakrón vizsgálat: nélkül helyesírása 22/29

3 Korpuszok 23/29

Korpuszok MNSZ2 elemzett, nagy méretű * körülültük, felszedegettük, elsimítottuk, végigcsináltuk * forrásokban, fellegekben, falvakban, fejekben (bazi lassú) * cél, csal, csaj, csel, dzsal Mazsola igék és bővítmények reprezentáció: A lány vállat vont ige=von alany=lány tárgy=váll BUSZI beszélt de írott bizonyos dógokban mmm tát, hogy ööö lustább annál, mint amilyennek elképzeltem, Ómagyar korpusz normalizálás, ómagyar morfológia NKP (Nemzeti Korpuszportál) http://corpusnytudhu/nkp 24/29

4 Korpuszvezérelt kutatás 25/29

Korpuszalapú és korpuszvezérelt A korpusz segédeszköz, ami empirikus adataival támogatja az intuíciót, mérhetővé teszi a nyelvi jelenségeket, meglévő elméleteket bizonyít/cáfol A korpusz maga szolgáltatja az «elméletet», a nyelvész minden feltevés és elvárás nélkül fordul az adatokhoz Minden következtetést kizárólag korpuszmegfigyelésekből von le serendipity principle: lényeges jelenség véletlen felfedezése pl: Tognini-Bonelli: Corpus Linguistics at Work (2001) 26/29

Braille-rövidírás bővítése ban/ben b ( ) hog h ( ) Alapötlet: a maximális rövidítési képességgel bíró ideális rövidírás a magyar nyelv korpuszgyakorisági adatai alapján korpuszvezérelt módon, automatikusan kialakítható Elv: a lehető leggyakoribb betűkapcsolatokat kell a lehető legrövidebbre rövidíteni Eredmény: 33 új szabály meg mg ( ) magar mg ( Tanulság: A korpuszvezérelt módon létrehozott rendszer még úgy is kétszeres teljesítményre képes az intuíció illetve hagyomány talaján álló rendszerrel szemben, hogy már eleve jelentősen rövidített szövegen kell dolgoznia Ha valamit meglévő (korpuszgyakorisági) adatokból automatikusan származtatni tudunk, akkor nem érdemes intuitív megközelítést alkalmazni ) 27/29

Igei szerkezetek felfedezése vet [15728] vet -nak VÉG-t [1463] vessen véget az erőszaknak vet SZEM-A-rA -t [805] hasonló diszkriminációkat vetnek az albán hatóságok szemére vet -ra PILLANTÁS-t [708] vess egy pillantást a térképre vet -t [703] vetem a magot vet -ra -t [380] a humanista könyveket máglyára vetették vet PAPÍR-rA -t [377] vesse papírra az új problémákat vet SZÁM-t -val [297] ez rossz fényt vet az edzők nevelő munkájára vet -ra FÉNY-t [267] vessünk számot eddigi politikánkkal vet -ba -t [252] a tó vizébe vetette magát csóvál [1078] csóvál FEJ-A-t [754] csóválta a fejét 28/29

Korpusznyelvészet 2016 április 18, ELTE Sass Bálint MTA Nyelvtudományi Intézet sassbalint@nytudmtahu 29/29