JÓÍZŰ MAZSOLÁZÁS A KORPUSZBÓL Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program XVII. MANYE kongresszus Siófok, 2007. április 19 21.
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
ALAPÍTÓ ATYÁK John Rupert Firth You shall know a word by the company it keeps. John McHardy Sinclair (1933 2007) Language cannot be invented; it can only be captured.
Corpus-based ÉS corpus-driven 1 (introspektív nyelvészet) 2 corpus-based módszer A korpusz segédeszköz, ami empirikus adataival támogatja az intuíciót, mérhetővé teszi a nyelvi jelenségeket, meglévő elméleteket bizonyít/cáfol. 3 corpus-driven módszer A korpusz maga szolgáltatja az elméletet, a nyelvész minden előzetes feltevés és elvárás nélkül fordul az adatokhoz. Minden következtetést kizárólag korpuszmegfigyelésekből von le. egyfajta corpus-driven szótárírási módszert fogok bemutatni serendipity principle: jelentős dolog véletlen felfedezése, tipikusan mikor valami egész másra figyelünk
KORPUSZOK A LEXIKOGRÁFIA SZOLGÁLATÁBAN COBUILD: a korpuszok nagy segítséget nyújtanak a lexikográfiai munkához valós nyelvhasználat objektív, idiolektustól független munka új jelentés, használat felfedezése teljesebb szótár nagy méretű korpuszok szükséges a leszűrhető tények összegzése első: Word Sketch Macmillan English Dictionary (2002) ehhez hasonló új eszközről lesz most szó, mellyel a magyar igék bővítményszerkezetét lehet kvantitatívan tanulmányozni
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
BŐVÍTMÉNYSZERKEZET ÉS JELENTÉS B. Levin (1993): Hasonló jelentés hasonló bővítményszerkezettel jár. Az igék és bővítményeik alkotta jellemző kollokációk vizsgálatával az igék különféle jelentéseihez jutunk közelebb. Lehetőség nyílik: adott szó jelentéseit elkülöníteni ( igazat ad tippet ad hangot ad ) hasonló szavak jelentéskülönbségét meghatározni ( emelkedik nő )
A MAGYAR MONDAT MODELLJE PÉLDA bővítményszerkezet: milyen bővítményekkel szokott előfordulni az ige bővítménykeret modell: szabad szórend az egyszerű mondat (az egy igei keretet tartalmazó egység) egy ige és valahány főnévi csoport halmaza ige + NP(szótő + eset) lista pozíció: morfoszintaktikai pozíció összetett igék: önálló igék, önálló bővítményszerkezettel, önálló jelentéssel vesz vesz részt vesz górcső alá
FELDOLGOZÁSI LÉPÉSEK PÉLDA forrás: Magyar Nemzeti Szövegtár tagmondatra bontás részleges szintaktikai elemzés funkcionális szerkezet a mondat modellje opcionalizálás: minden bővítmény opcionális statisztika a lexikográfia szempontjából lényeges igei kereteket keressük vág hajat, fésül hajat, ad választ -re, ad hangot meggyőződésének/véleményének
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
LÉNYEGESSÉG A lényeges keretek/kollokációk megragadására van jó eszközünk: az ún. salience mérték (Kilgarriff 2001) Adott pozíción álló bővítménynek a keret többi részéhez viszonyított salience-ét tudjuk kiszámolni. Ez az érték akkor sok, ha a bővítmény és a keret a vártnál gyakrabban fordul elő együtt, és a bővítmény gyakori. Mit tudunk vizsgálni? Adott ige melletti adott pozícióban mely szavak fordulnak elő legjellemzőbben.... beleértve az összetett igéket is.
LÉNYEGESSÉG PÉLDA ad -t tárgyi pozíciója salience szerint csökkenően: hang, lehetőség, válasz, otthon, tájékoztatás tényleg gyakori, lényeges szavak
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
A FELÜLET HASZNÁLATA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)
A FELÜLET HASZNÁLATA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)
A FELÜLET HASZNÁLATA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)
A FELÜLET HASZNÁLATA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)
A FELÜLET HASZNÁLATA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)
A FELÜLET HASZNÁLATA http://corpus.nytud.hu/mazsola Közzétett korpuszok: 3-10 szavas mondatok (8mió szó) Magyar Nemzet (12mió szó) Index fórum (18mió szó)
PÉLDA: STÍLUSRÉTEGEK ÖSSZEHASONLÍTÁSA PÉLDA ad -t keret a Magyar Nemzetben és az Index fórumban közös elemek
PÉLDA: STÍLUSRÉTEGEK ÖSSZEHASONLÍTÁSA PÉLDA ad -t keret a Magyar Nemzetben és az Index fórumban eltérések
PÉLDA: ÖSSZETETT IGÉK hány -t hány -ra kerül alá rejt alá hoz alá helyez alá vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra kerül alá rejt alá hoz alá helyez alá vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra szem kerül alá rejt alá hoz alá helyez alá vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra szem kerül alá víz, kalapács, fennhatóság rejt alá hoz alá helyez alá vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra szem kerül alá víz, kalapács, fennhatóság rejt alá véka hoz alá helyez alá vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra szem kerül alá víz, kalapács, fennhatóság rejt alá véka hoz alá tető helyez alá vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra szem kerül alá víz, kalapács, fennhatóság rejt alá véka hoz alá tető helyez alá vád vesz alá
PÉLDA: ÖSSZETETT IGÉK hány -t fitty hány -ra szem kerül alá víz, kalapács, fennhatóság rejt alá véka hoz alá tető helyez alá vád vesz alá górcső, kalap, tűz
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
HOL HASZNÁLJUK? készülő magyar-angol gépi fordítóprogram vonzatkereteinek fix lemmákkal való lekötésekor magyar WordNet kialakításakor terv: német-magyar valenciaszótár munkálatainak támogatására igék szemantikai osztályozása szinonímaszótár
IGÉK SZEMANTIKAI OSZTÁLYOZÁSA nő alany: szám arány ár -ban: mérték év -ra: forint százalék dupla -val: százalék forint emelkedik alany: szám ár árfolyam -ban: mérték év -ra: forint jogerő százalék -val: százalék forint növekedik alany: szám arány érdeklődés -ban: mérték év -ra: év -val: százalék forint drágul alany: részvény TVK kenyér -ban: mérték forgalom -ra: forint -val: százalék forint nyújt, megad, kínál reagál, válaszol, felel
1 KORPUSZNYELVÉSZET ÉS LEXIKOGRÁFIA 2 MODELL 3 LÉNYEGESSÉG 4 MAZSOLA 5 ALKALMAZÁSOK 6 ÍRJUNK SZÓCIKKET!
MINIMUM 150 ELŐFORDULÁS Sinclair (1993): legalább 150 példa kell ahhoz, hogy megbízhatóan számolhassunk be egy szó jelentéseiről illusztrációképpen két ilyen ige: forog 255 találat fest 319 találat a Magyar Nemzet korpuszból nem dolgozunk ki teljes szócikket: induktív megállapításokat teszünk az eszköz segítségével, amik aztán egy szócikkbe épülhetnének be a tapasztalatokat helyenként összevetem az ÉKSz szócikkeivel Elv: az 5-nél kevesebbszer előforduló jelenségeket általában nem vesszük figyelembe statisztikai megállapítások megtételekor
MÓDSZER 1 jellemző mondatokat keresünk 2 feldolgozzuk őket 3 a feldolgozott mondatokat elhagyva, a maradékon folytatjuk a munkát
PÉLDA: forog (1/2) Első mondat: forog veszély-ban nézzük a -ban -t: veszély és sír ( kör, érték... ) Mi forog veszélyben: élet ( biztonság, diadal, konszenzus... ) mindenféle pozitív dolgok Valóban: betegség, veszteség nem szokott ez ennek az összetett igének a jelentéséhez tartozik! ÉKSz. kifejezései: szóban, szőnyegen, veszélyben Gyakoriság szerint ez adódik: veszélyben, sírjában 41 találatot (16%-ot) így feldolgoztunk
PÉLDA: forog (2/2) forog -n kockán Mi? Azt látjuk, hogy nincs jellegzetes alany. papír, részvény is lehet alany forog alatt/felett csak ilyen (ÉKSz-ben nincs!) forog között van egy élő alanyú másik jelentés Általában mi a jellegzetes alany? papír, részvény, élet, lét, világ forog világ körül forog világ -val forog papír/részvény -n forinton, áron tőzsdén 154 találatot (60%-ot) így feldolgoztunk
PÉLDA: fest (1/2) tárgyas ige: fest -t egyértelműen legjellegzetesebb tárgy: kép a tárgyak 42%-a kép az összes fest előfordulás 25%-a: fest képet! jellegzetes alanya nincs fest kép-t -ról helyzet, állapot Mindig tárgyas? fest NEM-t alany nem (22%), és jellemzőnek látszik az úgy szó jelenléte
PÉLDA: fest (2/2) Ha nem kötjük meg a tárgy hiányát, ugyanannyi találatot kapunk! a fest úgy keret szigorúan tárgyatlan (= ÉKSz.) fest -vel nincs jellegzetes fest -ra fal fest kép-t -ról (17%) főleg átvitt értelem fest kép-t NEM-ról (8%) főleg konkrét értelem
JAVASLAT gyakoriság fontos szerepe: bővítmény kötelezősége ritkasága mely jelentéseket vegyük fel a szótárba milyen sorrendben szerepeltessük a jelentéseket gyakoriság alapjelentés vö: vesz részt önmagában a vesz 20%-át adja összetett igék: önálló igék, önálló vonzatkerettel önálló lexémák?
BIBLIOGRÁFIA Firth, J.R. 1957. A synopsis of linguistic theory 1930-55. Studies in linguistic analysis 1 32 Kilgarriff, A., Tugwell D. 2001. Word Sketch: Extraction and display of significant collocations for lexicography. In: Proceedings of the 39th Meeting of the Association for Computational Linguistics, Workshop on Collocation: Computational Extraction, Analysis and Exploitation, Toulouse 32 38 Levin, B. 1993. English Verb Classes and Alternations. The University of Chicago Press Sass B. 2007. Mazsola eszköz a magyar igék bővítményszerkezetének vizsgálatára. In: I. Alkalmazott Nyelvészeti Doktorandusz Konferencia kötete (megjelenés alatt) http://www.nytud.hu/oszt/korpusz/resources/sb_mazsola_eszkoz.doc
HOZZÁFÉRÉS http://corpus.nytud.hu/mazsola Tessék kipróbálni! felhasználói név: manye jelszó: xvii Személyes jelszó igénylése: joker@nytud.hu
HOZZÁFÉRÉS http://corpus.nytud.hu/mazsola Tessék kipróbálni! felhasználói név: manye jelszó: xvii Személyes jelszó igénylése: joker@nytud.hu Köszönöm a figyelmet!