Szófaji beosztás névszói csoportok elemzéséhez

Hasonló dokumentumok
A nyelvtudomány mhelyébl

Lexikon és nyelvtechnológia Földesi András /

Bevezetés a nyelvtudományba Mondattan (szintaxis) Kiegészítés

Bevezetés a nyelvtudományba. 5. Szintaxis

Klasszikus héber nyelv 4.: Szintaxis

OSZTÁLYOZÓVIZSGA KÖVETELMÉNYEI OROSZ NYELV

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Információkereső tezaurusz

A nyelvtani szabályok bemutatási módjai három magyar nyelvkönyvben

MONDATTAN SZEMINÁRIUM A mellérendelő szintagma

Klasszikus héber nyelv 4.: Szintaxis

MagyarOK 1. tanmenetek

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

SZAKMAI JAVASLATOK AZ ÚJ SZÉCHÉNYI TERV KÖZÖS TERVEZÉSÉHEZ SZEPTEMBER 15.

Magyar nyelv és irodalom Fejlesztési terv

Magyar nyelvtan tanmenet 4. osztály

Sémi összehasonlító nyelvészet

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Klasszikus héber nyelv 4.: Szintaxis

1. Mik a szófajok elkülönítésének általánosan elfogadott három szempontja? 2. Töltsd ki a táblázatot az alapszófajok felsorolásával!

MagyarOK 1. tanmenetek

A Mazsola KORPUSZLEKÉRDEZŐ

A főnév élőlények, élettelen és gondolati dolgok neve. Fajtái a köznév és a tulajdonnév. tk

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

TARTALOM. Tartalom. 1. (Bevezető) fejezet A MAGYAR NYELV oldal. A határozott névelő: a gitár, az autó

ДВНЗ «УЖГОРОДСЬКИЙ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ» Приймальна комісія

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

LOGIKA ÉS ÉRVELÉSTECHNIKA

Klasszikus héber nyelv 4.: Szintaxis

Nagy Erika. Nyelvtanból Ötös. A magyar nyelvtan érthetően kicsiknek és nagyoknak.

Klasszikus héber nyelv 4.: Szintaxis

HELYI TANTERV NÉMET NYELV. I. idegen nyelv. 4. évfolyam 6. évfolyam 8. évfolyam 10. évfolyam 12. évfolyam. nem A1 A2 B1 mínusz B1 megadható

Tantárgyi követelmények. Német nyelv. 9. oszt.

ANGOL NYELV, MINT ELSŐ IDEGEN NYELV

ÓRAVÁZLAT Szövegértés szövegalkotás Szakiskola 9. osztály

A nem rendszeres poliszémiajelenségek kognitív háttere

Klasszikus héber nyelv 4.: Szintaxis

Tartalomjegyzék. Tartalomjegyzék

szó Jelentés: 2) A toll szónak több jelentése van. Nézz utána értelmező szótárban! Legalább 4 különböző jelentésével írj egy-egy mondatot!

MagyarOK 1. tanmenetek

Csima Judit október 24.

A szófajok rendszere

NÉMET NYELVBŐL. Magyar Szentek Római Katolikus Óvoda és Általános Iskola 3060 Pásztó, Deák Ferenc utca /

Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

MagyarOK 1. tanmenetek

Igetövek rendszere. igényel-het, igényl-ő, csörög-ni, csörg-ő

Ungarisch. Grammatische Strukturen/lexikalische Einheiten Nével : Határozott, határozatlan

Az első és az egyetlen. Beszélő fordítógép, beszélő szótár, beszélő kifejezés gyűjtemény

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

Nyelvtan, helyesírás 4. évfolyam. Tollal dolgozz! Ügyelj a külalakra! Jó munkát kívánunk!

MAGYAR NYELV Tömbösített tanmenet 7. a osztály

Zárójelentés. Célul tűztük ki a szilárd adalékanyagok (ható és segédanyagok) hatásának vizsgálatát mind a

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

A magyar létige problémái a számítógépes nyelvi elemzésben

Nyelv és gondolkodás

Klasszikus héber nyelv 4.: Szintaxis

Milyen a még jobb Humor?

Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.

Különírás-egybeírás automatikusan

MagyarOK 1. tanmenetek

ÉSZREVÉTELEK A JOGI SEGÍTSÉGNYÚJTÁSRÓL SZÓLÓ SZABÁLYOZÁS JANUÁR 31-ÉN LEZÁRT KONCEPCIÓJÁHOZ

Név:... Iskola:... Összpontszám: 240 pont Elért pontszám:... Helyezés:...

MAGYAR NYELV a 4. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

NN: Német nemzetiségi tagozat Tantárgyak és óraszámok Tantárgy 9. évfolyam. 10. évfolyam. 11. évfolyam Kötelező tantárgyak Magyar nyelv és irodalom 2

A nem tipikus szövegek jelentésreprezentációjának egy kérdéséről

TÁJÉKOZTATÓ A SZÓBELI FELVÉTELIRŐL

Tanmenet a 10. évfolyam számára

MAGYAR NYELV ÉS IRODALOM... 3 TÖRTÉNELEM ÉS ÁLLAMPOLGÁRI ISMERETEK HON- ÉS NÉPISMERET TÁNC ÉS DRÁMA... 43

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

A vonzatosság alternatív felfogása

A fnevek poliszémiája Peth Gergely 1

Klasszikus héber nyelv 4.: Szintaxis

A melléknevek képzése

Kárpáti Tünde Vörösmarty német anyanyelvûeknek írt nyelvtana (Kurzgefasste ungarische Sprachlehre für Deutsche) *

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

É. Kiss Katalin: Mit adhat a magyar nyelv és a magyar nyelvészet az általános nyelvészetnek?

Horváth János verseny anyanyelvi feladatlap 2008.

Megjegyezzük, a vizsgálat májusában zárult le, a közölt adatok tehát arra az idıszakra érvényesek, és azóta változhattak.

Osztatlan tanári mesterképzés TNM 0002 II. Szigorlat / Komplex vizsga II. Magyar nyelvtudomány

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Predikátumkalkulus. 1. Bevezet. 2. Predikátumkalkulus, formalizálás. Predikátumkalkulus alapfogalmai, formalizálás, tagadás, logikailag igaz formulák.

A szövegpragmatikai adekvátságot biztosító eszközök összefonódása egy reklámszövegben

MAGYAR NYELV a 4. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Klasszikus héber nyelv 4.: Szintaxis

Javaslat A TANÁCS RENDELETE. a forgalomba hozatalra szánt euróérmék címleteiről és műszaki előírásairól. (átdolgozás)

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

MAGYAR NYELV a 4. évfolyamosok számára. MNy1 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

A siker kulcsa az F1-ben: Az aerodinamika szerepe 2013-ban

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

MAGYAR NYELV ÉS IRODALOM

DOLGOZAT/FELADATLAP SZERKESZTÉS KÖNNYEN

A VIZSGA LEÍRÁSA KÖZÉPSZINT VIZSGA. Írásbeli vizsga

Bevezetés a nyelvtudományba

Az értelmezs szerkezetek helye a szintagmák között

Az informatika logikai alapjai

Átírás:

Szófaji beosztás névszói csoportok elemzéséhez Naszódi Mátyás: MorphoLogic, 1126 Budapest, Mártonhegyi út 5. naszodim@morphologic.hu Absztrakt: A klasszikus nyelvosztályozás fnév, melléknév, számnév stb. nem elégséges a gépi elemzéshez. a névszók pontosabb kategorizálása lehetséget ad többértelmségek számának csökkentésére, és pontosabb mondatelemzésre. Jelen cikk egy finomabb, de szemantikát nem használó felosztást javasol. A felosztás szerepet játszik a szóalaktanban és a mondattanban egyaránt. Segítségével pontosítható a névszói szerkezetek határa és definiáltsága, mely hasznosnak bizonyult a korábbi projektekben, de használata várhatóan a fordítási projektben elengedhetetlenné válik. 1. Szófaji osztályozás A szófaji osztályozás, mint kategorizálás két célt szolgál. Egyrészt a szótani szabályok megadásánál játszik szerepet, másrészt a mondattani szabályok ezekre, mint alapelemekre épülnek. A szófaji osztályok nyelvenként eltérnek. Ennek ellenére nyelvészeink, mint más népek nyelvészei is igyekeznek hasonló osztályokat, kategóriákat létrehozni, hagyomány szerint a latin grammatikát alapul véve. Ez hasznos, ha össze akarunk vetni különböz nyelveket, vagy nyelvtanulóknak ad jó támpontot. A gépi feldolgozás szempontjából is hasznos. Sajnálatosan vagy szerencsére a nyelvek különbözek. Egyesek szerint angol nyelvben kisebb a különbség az ige és a névszó között. A szó aktuális szófaját nem a szó, mint inkább a szó mondatbeli helye határozza meg. A file szó éppúgy lehet ige, mint köznév. Jelentése ugyan az, csak a szerepe egyik esetben igei, a másikban fnévi. Persze lehet találni tisztán igei, és teljesen köznévi szavakat is, de nem ez a jellemz. Magyarban az igék és a névszók jobban elkülönülnek, de a névszók kategóriája szótani szempontból kevésbé különböznek. Különbségek vannak, de ezek elssorban nem ragozási, szóalaktani, hanem mondattani különbségek. A szokásos névszói kategóriák a következk: fnév, melléknév, számnév, és névmás. [EL], [PF] Ez utóbbi szerencsétlen osztály, mert a szintakszis szempontjából sokkal fontosabb, hogy a névmás fnévi, melléknévi, netán számnévi-e, mint az, hogy névmás. A fnév alosztályai a szokás szerint köznév és tulajdonnév, míg a számnevek három alosztálya t-, sor- és törtszámnév. A mellékneveket nem szokták tovább osztani, legfeljebb megemlítik, hogy alap, közép vagy felsfokú-e a szó.

2. A névszói szerkezetrl Az általánosan elfogadott kategóriák a szótani vizsgálatoknál használhatóak, de elégtelen a mondattanihoz. Én most elssorban a névszói szerkezetek szempontjából vizsgálom a szófajokat. Névszói szerkezetnek esetünkben a magyar nyelvre vonatkozóan nevezem azokat a nem igei szerkezeteket, melyeket kötött sorrenddel kell írni a magyarban. Ezek azok a szerkezetek, melyek részei az utolsót kivéve különböz alanyeset névszóból, illetve alanyeset jelzi szerkezetekbl állnak, esetleg névelvel, kvantorral kezdve. (a melléknév jelentésének egy kiterjesztése a jelzi szerkezet több szóból álló szintagmákra). Pl.: mindhárom sárga csr pelyhes kiskacsával Az ilyen szerkezetekben a szórend kötött. A hagyományos szófaji beosztás alapján a szó végén egy köznév áll, ezt különböz jelz(s szerkezete)k elzik meg. Ezek eltt lehet egy mennyiségjelz, egy birtokos jelz, és legelöl a nével és/vagy kvantor. Minden része opcionális, tehát nem kötelez, de (a néveln kívül) legalább egy elemet kell tartalmaznia. mindhárom pelyhes kiskacsával mindhárom sárga csr pelyhessel mindhárom sárga csrvel mindhárommal A sárga csr egy jelzi szerkezet az adott esetben. Kérdés, lehet-e a fenti kifejezésnek vele egyenérték sorrendezése. Mi az, ami szintaktikus szabályokkal biztosítja a fenti sorrendet? Talán egyetlen más sorrend fogadható el, de azt sem érzem teljesen azonosnak: mindhárom pelyhes sárga csr kiskacsával Másik példámban jobban látszik a kötöttség. Kovács Katalin sikeres magyar sportolón tulajdonnév melléknév melléknév köznév tulajdonnév melléknév köznév köznév A hagyományos szófaji felosztás szerint a két melléknév közt nincs különbség szófaji felosztás szerint, ezért semmi sem indokolja, hogy ne cserélhetnénk fel. Amennyiben a szót fnévnek tekintjük, akkor viszont az utolsó két szó sorrendjét lehetne megváltoztatni. Mindkét megoldás elvetend. 3. A névszók finomabb osztályozása pontosabb névszói szerkezet Ennek egy megoldását mutatja az 1988-ban készült kísérleti magyar mondatelemz [FN]. Ebben a munkában a következ új névszói szófaj szerepel: népcsoport, foglalkozás, mértékegység. A szófajok szemantikainak tnnek, de nem tisztán azok. A lényeg, hogy a jelzk osztályozásánál a köznév és a különböz minsítés jelzk közt sorrendi precedenciát lehet felállítani. Nem lehet tisztán fnév és melléknevekrl beszélni. Ahelyett, hogy kétarcú névszókról beszélnénk, melyek a hagyományos beosztás szerint lehetnek pl. fnevek és melléknevek is, olyan kategóriát lehet nekik

tulajdonítani, amelyek nem köznevek, nem is melléknevek, hanem a (prioritás alapján) a kett közti szófaj. A jelenleg kísérleti beosztásom és azok közti prioritás a következ: <szelektor<mennyiség<tulajdonság<fajta<köznév Magyarázat: köznév a szokásos szófaj, ha nem teszem másik osztályba. fajta: ezek többsége a köznév gyakori jelzi lehetnek. Személy esetén három alkategóriája van, a következ prioritással népnév<vallás/pártállás<foglalkozás Pl. magyar református ács állatoknál az alfajt jelent jelz: kardfogú tigris élettelennél ilyen az anyagnév: vörösréz névtábla Ez utóbbi két eset persze csak akkor érdekes, ha nem írják egybe az t követ köznévvel tulajdonság: ezek az általános melléknevek, illetve jelzs szerkezetek. Jelzk lehetnek a szelektorban is. mennyiség: olyan részszerkezet, mely egy számnévbl és opcionális mértékegységbl áll esetleg egyszerbb jelzvel díszítve. A számnéven itt csak t- illetve t- és törtszámnévbl álló kifejezést értek, melyet most nem részletezek. A mértékegység tulajdonképpen köznév a hagyományos szófaji kategória szerint. Szerepe persze jól elkülöníthet az egyéb köznévtl. A szelektor is több részre osztható. birtokos<pozíció=kiválasztó Birtokos jelz a szokásos birtokost megjelöl részkifejezés, amelynek száma, személye az egész kifejezés birtokragjának számával és személyével megegyezik. Pozíció vagy egy sorszám, vagy egy úgynevezett pozícionáló melléknév. A sorszám a szokásos, a pozicionáló melléknév pedig a melléknevek azon alosztálya, amely a középfok bb-je nélkül is kaphat leg- felsfokot: utolsó, széls, hátsó A kiválasztó jelz els pillanatra általános jelznek tnik. Nem is lehet sokszor megkülönböztetni ket. A humán ellenrzés, vajon egy jelz a tulajdonság, avagy a szelektor kategóriába tartozik a rákérdezés módszere. Ha a milyen kérdésre válaszol, akkor tulajdonságjelz, ha melyik kérdésre, akkor szelektor. Egyes melléknevek egyértelmen szelektorok. Ezek az -ik vég melléknevek, mint a sorszámnevek, vagy pl. jobbik, másik. Általában az összetett szerkezet jelzk is ide tartoznak, de ennek eldöntéséhez további vizsgálatra van szükség: tegnap vásárolt, els helyet elért A mai magyar nyelvben a szelektort tartalmazó névszói kifejezés névelvel vagy kvantorral kezddik. Részletesebben a névszói szerkezetrl lásd [FN]. 4. A szavak osztályozásának módszere A jelenlegi nyelvi adatbázisok hagyományos szófajokat rendelnek a szavakhoz. A felhasználás céljából elengedhetetlen az új kategóriába való sorolás. Az elz fejezet ötleteket is ad egyes szófajok kimerít feltérképezésére. A fajta szófaj többsége

fnévként és melléknévként is szerepel az adatbázisokban. Ezek kigyjtése után emberi ervel elvégezhet a népnév, foglalkozás stb. beosztás. Mértékegység ersen véges halmaznak tnik: méter, liter, kilogramm, hüvelyk Ez nem egészen van így. A gyakoribbak természetesen egy fizika-, kémiakönyvbl összeszedhetk. Vannak azonban alkalmi anyagnevek is. Ezek azok a fizikai objektumot jelent köznevek, melyek mennyiségek összevetésére alkalmasak: három szekér szalma, egy csipet só. Ezeknek a szavaknak az a szótani tulajdonságuk, hogy megkaphatják a -nyi melléknévképzt: szekérnyi, csipetnyi, maroknyi. Ha nagy korpuszokból kigyjtjük az ilyen szavakat, akkor a gyakoribbakat mindenképpen megtaláljuk. A pozicionáló mellékneveket szintén könny kigyjteni, hisz szintén jellegzetes a morfológiai tulajdonságuk. 5. Néhány szerkezeti példa A kórházban sok ápolón román. Ez a mondat nem tekinthet egy névszói kifejezésnek, mert a népnév nem követheti a foglalkozásnevet, ezért nem hiányos mondat, hanem szabályos nominális mondat két független névszói kifejezéssel. A szül tegnap érkezett. Ez sem lehet egy névszói kifejezés, mert a tegnap érkezett jelz összetett, ezért a szül (mint foglalkozásszer jelentéssel bíró szó) nem elzheti meg a tegnap érkezett jelzt, de mint melléknév sem, mert mint halmozott szelektor, a két rész közé vesszt kéne tenni. Természetesen szemantika nélkül így is marad melléelemzés : az érkezett lehet ige és befejezett melléknévi igenév, st a szül lehet a tegnap jelzje, vagy foglakozása. Ezen a módszer nem segít, de szemmel láthatóan csökkenti a többértelmségek számát 6. Összefoglalás A szófajok nyelvfügg kategóriák. Jó osztályozás elsegíti a pontosabb szóalaktani és mondattani elemzést. A szófaji kategóriák kiválasztása modellalkotási probléma. A szófajokat úgy kell létrehozni, hogy egyrészt azok szóalaktani és mondattani szempontból relevánsak legyenek, másrészt algoritmikusan meghatározhatók legyenek. Segítségükkel a mondat szerkezete világosabb lesz, értsd ezen, kevesebb félreértelmezés jön ki az elemzés során. A jelenleg lefutott projektekben nem volt szükség alapos magyar mondatelemzésre, de a hamarosan beinduló magyarról való fordításnál elengedhetetlen pontosabb szerkezeti felbontás. Ez nem zárja ki más módszerek használatát, de mivel kellen általános, bizonyára segíteni fog.

Hihatkozások 1. [EL] Elekfi László: Magyar ragozási szótár. MTA Nyelvtudományi Intézete, Bp., 1994. 2. [FN] Farkas Ern, Naszódi Mátyás: Magyar nyelv mondatok elemzése természetes nyelv interfész céljából. SzTAKI kiadvány, 1990 május,. 3. [KF] Kiefer Ferenc (szerk.): Strukturális magyar nyelvtan 3. Morfológia. Bp., 1994. Akad. K. 4. [PF] Papp Ferenc: A magyar fnév paradigmatikus rendszere Bp., 1975.