Különírás-egybeírás automatikusan



Hasonló dokumentumok
Különírás-egybeírás automatikusan

Helyesiras.mta.hu az intelligens helyesíró portál

Antalné Szabó Ágnes A magyar helyesírás vizuális rendszere. Anyanyelv-pedagógia 4. Melléklet

Helyesírás.hu Nyelvtechnológiai megoldások automatikus helyesírási tanácsadó rendszerben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila. Vincze Veronika

Online segédeszközök a helyesírás tanításának szolgálatában

Gépesített helyesírási tanácsadás

Január 7. hétfő. I. Beszédtechnológia, fonológia

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint

Lexikon és nyelvtechnológia Földesi András /

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

Stíluskalauz. (Magyar)

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar magyar nyelv és irodalom

Géppel segített helyesírás

Az összetett szavak. I. Részei ELŐTAG + UTÓTAG

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

Helyesírási buktatók a közjegyzői okiratokban

A főnév élőlények, élettelen és gondolati dolgok neve. Fajtái a köznév és a tulajdonnév. tk

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

VI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2009

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

Intelligens elektronikus szótár és lexikai adatbázis

Feladatlap a gimnáziumi versenyzők számára

Mi ez pontosan? Miért készült? Miért nehéz?

A külön- és egybeírás kérdései a magyar orvosi nyelvben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

MORFOLÓGIAI FELÉPÍTÉS

Magyar nyelv és irodalom Fejlesztési terv

Az összetett szavak orvosi és nyelvészszemmel

5. osztályos tananyag

Igekötős szerkezetek a magyarban

A TANTÁRGY ADATLAPJA

A HUNGLISH PÁRHUZAMOS KORPUSZ

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő

A MAI MAGYAR ORVOSI HELYESÍRÁS

A szóösszetételek. 8. évfolyam

HELYESÍRÁSI SZÖRNYEDVÉNYEK II.: Minőségjelzők egybe- és különírása

A Eötvös Loránd-emlékérem. B Eötvös Loránd Emlékérem. C Eötvös Loránd emlékérem. A Gellért fürdő. B Gellért-fürdő. C Gellért Fürdő. A ELTÉ-s.

Dr`avni izpitni center MAGYAR NYELV ÉS IRODALOM. 1. feladatlap. Nem művészi szöveg elemzése. Szombat, május 29. / 60 perc

Szakmai vélemény az új helyesírási szabályzatra vonatkozó javaslatról

Korpuszneveink helyesírásáról

III. SZAKNYELVI HELYESÍRÁSI VÁLTOZÁSOK AZ ÚJ HELYESÍRÁSI SZABÁLYZAT TÜKRÉBEN

A magyar létige problémái a számítógépes nyelvi elemzésben

A számok, mennyiségek és az időpontok írásmódja

Bevezetés a programozásba

Szótáralapú kémiai NE-felismer rendszer

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Fordító részei. Fordító részei. Kód visszafejtés. Izsó Tamás szeptember 29. Izsó Tamás Fordító részei / 1

PTE BTK Magyar Nyelv- és Irodalomtudományi Intézet Nyelvtudományi Tanszék

A TANTÁRGY ADATLAPJA

Magyar nyelvtan tanmenet 4. osztály

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben november 13.

MAGYAR NYELV Tömbösített tanmenet 8. D évfolyam Helyesejtés, helyesírás, Kommunikáció Olvasás-szövegértés és szövegalkotás Mtk. 26./4.

A legjellemzőbb helyesírási hibák közterületek felirataiban Kaposvár belvárosában

TestLine - echinaceatesztje-03 Minta feladatsor

Adamikné Jászó Anna Hangay Zoltán Nyelvi elemzések kézikönyve. Mozaik Oktatási Stúdió. Szeged.

Alkalmazott Nyelvészeti Tanszékek 7. Országos Találkozója

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

OSZTÁLYOZÓ VIZSGA KÖVETELMÉNYEK -IT ANGOL SZAKMAI NYELV-

4. Javítás és jegyzetek

Magyar nyelv 6. osztály. Főbb témakörök

ös egyetemi év felvételi követelményei

Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

MAGYAR NYELV 5 8. Javasolt óraszámbeosztás

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Új szóösszetételek mondattranszformációs megközelítése

Programozási nyelvek (ADA)

magyar (BA)-BTK XXX-MAGTANB2/ képzési terv

Ismeretlen szavak helyes kezelése kötegelt

A Mazsola KORPUSZLEKÉRDEZŐ

Érettségi eredmények 2005-től (Békéscsabai Andrássy Gyula Gimnázium és Kollégium)

SYLLABUS. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Tanárképző Intézet Az óvodai és az elemi okatatás pedagógiája

MAGYAR NYELV a 8. évfolyamosok számára. MNy2 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

NT MAGYAR NYELV ÉS KOMMUNIKÁCIÓ 6. TANMENETJAVASLAT. (heti 2 óra, azaz évi 74 óra)

AZ ÜGYFÉL KOMMUNIKÁCIÓ ÚJ FORMÁI POZITÍV ÜGYFÉLÉLMÉNY SZÖVEGBÁNYÁSZATI MEGOLDÁSOK

A Magyar Nyelvi Osztályközi Állandó Bizottság évi tevékenysége

Hogyan írjunk helyesen magyarul a fizikáról

Az URaLUID adatbázis bemutatása

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

A Tinta e-book könyvtár/lexikontár címei:

Kerettantervi ajánlás a helyi tanterv készítéséhez az EMMI kerettanterv 51/2012. (XII. 21.) EMMI rendelet 2. sz. melléklet

A kibővített Magyar történeti szövegtár új keresőfelülete

Korpuszlekérdezők evolúciója

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Bősze Péter. Gyógynövénynevek

Syllabus. Partiumi Keresztény Egyetem, Nagyvárad Bölcsészettudományi Kar Magyar nyelv és irodalom

PureToken: egy új tokenizáló eszköz

Minimumkövetelmények magyar nyelvből (5. osztály) Minimumkövetelmények irodalomból 5. osztály

TANMENETJAVASLAT A MAGYAR NYELV TANÍTÁSÁHOZ

XI. Magyar Számítógépes Nyelvészeti Konferencia MSZNY Szerkesztette: Tanács Attila Varga Viktor Vincze Veronika

A Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály jelentése a évről. Kiemelkedő kutatási és más jellegű eredmények

Bevezetés az e-magyar programcsomag használatába

MAGYAR NYELV ÉS IRODALOM

MAGYAR NYELV a 8. évfolyamosok számára. MNy1 JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

A digitális számítás elmélete

A gyógyszernevek írása

SZAKMAI ÖNÉLETRAJZ Farkas Judit

Átírás:

Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia 2013. február 1.

Áttekintés Bevezetés A külön-egybeírásról általában Más online helyesírási tanácsadók A helyesiras.hu újszerűsége Felépítése Előfeldolgozás Elemzés Nyelvtan Szabályok (példákkal) Kimenet Összefoglalás

Bevezetés Helyesírás.hu automatikus nyelvi tanácsadó portál Nyelvtechnológiai eszközökkel támogatott 7 különböző terület: Számnevek helyesírása Keltezés Betűrendbe sorolás Tulajdonnevek helyesírása Elválasztás Helyesírás-ajánló Különírás-egybeírás 3

4

Különírás-egybeírás Önmagában bonyolult területe a magyar helyesírásnak Szabályok alkalmazásának feltétele: meg kell tudni különböztetni a szószerkezeteket és a szóösszetételeket köztük nem éles a határ Emiatt gyakoriak az ingadozások, többféleképpen megítélhető esetek 5

Egyéb online helyesírási tanácsadók I. Jelenlegi internetes helyesírási tanácsadók egyszerű szójegyzéken alapulnak Probléma: csak akkor adnak eredményt, ha a lekérdezni kívánt szó eleve helyesen van írva, ill. megtalálható a mögöttes szótárban 6

Egyéb online helyesírási tanácsadók II. Jobb esetben a helytelen írt szóra is ad eredményt, de szükséges feltétel továbbra is, hogy benne legyen a szótárban Pl. www.magyarhelyesiras.hu: bemenet: lőtt vadkereskedés kimenet: lőttvad-kereskedés, AkH. 139. (AkH. típuspéldája) DE: bemenet: homokos útkaparó kimenet: nincs találat (homokosút-kaparó ~ homokos útkaparó mindkét megoldás jó) 7

A helyesiras.hu újszerűsége Három alappillér: robusztus, többrétegű, annotált szótár formális nyelvtan felhasználói interaktivitás 8

Mit képes kezelni? Nem az összes terület (csak algoritmizálhatóak): jelölt és jelöletlen alárendelői összetételek/szintagmák 6:3-as szabály mozgószabályok rövidítéseket és mozaikszókat tartalmazó összetételek színnévi összetételek, anyagnévi összetételek stb. csak részben: jelentéssűrítő, illetve a szervetlen szóösszetételek

Be- és kimenet Bemenet: akár helytelenül írt (összetett) szó vagy szavak lehet hibás egybe-, külön vagy kötőjellel írás egyéb helyesírási hibák is Kimenet: a szabályok, illetve a rendelkezésre álló eszközök által biztosan megállapíthatóan helyesen (külön-, egybe-, illetve kis- vagy nagykötőjellel) írt alakok magyarázatok hivatkozások az AkH., OH. megfelelő pontjaira. 10

Felépítés 11

Előfeldolgozás Karakterhossz ellenőrzése Esetleges ismétlődő karakterek kiszűrése Felesleges kötőjelek szóközre cserélése után szegmentálás: tokenizálás + spec. Humor lexikonnal darabolás szükség esetén visszakérdezés v. továbbirányítás (Ajánló, Névkereső) Ellenőrzés, szerepel-e a kivételszótárban: jelenleg kb. 2100 elemből áll 12

Elemzés 13

A nyelvtan I. Rekurzív helyesírási szabályrendszer generatív rendszer Különböző elemzések (levezetések) különböző írásmódok Az elemzési fák bejárásából generálhatók a magyarázó szövegek 14

A nyelvtan II. Környezetfüggetlen, jegystruktúrás kidejezésnyelvtan Szófaj, morfológiai jegyek, szótagok/összetételi tagok száma Lexikális jegyek: színnevek, foglalkozások, rangok, keresztnevek, népek és nyelvek nevei, rövidítések,... Fejről öröklődés; konkurens elemzések letiltása Értékadások: írásmód kiszámítása (egybe, külön, kötőjellel stb.) Saját bottom-up parser 15

Példa egy szabályra id: M_EK_ANYAGNEV_1_1_1 rule: N(sem="Material1", ncomparts=1) + N(match="FN,NOM", ncomparts=1) == N(sep='', ncompartsx="2+") comment: "Az anyagnévi jelzőt, ha egyszerű szó, egybeírjuk a nem összetett főnevekkel." refs: AKH-115, OH-117 ex: bőr + kabát = bőrkabát, selyem + ing = selyeming kill: M_EK_JELOLETLEN_BIRTOKOS 16

A parser bemenete Input: bőr + kabát 0. N(wordform="bőr", stem="bőr", match="fn,nom", sem=['material1'], ncomparts="1", nsylls="1", hasnesep="0") 1. N(wordform="kabát", stem="kabát", match="fn,nom", sem=[], ncomparts="1", nsylls="2", hasnesep="0") 17

Példa generált elemzési fára N(sep=[''], ncompartsx="2+") : M_EK_ANYAGNEV_1_1_1 N(wordform="bőr", stem="bőr", match="fn,nom", sem=['material1'], ncomparts="1", ncompartsx="1+", nsylls="1") : 0. N(wordform="kabát", stem="kabát", match="fn,nom", sem=[], ncomparts="1", ncompartsx="1+", nsylls="2") : 1. 18

A kimenet Input: bőr + kabát Ehhez a javasolt alakhoz 1 lehetséges magyarázat tartozik. I.1. magyarázat: A "bőr" főnevet és a "kabát" főnevet egybeírjuk az alábbi szabály alapján: "Az anyagnévi jelzőt, ha egyszerű szó, egybeírjuk a nem összetett főnevekkel." (AKH-115, OH-117) 19

Példa generált elemzési fára 1. megoldás Bemenet: homokos + út + kaparó N(sep=[''], ncomparts="3", nsylls="7", hasnesep="1") : M_EK_JELOLETLEN_TARGYAS_1_2 N(sep=[' '], ncomparts="2", nsylls="4", type="qualificative", hasnesep="1") : M_EK_MINOSEG_1_1_1 A(wordform="homokos", stem="homokos", match="fn,_skep,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") A(wordform="homokos", stem="homokos", match="fn,_skep,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") A(wordform="homokos", stem="homokos", match="mn,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") : 0. N(wordform="út", stem="út", match="fn,nom", sem=[], ncomparts="1", nsylls="1", hasnesep="0") : 1. A(wordform="kaparó", stem="kaparó", match="ige,_okep,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") : 2. 20

Példa generált elemzési fára 2. megoldás N(sep=['@-'], ncomparts="3", nsylls="7", hasnesep="1") : M_EK_MOZGO_2_1 N(sep=[' '], ncomparts="2", nsylls="4", type="qualificative", hasnesep="1") : M_EK_MINOSEG_1_1_1 A(wordform="homokos", stem="homokos", match="fn,_skep,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") A(wordform="homokos", stem="homokos", match="fn,_skep,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") A(wordform="homokos", stem="homokos", match="mn,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") : 0. N(wordform="út", stem="út", match="fn,nom", sem=[], ncomparts="1", nsylls="1", hasnesep="0") : 1. N(wordform="kaparó", stem="kaparó", match="fn,nom", sem=[], ncomparts="1", nsylls="3", hasnesep="0") : 2. 21

A kimenet 1. megoldás: homokos útkaparó I.2. magyarázat: 1. Az "út" főnevet és a "kaparó" melléknevet egybeírjuk az alábbi szabály alapján: A jelöletlen tárgyas alárendelői összetételt mindig egybeírjuk. (AKH-123, OH-204) 2. A "homokos" melléknevet és az "útkaparó" főnevet különírjuk az alábbi szabály alapján: A minőségjelzős kapcsolatok tagjait általában különírjuk egymástól, különösen olyankor, ha a kapcsolatnak valamelyik vagy mindkét tagja összetett szó. (AKH-117-a, OH-107) 22

2. megoldás: homokosút-kaparó II.1. magyarázat: A kimenet 1. A "homokos" melléknevet és az "út" főnevet különírjuk az alábbi szabály alapján: A minőségjelzős kapcsolatok tagjait általában különírjuk egymástól, különösen olyankor, ha a kapcsolatnak valamelyik vagy mindkét tagja összetett szó. (AKH-117-a, OH-107) 2. A "homokos út" főnévi szerkezetet és a "kaparó" főnevet kötőjellel írjuk és az első szerkezet egybeírjuk (összerántjuk) az alábbi szabály alapján: Ha egy különírt szókapcsolat olyan utótagot kap, amely az egészhez járul, az egyébként különírandó előrészt az új alakulatban egybeírjuk, és ehhez az utótagot (a szótagszámtól függetlenül) kötőjellel kapcsoljuk. (AKH- 23 139-b, OH-131-132)

Összefoglalás Moduláris, nyelvi technológiával támogatott automatikus helyesírás-ellenőrző rendszer Elemzők és lexikai adatbázisok szükségszerű használata További cél: felhasználói elégedettség kritikus állandó, célzott fejlesztés igénye 24

Irodalom Laczkó Krisztina Mártonfi Attila 2005. Helyesírás. Osiris Kiadó, Budapest. Miháltz Márton Hussami Péter Ludányi Zsófia Mittelholcz Iván Nagy Ágoston Oravecz Csaba Pintér Tibor Takács Dávid 2012. Helyesírás.hu Nyelvtechnológiai megoldások automatikus helyesírási tanácsadó rendszerben. In: Tanács Attila Vincze Veronika (szerk.) MSZNY2013. Magyar Számítógépes Nyelvészeti Konferencia, Szeged: JATEPress, 135 147. Pintér Tibor Oravecz Csaba Mártonfi Attila 2009. Online helyesírási szótár és me gvalósítási nehézségei. In: Tanács Attila Szauter Dóra Vincze Veronika (szerk.) MSZNY 2009. Magyar Számítógépes Nyelvészeti Konferencia, Szeged: JATEPress, 172 182. 25

Köszönöm a figyelmet! 26