MODELLALAPÚ SZEMANTIKUS KERESŐRENDSZER KIDOLGOZÁSA
|
|
- Szebasztián Németh
- 9 évvel ezelőtt
- Látták:
Átírás
1 TECH_08_A2/ MODELLALAPÚ SZEMANTIKUS KERESŐRENDSZER KIDOLGOZÁSA IDŐKÖZI SZAKMAI BESZÁMOLÓ 2. MUNKASZAKASZ A SZINTAKTIKUS ELEMZÉS SZABÁLYAI ANGOL NYELVRE Alkalmazott Logikai Laboratórium Szegedi Tudományegyetem MASZEKER január 15.
2 Verziókövetés dátum változtatás szerző A tanulmány első verziója Vincze Veronika (SZTE) Kisebb módosítások a szövegben Vincze Veronika (SZTE) Formázás, kisebb módosítások, hivatkozások Vincze Veronika (SZTE) 2
3 Tartalomjegyzék Tartalomjegyzék Bevezetés A szabadalmak felépítése A szabadalmak nyelvi jellemzői A szabadalmakra kidolgozott szintaktikus elemző Mondatra bontás Kémiai névelem-felismerő Tokenizálás Szófaji egyértelműsítés Felsorolások kijelölése Vezérszavak és perdurantok megállapítása Mennyiségjelzők kijelölése A MagNP-k felismerése Kulcsok A parser Problémák és megoldások Adjunktumok Sajátos fordulatok Összetételek Összegzés...27 Bibliográfia
4 1 Bevezetés A különféle tudományterületek sokszínűségéből és gazdagságából adódóan a szabadalmak rendkívül sok tudományterületet fednek le, melyek mindegyike sajátos jellemzőkkel bír (mind stilisztikai, mind terminológiai szempontból, mind pedig a szabadalmak felépítését tekintve). Így úgy döntöttünk, hogy a projekt keretein belül egy adott osztályozási jelzettel ellátott szabadalmak feldolgozására összpontosítunk, nevezetesen az A61K (gyógyhatású készítmények) osztályra. A szabadalmak nyelvi feldolgozásához szükség van egy olyan elemző rendszerre, amely a szabadalmakat mondatokra, majd szavakra bontja, morfológiai és szintaktikai elemzést nyújt, majd végül szemantikai reprezentációt is társít a szöveghez. A szabadalmak azonban számos olyan sajátossággal bírnak, amelyek azok nyelvi elemzését az általános tématerületű szövegekhez képest jelentősen megnehezítik. A tanulmányban az angol nyelvű szabadalmak elemzésére létrehozott elemző rendszer komponenseit mutatjuk be, és különös figyelmet fordítunk a nyelvi sajátosságokból fakadó problémák kezelésére írt szabályalapú megoldásokra. 4
5 2 A szabadalmak felépítése A szabadalmak egységes szerkezettel bírnak. A címlap tartalmazza az úgynevezett bibliográfiai adatokat, amelyben megtalálható többek között a szabadalom iktatási száma, a benyújtás időpontja, a szerzők és a feltalálók neve. Az első oldalon szerepel még a találmány néhány soros összefoglalója, amelyet ábrákkal is ki lehet egészíteni. Itt található a cím is, amely meghatározza a találmány tárgyát, majd a leíró részben annak pontos jellemzőit fejtik ki a szerzők különös tekintettel a találmánnyal megoldandó feladatra, az alkalmazási területekre, példákkal, ábrákkal, táblázatokkal szemléltetve. Az igénypontok pedig a szabadalmak oltalmi körét határozzák meg, azaz azt, hogy mit szeretnének a feltalálók levédetni. A találmányt az úgynevezett főigénypont azonosítja a legáltalánosabban. A főigénypontban megtalálható a találmánynak a célul kitűzött feladat megoldásához elengedhetetlenül szükséges minden jellemzője (Osenga 2007). Emiatt a továbbiakban elsődlegesen a főigénypontok nyelvi feldolgozására összpontosítunk. A főigénypont szerkezete eléggé kötött. Ez már abból is adódik, hogy a főigénypont hossza csak egy mondat lehet: a legtöbb problémának ez a forrása, mert mindent ebbe az egy mondatba próbálnak beletömöríteni. A főigénypont mindig azzal kezdődik, hogy milyen kategóriába tartózik a levédetni kívánt szabadalom, például módszer, eljárás, eszköz, összetétel. Eztán következik ezek kifejtése: milyen lépésből/anyagokból áll a főigénypont elején említett dolog, és ezeket az alpontokat rekurzívan továbbfejtik. 5
6 3 A szabadalmak nyelvi jellemzői Mint már említettük, a szabadalmak terminológiai és stilisztikai szempontból is eltérnek az általános doménből vett szövegektől. Mind a magyar, mind az angol szabadalmakra jellemző, hogy nyelvezetük tömör, lényegre törő. Szintaktikailag bonyolult felépítésű szerkezetek, beágyazott mondatok, összetételek és felsorolások szép számmal találhatók bennük. A megfogalmazásban pontosságra törekednek a szerzők, igyekeznek kimerítő leírást adni a találmányról, ugyanakkor megfigyelhető az a tendencia is, hogy az esetleges későbbi jogviták elkerülése végett bizonyos általánosító stratégiákat alkalmaznak, így lehetővé válik a jellemzők és az alkalmazási területek bővítése, illetve a későbbiekben esetleg relevánssá váló esetek hozzáadása ( beleértése a szabadalomba) (Osenga 2007). Ilyen nyelvi stratégiára hozunk néhány példát: o a kimerítőnek látszó felsorolások végén szereplő stb.; o a felsorolások előtt szereplő pl. vagy például; o megengedő vagy használata; o általános jelentéstartalmú határozók használata (rendszerint, általában). E stratégiák némileg párhuzamot mutatnak a bizonytalanságot jelölő kifejezésekkel (angol terminológiával élve a hedge, illetve weasel kifejezésekkel (Farkas et al. 2010)), míg azonban például a Wikipédia szócikkein belül ezen általánosító, kétértelmű és nem kimerítő leírást adó kifejezések használata nemkívánatosnak minősül, addig a szabadalmak nyelvezetében a fenti okok miatt ez teljességgel megszokott stratégia. Mivel a főigénypontnak tartalmaznia kell minden szükséges, a szabadalom lényegét érintő információt, továbbá a hagyományoknak megfelelően a főigénypont egyetlen mondatból áll, ezért nem várható el, hogy a főigénypontot egy egyszerű, könnyen feldolgozható mondat alkossa (Osenga 2007). Szintaktikai szempontból jellemezve a mondatokat elmondhatjuk, hogy igen hosszú, többszörösen összetett mondatok alkotják a szabadalmak szövegét egy-egy főigénypont (azaz egy mondat) akár több oldal hosszúságú is lehet. Ebből adódóan igen sok bennük a visszautalás (anafora), és az elliptikus tagmondatok, felsorolások, vonatkozó mellékmondatok és utómódosítók használata is jellemző. A mondatok pontos szintaktikai elemzését a fentiek mellett az is nehezíti, hogy a központozás nem túl következetes. A fentiek miatt Osenga (2007) szerint a szabadalmak külön nyelvtannal (szintaxissal) bírnak, mely nem esik egybe a(z angol) nyelvtannal. A szabadalmak szókincse is jellegzetes: a terminus technicusokon kívül bizonyos szófordulatok (azzal jellemezve) jelenléte is tipikusnak mondható, melyek nem feltétlenül találhatók meg egy általános célú szótárban, így ezeket külön fel kell 6
7 venni, illetve a kezelésükre külön szabályokat kell írni. A szabadalmak értelmezését az is megnehezítheti, hogy mivel a leírt találmány új a találmány leírására használt szavak is új értelmezésben használtatnak a szabadalomban (Osenga 2007). 7
8 4 A szabadalmakra kidolgozott szintaktikus elemző A szabadalmak szintaktikai elemzésére kidolgoztunk egy szintaktikus elemzőt, melyet ebben a fejezetben ismertetünk részletesen. A szintaktikus elemző moduljait az alábbi ábra szemlélteti. A szintaktikus elemző moduljai három fő típusra oszthatóak: 8
9 beolvasást végző modulok (Collection Reader) nyelvészeti jelöléseket végző modulok (Analysis Engines) az eredmények megjelenítését végző modulok (CAS Consumers) Jelen tanulmányban a nyelvészeti jelöléseket végző modulok felépítését, működését és kapcsolatait mutatjuk be (a többi modulról l. részletesen 7.1. tanulmány). Megemlítjük, hogy a szabadalmak nyelvi sajátosságaiból adódó, az általános doménre felkészített nyelvi elemzők számára (pl. Klein-Manning (2003)) problémát jelentő esetek a következők: o o o o o o o rendkívül hosszú mondatok (kulcsok és utómódosítók) adjunktumok sajátos fordulatok összetételek felsorolások kvantitatív szerkezetek kémiai névelemek A fenti problémák kezelésére külön figyelmet kellett fordítanunk, ezért különféle szabályalapú módszereket dolgoztunk ki, melyeket beépítettünk a szintaktikus elemzőnkbe. Az alábbiakban a modulok részletes ismertetése következik. 4.1 Mondatra bontás A mondatra bontást az Open NLP Sentence Splitter modulja 1 valósítja meg. 4.2 Kémiai névelem-felismerő A kémiai névelem-felismerő rendszer célja, hogy bármely angol nyelven írt szabadalom szövegében megtalálja lehetőségeinkhez mérten minél jobb arányban a kémiai vegyületneveket és orvosi tulajdonneveket, amihez rendelkezésre áll egy viszonylag bő, főként bonyolultabb vegyületneveket tartalmazó, de korántsem teljes lista a szükséges vegyületnevekkel. A kémiai vegyületneveket tartalmazó szótárfájlt a yogi/chemicals/ címen található Environmental Chemistry oldalról gyűjtöttük ki. A szótárfájl ugyan sok szót tartalmaz, de bizonyos elemi szavak hiányoznak belőle (pl. sodium ), ezért szükség volt a szavak listájának 1 9
10 bővítésére. Másik szótárfájl nem állt rendelkezésünkre, ezért úgy döntöttünk, hogy mivel a szótárfájl rengeteg összetett kémiai vegyületet tartalmaz, amelyek magukban foglalják a nem meglévő egyszerűbb szavakat is, e szavakat az összetett szavakból nyerjük ki. A listafájl jelenleg ~ sort, vegyületnevet tartalmaz, amelyet a program hatékonysága és fejlesztése érdekében folyamatosan frissíteni kell. A kémiai névelem-felismerő nem csupán a szótárfájlban már bent lévő szavakat kell, hogy felismerje. A feszítés módszerével élve: ha a szó belsejében találunk egy, a szótárban szereplő vegyületnevet, akkor a teljes szóalakot (szóköztől szóközig) névelemnek jelöli. Ha van például egy bonyolult vegyületnév, amely nincs benne a listában, de például tartalmaz hidrogént (H), nátriumot (N) és oxigént (O) vagy ezek közül valamennyit, akkor a - kötőjellel összekapcsolt vegyületeket felismeri a program, és összeköti: így például N-Cl-Naoh-At-O-H.sup2 vegyületnél elegendő a programnak, hogy az N-t megtalálja, így már feszíti is a vegyületnév határait, és így képes lesz az egész szót névelemként azonosítani. Felmerült probléma volt, hogy a találatok között ott volt például az at, ami elöljárószó is lehet, pedig a listafájlban csak és kizárólag az asztácium vegyjeleként fordult elő ( At ), de a kis- és nagybetűk közti különbség elhanyagolása miatt a program nem volt képes a kettőt megkülönböztetni. Ezért arra az elhatározásra jutottunk, hogy a listafájlt ketté kell vágni a rövidítésekre amelyeket csak és kizárólag kis- és nagybetűket megkülönböztetve dolgozunk fel (3 és ennél kevesebb karakteres rövidítésekből álló szótárfájl) és a hosszabb szavakra, amelyeket továbbra is a kis- és nagybetűk közti különbségeket elhanyagolva dolgozunk fel (3- nál több karakteres szavakból álló szótárfájl). A kémiai névelem-felismerőről l. bővebben Nyilas et al. (2010). 4.3 Tokenizálás A mondatok szavakra (tokenekre) bontását az OpenNLP Tokenizer modulja végzi Szófaji egyértelműsítés A szavak szófaját a Stanford POS-tagger 2 segítségével állapítjuk meg. A munkálatok során azt tapasztaltuk, hogy a szófaji egyértelműsítő bizonyos esetekben ugyanazokat a hibákat véti a szabadalmi szövegeken, ezért néhány kézi szabállyal javítottuk annak végeredményét. A modul az alábbi helyesbítéseket végzi a szófajokkal már megjelölt szavakon:
11 Múlt idejű igealaknak címkézett tokenek átcímkézése múlt idejű befejezett melléknévi igenévvé (VBD --> VBN) said (akármi --> VBN) [van, hogy főnévnek van címkézve, ezért ezzel külön is kell foglalkozni] wherein (akármi --> WRB) [a taggelők szerint néha főnév] ( (akármi --> -LRB-) ) (akármi --> -RRB-) Új tag bevezetése, MS (math sign). Elemei: %+-± means (VBZ --> NN, ha a vagy this előzi meg) mixture (ne ige legyen, hanem főnév) solvent legyen mindig főnév hereinafter, thereon, thereof, therefrom, hereinbefore mindig határozószavak legyenek ADJ tag bevezetése olyan melléknevekre, amelyek elöl is állhatnak. Ilyenek a JJ,VBN taggel ellátott szavak. A főnév előtt álló VBG tagek miatt vezettük be ezt. Azt vettük észre, hogy a főnév előtt álló VBG taggel jelölt szót akkor vehetjük elöl álló módosítónak, ha előtte determináns vagy melléknév áll, utána pedig melléknév vagy főnév. Így az a means for allaying drunkenness esetén az allaying nem előmódosító, de a the welding process vagy the filling material esetén igen. Ez a módszer minden esetben bevált a tanulókorpuszban. számok átírása (CD --> LS, ha utána zárójel vagy pont jön, mert akkor legtöbbször nem mennyiséget jelöl) 1-10 vagy 0-5 vagy n=5 típusú szerkezeteket a tokenizáló egy tokennek jelöl, pedig ezek három tokent tartalmaznak. Ezeket szétválasztottuk. A 6% vagy 20 típusú tokeneknél ezek szétválasztása TO + RB* V esetben marad TO, ha pedig ez a szabály nem illeszkedik, akkor IN lesz a to POSTag-je 4.5 Felsorolások kijelölése Mivel a szabadalmak főigénypontjai egymondatosak lehetnek csak, ezért a szerzők abba az egy mondatba próbálnak mindent belesűríteni. Ez a felsorolások kezelésének tekintetében is sok bonyodalmat okoz. A felsorolásokat formailag viszonylag könnyű felismerni, mert elemeit vessző, pontosvessző vagy kötőszó választja el (habár sok esetben ez hiányzik). A felsorolásjelző kijelölő UIMA modul a következő reguláris kifejezések (Perl syntax) segítségével jelöli ki a felsorolások határait jelző felsorolásjelzőket: # római szám, betű vagy szám felsorolásjelző mag $enumstring = "([mlidxcv]+ [a-z] [0-9]{1,2})"; # (mag.? *) 11
12 m/\($enumstring\.?\s*\)/i; # ' and/or or/and and or ' m/\s+(and/or or/and and or)\s+/i; # 'mag.?)' m/\s+($enumstring\.?\))/i; # ' mag. [^A-Z]' m/\s+($enumstring\.)\s+[^a-z]/i; # '[,;] ' m/([;,])\s+/; A szintaktikai elemzés szempontjából viszont gyakran nehéz eldönteni, hogy a felsorolást elválasztó elemek után található szó vagy szócsoport minek a bővítménye. Ez amiatt történhet meg, hogy a főösszetevők felsorolása mellett párhuzamosan történik meg az azokban található alösszetevők leírása, amelyek szintén tovább bonthatók. Esetenként így akár 3-4 szint mélységű is lehet egy-egy felsorolás. Általában a vesszővel azonos szinten lévő elemeket sorolunk fel, a pontosvessző pedig legalább egy szinttel megy feljebb de a legalább egy és az azonos szinten sajnos nem elég pontos támpont egy parser létrehozása szempontjából, mert kivételek is lehetnek. Erre példa az alábbi szabadalomrészlet: R1 and R2 are each selected independently from the group consisting of hydrogen, hydroxyl, amino,..., alkoxy of 1-6 carbon atoms, alkylthio, aryloxy,... A fenti példában az tapasztalható, hogy a consisting vonzata a hydrogen, hydroxyl, amino, alkoxy of 1-6 carbon atoms, aryloxy stb. Ez számunkra teljesen evidens, de a felsorolásokkal kapcsolatban felállított szabályok szerint a parser logikusan az alkylthio és az azt követő felsoroláselemeket az alkoxy szóhoz köti, pedig valószínűleg azok is a consisting szóhoz tartoznak. Az atoms utáni vessző tehát nem azonos szintet, hanem egy szinttel feljebb való ugrást feltételez. A problémán itt még az sem segítene, ha minden, felsorolásban található elem előtt megismételjük a prepozíciót, mert itt mindkét esetben az of lenne az. A felsorolások végén található and vagy or kötőszó pedig azt jelenti, hogy az adott felsorolás utolsó eleme fogja követni. Ez sok esetben igaz, de találtunk egy többszörösen mellérendelt mondatkezdetet is: A means for allaying drunkenness, preventing and removing alcohol intoxication and hangover syndrome and a method for allaying drunkenness, preventing and removing alcohol intoxication and hangover syndrome by using this means, comprising: A fenti példában a removing utáni felsorolás okoz problémát: a preventing és removing tárgyas vonzata az alcohol intoxication és a hangover syndrome. Azonban 12
13 ezekhez még hozzá van kötve szintén az and kötőszóval a method is, amely az elemző számára természetesen ugyanolyan, mint az alcohol intoxication, így azokhoz köti testvérként. Itt semmi sem jelzi a feljebb ugrást, ami ráadásul kétszintű: nem a means for vonzata a method, hanem a gyökérhez köthető a means mellé. A felsorolások kezeléséről l. részletesen a 4.8. tanulmányban. 4.6 Vezérszavak és perdurantok megállapítása A vezérszavak a találmány lényegét határozzák meg: megadják, hogy egy módszerről, eljárásról, készítményről stb. van-e szó. Általában a főigénypont legelején fordulnak elő, és sok későbbi anaforikus elem (névmások, de vonatkozó mellékmondatok is) ezekre utal vissza, ezért azonosításuk elengedhetetlen. A könnyebb kezelhetőség végett a főneveken belül elkülönítettük a perdurantokat (időbeli történést, eseményszerűséget jelölő főnevek, l. Ungváry (2006), amelyek több szempontból hasonlítanak az igékhez. Egyrészt hasonló a jelentésük, mivel eseményt fejeznek ki. Másrészt fontos azon jellemzőjük is, hogy szinte bármennyi és bármilyen szabad határozóval rendelkezhetnek. A perdurant jelentésű főneveket szemantikailag is egy kategóriába soroltuk az igékkel a reprezentáció során, hiszen a method for treating Alzheimer s disease és a method for the treatment of Alzheimer s disease jelentésében nincs különbség. A szintaktikai elemzést tekintve azért volt fontos megkülönböztetni a perdurant főneveket a nem perdurant főnevektől, mert az utóbbiaknál csak a vonzatkerettárunkban (Klausz et al. 2010) szereplő vonzatokat illesztettük, míg az előbbieknél szabad prepozíciós szerkezeteket is megengedtünk. Ez sokat javított a program hatékonyságán, mert volt olyan főnév is, amelynek 4 bővítménye is volt, ez pedig a storage: storage (1) of the composition (2) for ten days (3) in an open Petri dish (4) at 40 C.±2 C. Ezen esetekben, ha csak a vonzatkerettárat vennék alapul, akkor a (2-4) bővítményeket az előtte álló igéhez tettük volna. A vezérszavakat és a perdurant jelentésű főneveket jelenleg az algoritmus a kézzel annotált korpuszból veszi. 4.7 Mennyiségjelzők kijelölése A biokémiai szabadalmakban fontos szerepük van a mennyiségjelzőknek, amelyek feladata, hogy a főigénypontokban minél pontosabban leírják egy kémiai összetétel összetevőinek pontos mennyiségét. Mivel a főigénypontok a mérvadóak a szabadalmaztatás során, a szerzők nemcsak az előbb említett pontosságra 13
14 törekednek, hanem arra is, hogy hasonló összetételt se lehessen alkalmazni, így gyakran használnak olyan szerkezeteket, amelyek az összetevők mennyiségét a körülbelül előtaggal módosítják. Így a főigénypontokban egyszerre jelenik meg a pontosság igénye, és a mennyiségmegjelölések kis mértékű elhomályosítása. A szabadalmak mennyiségei rögzített szerkezettel rendelkeznek: általában - tól/-ig tartományt fejeznek ki, például from about 1 gram to about 5 grams of Arginine. Az ilyen típusú mennyiségjelzők szintaktikai szempontból nem okoznak problémát: általában mindegyik egy megadott mintára illeszkedik, így azok kinyerése viszonylag könnyen megoldható. A következőkben a mennyiségjelzők azonosítására szolgáló reguláris kifejezéseket mutatjuk be. A POS-tagger jelölései: CD - szám JJ - melléknév RB - határozószó DT - determináns Saját jelölések: N - Az N jelölést az összetett főnévi fejekre alkalmazzuk NP - Az NP pedig már a determinánssal is rendelkező főnévi csoportot jelöli MU - Mértékegység: mg(.), gram, grain, percent, weight percent, weight%, wt-%, wt.%, wt. %, %, part, micron, unit dose, milligram, centipoises, nm., µm (szövegben: Îźm), Da, mesh, ml MUPOST - Mértékegység-utómódosító: in size, by weight, by volume QUNDET - Határozatlan mennyiség: plurality of, portion of, dose of, multiple, multiplicity of, excess of, amount of, range of PREMOD - Előmódosító: at least, at most, less than, not less than, about, approximately, up to CDPOST - Számot követő módosító: or more, or less, or greater Mennyiségjelzők kinyerése reguláris kifejezéssel (N (of)?)? ((in within)? (DT)? (RB)? (JJ)? QUNDET)? (from between)? ((to and)? (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (CDPOST)?(MUPOST)?){1,2} (of)? N of NP (MUPOST)? A minták 240 calories CD N 900 ml of 0.05M HCl CD (MU of)? N 14
15 at least one skin care active (PREMOD)? CD (MU of)? N three or more potentiating agents (PREMOD)? CD (CDPOST)? (MU of)? N at most about 90% of the active ingredient (PREMOD){0,2} CD (CDPOST)? (MU of)? N 20 weight percent polyvinyl pyrrolidone of the total weight of said first component (PREMOD){0,2} CD (CDPOST)? (MU (of)?)? N of NP at least two of the three or more potentiating agents (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU (of)?)? N of NP at least one of said target genes (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (of)? N of NP from 12 to 26 carbons (from)? (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (to (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (of)?) (of)? N of NP between about 25 to 50 weight percent of the 3-(ptrifluoromethylphenoxy)-N-methyl-3-phenylpropylamine (from between in amount of)? (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? ((to and) (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)?) (of)? N of NP (MU)? about one part by weight hydroxypropylcellulose (from between in amount of)? (PREMOD){0,2} CD (of DT CD)? (CDPOST)? ((to and) (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)?) (of)? N of NP about 0.1 percent to about 5 percent by weight of N- trichloromethylthio-4-cyclohexene-1,2-dicarboximide (from between in amount of)? (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP a ph in the approximate range of from 4.5 to 6.5 (in (DT)? (range amount) of)? (from between)? (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP 15
16 aspirin crystals mesh in size (in (DT)? (range amount) of)? (from between)? (PREMOD){0,2} CD(- CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP aspirin granules [ ]generally within a range of between about mg and about 1,000.0 mg ((in within) (DT)? (range amount) of)? (from between)? (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP in a relative amount of 50% to 20% by weight ((in within) (DT)? (JJ)? (range amount) of)? (from between)? (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP a viscosity of 0.5 to 20 centipoise (N of)? ((in within) (DT)? (JJ)? (range amount) of)? (from between)? (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP a covalent coating of 1-2% methicone by weight (N of)? ((in within) (DT)? (JJ)? (range amount) of)? (from between)? (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP (MUPOST)? particle size percentage 5 Îźm or more and less than 100 Îźm (N (of)?)? ((in within) (DT)? (JJ)? (range amount) of)? (from between)? (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP (MUPOST)? an IC 50 ratio of about 0.1 or greater 16
17 (N (of)?)? ((in within)? (DT)? (JJ)? (range amount ratio) of)? (from between)? (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP (MUPOST)? a therapeutically effective amount of a carbocyclically (N (of)?)? ((in within)? (DT)? (RB)? (JJ)? QUNDET)? (from between)? (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)? ((to and) (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?) (of)? N of NP (MUPOST)? Egyszerűsítés után: (N (of)?)? ((in within)? (DT)? (RB)? (JJ)? QUNDET)? (from between)? ((to and)? (PREMOD (and)?){0,2} CD(-CD)? (of DT CD)? (CDPOST)? (MU)? (MUPOST)?){1,2} (of)? N of NP (MUPOST)? in a 3:1 water/composition weight ratio in a CD:CD N/N (weight volume) ratio in a ratio of paracetamol to calcium carbonate of 3.0:1.0 to 30.0:1.0 in a (CD:CD N/N (weight volume)?)? ratio (of N to N of CD:CD to CD:CD)? JJ: relative, effective, therapeutic RB: therapeutically Az első verzióban reguláris kifejezéssel nyertük ki a mennyiségjelzőket, de később kiderült, hogy hasznosabb lenne egy CFG-nyelvtannal, mert a mennyiségjelzők összetettsége azt kívánja meg, hogy a mennyiségjelzők struktúráját is átlássuk. A mennyiségjelzők CFG-szabályai a mag NP-k leírásában (4.9. tanulmány) találhatóak meg, mert ezen szabályok illesztése egy modulban található a MagNP-k szabályaival. Szemantikai szempontból viszont a mennyiségjelzős szerkezetek problémát okozhatnak. Ha egy szabadalmi keresőbe beírjuk, hogy olyan összetételeket keresünk, amelyben 0,5 gramm Arginine található, akkor az beleesik-e például a kb. 1 grammtól kb. 5 grammig terjedő tartományba? A körülbelül szónak így meg kell adni egy viszonylag széles tartományt, amelybe biztosan belefér a keresett elem, de felesleges találatokat nem ad. A mennyiségjelzős szerkezetek esetében a felismerési problémát az okozza legtöbbször, hogy a mennyiséget kifejező tag túl messzire kerül a hozzá tartozó 17
18 főnévtől, így azok összekötése nehézzé válik. Vannak olyan esetek, amikor csak a be ige ragozott alakjai kerülnek be a mennyiségjelző és a hozzá tartozó főnév közé: the weight ratio of xanthan to guar gum [being] from 1:3 to 1:10 the weight ratio of crystals to carrier [is] 2-99% Ezen esetekben a be elhagyásával a mennyiségjelző könnyen összeköthető. Azonban vannak olyan esetek, ahol a mennyiségjelzők és a hozzájuk tartozó főnevek nagyon messzire elkerülnek egymástól. Az alábbi két példa is ezt szemlélteti: the sodium bicarbonate being incorporated in the toothpaste in an amount of at least 60% by weight the ratio of the components is as follows (wt. %): TBL natural minerals vegetable stock water the balance. Az első esetben a legalább 60 tömeg% a nátrium-bikarbonátra vonatkozik, de közéjük beékelődik még az, hogy ez az arány miben található, nevezetesen a fogkrémben. A második egy elég extrém példa, és szerencsére ritka is. Itt a mértékegység zárójelben kikerül előre, és egy felsorolásban következik utána az összetevők listája, majd azok mennyisége (már mértékegység nélkül). A természetes ásványok tömegszázaléka 33-62, a zöldségéé 34-61, a többi pedig víz. A felsorolásoknál tovább nehezíti a dolgot, hogy ebben az esetben sincs vessző a felsorolások tagjai között. Gyakori probléma még, hogy a szöveges formátum nem mindig megfelelő: például táblázatokból egyszerű szövegek keletkeznek, a sorok és oszlopok összemosódásával. Ezekben az esetekben a mennyiségeket még nehezebb összekapcsolni a főnévvel. Erre példa az alábbi táblázat, amelynek szöveges változatát alatta közöljük: particle size percentage 5 µm or more and less than 100 µm 5 to 30% 100 µm or more and less than 300 µm 10 to 40% 300 µm or more and less than 500 µm 10 to 50% 500 µm or more and less than 1000 µm balance particle size percentage 5 µm or more and less than 100 µm 5 to 30% 100 µm or more and less than 300 µm 10 to 40% 300 µm or more and less than 500 µm 10 to 50% 500 µm or more and less than 1000 µm balance 18
19 Ebben a példában a részecskemérethez tartoznak az alatta lévő elemek, és a százalékhoz az abban az oszlopban található mértékek, a folyó szövegben viszont ezt nehéz összepárosítani. A kvantitatív szerkezetek felismerésében egy másik nagyobb problémát a létező mértékegységek nagy száma jelenti. További probléma, hogy a mértékegységek gyakran rövidített alakjukban szerepelnek, melyek igen gyakran csak 1-2 karakterből állnak, ami többértelműségekhez vezethet (pl. az mg betűsor kis- és nagybetűket nem megkülönböztetve lehet a magnézium vegyjele is és milligramm is, a C pedig lehet Celsius-fok és a szén vegyjele is, vö. Agatonovic et al. (2008) és Nyilas et al. (2010)). 4.8 A MagNP-k felismerése Jelenleg a MagNP-ket és a mennyiségjelzőket is CFG-nyelvtannal gyűjtjük ki bottom-up módszerrel, azaz először a legkisebb elemeket találjuk meg, majd azokat nagyobb egységekbe unifikáljuk. A perdurant főnevek nem lehetnek MagNP-k fejei, így azokat szűrjük. A relatív mennyiségjelzőket a szintaktikai elemzésben nem különítjük el az abszolút mennyiségjelzőktől. A lenti szabályok illesztésével kapjuk meg a magnp-ket. Minden egyes frázist egy olyan annotációs sémában tárolunk, amely minden elemre egységes információkat tartalmaz. Ezt az annotációt AnnotationMaSzeKernek neveztük el, és az alábbi elemekből áll: annotation: a frázis neve (AmountP, magnp stb.) begin: a kezdő karakterpozíció end: a záró karakterpozíció componentaddr: az összetevők címei (a címek a programozási feladathoz kellenek, a könnyebb visszakeresés végett) components: az összetevők nevei componentpos: az összetevők kezdő és záró pozíciója a megfelelő sorrendben numberofcomponents: az összetevők száma, hány elemből áll össze A MagNP-k elemzéséről l. részletesen 4.9. tanulmányban. 4.9 Kulcsok Egy szabadalom főigénypontja általában egy többszörösen összetett, nagyon nehezen elemezhető mondat sok alá- és mellérendeléssel. Ezeknek a nem ritkán több mint száz szavas mondatoknak a gépi elemzése a jelenlegi elemzők 19
20 segítségével nem lehetséges. Olyan megoldást kellett találnunk, amely segítségével e mondatokat olyan elemi mondattöredékekre tudjuk bontani, melyek elemezhetőek gépi algoritmusok segítségével. Ezért az utómódosítók, valamint a mellékmondatok kezdetét kulcsokkal jeleztük. Kulcs alatt általánosan a feldolgozott szövegnek azokat a szakaszait értjük, ahol a módosító-módosított főnév viszony jelenléte pusztán formai alapon felismerhető. A kulcsok egy első és egy második részből épülnek fel. Kulcs type: first Token type: first *.. Kulcs type: second 1. ábra. A kulcsok felépítése. Egyszerű kulcs: Az egymást követő kulcsok jelölésére szolgál abban az esetben, ha a kulcs első részéhez nem kapcsolódik távoli második típusú kulcs. Például: substance which, group consisting. Összetett kulcs: Összetett kulcsról beszélünk, ha a kulcs első és második tagja nem közvetlenül követi egymást, vagy a kulcs első részéhez több második rész is tartozik. Például: an aqueous liquid carrier consisting essentially of sorbitol as humectant and, proportioned therewith to provide a creamy or gel consistency. Beágyazott kulcs: Minden olyan esetben alkalmazandó, ahol nem érvényesíthető a következő szabály: Összetett kulcs második részét mindig az előtte álló összetett kulcs első részéhez kell kötni. A beágyazott kulcsok egymással sorfolytonosan balról jobbra, kettesével kötendők össze és feldolgozásuk megelőzi az összetett kulcsét. Például: A method for the treatment of systemic infection diseases, such as pneumonia, tuberculosis, peritonitis, endocarditis, pyelonephritis, meningitis or septicemia, caused by bacterial or protozoal infection, comprising:. A kulcsokat két osztályba soroljuk felismerhetőségük alapján: Egymást követő kulcs, ezen kulcspárok egésze (első és második részük is) egyből felismerhető. A következő esetekben tekinthető kulcsnak két egymást követő token (a lenti felsorolásban a Stanford szófaji egyértelműsítő (Klein-Manning 2003) jelölésrendszerét használjuk): N + postmodifier N + to + VB/VBP N + JJ + Prep 20
21 N + (WDT WP WP$) Csak az elemzés későbbi részében felismerhető kulcspárok, ezen kulcspároknál csak a kulcs második része ismerhető föl pusztán formai jelek alapján. E kulcsok első része az elemzés későbbi részében ismerhető föl, illetve keresendő meg. A következő esetekben tekinthető kulcsnak (kulcs második részének) egy token: whose which, ha előtte, vagy ; van, vagy and tokenek állnak Minden VBN szófaji kóddal rendelkező token, ha megelőzi egy, vagy ; A következő szavak: comprising having consisting being including, ha megelőzi őket egy, vagy ; vagy az and A mintakorpusszal összehasonlítva a kulcsok azonosítására kidolgozott eljárást az alábbi mérőszámokat kaptuk. 1. táblázat: A kulcsok felismerésének eredményei Pontosság Fedés F-mérték Kulcsok 75.47% 75.59% 75.53% megszorítás nélkül (teljes kulcs): Csak a kulcs 70.61% 71.09% 70.85% első része: Csak a kulcs második része: % % 78.16% A fenti értékekből is látszik, hogy az algoritmus a kulcsok első felének detektálásakor hibázik többet, míg a kulcsok második felét valamivel jobban képes detektálni. A kapott értékek növelése egy bizonyos szintig megoldható további szabályok bevezetésével. 21
22 5 A parser A tokenek közti nyelvészeti kapcsolatokat jelölő modul működését az alábbiakban ismertetjük. A parser algoritmusában van egy olyan ág, amelyben az adott fejnek meg kell keresni az összes lehetséges vonzatát, ehhez segítségül az elkészült igei és főnévi vonzatkerettárat használjuk (Klausz et al. 2010). Vonzatként itt most csak a fej után álló elemek jöhetnek szóba. (alany nem). Ehhez készült el a Complement Annotator modul, amely a MagNP-k kijelölése után fut le, tehát már bemenetként tartalmazza az összes MagNP-t, valamint a Perdurant jelentésű főnevek listáját. A perdurant főnevek kijelöléséhez nem használunk algoritmust, a tanulókorpuszt használjuk fel. A modul az alábbi lépéseket hajtja végre: Az illesztés algoritmusa 1. Vesszük az összes MagNP-t. ha van előtte prepozíció, akkor azzal összekötjük, és elnevezzük a prepozíció neve-complement formában. (pl. for-complement) ha nincs előtte, akkor noprep-complement névre kereszteljük 2. A prepozíció+vbg vagy a csak VBG összetételű (pl. a means for allaying drunkenness) kapcsolatokat kijelöljük, és szintén a prepozíció neve alapján elnevezzük (pl. for-complement) 3. Vesszük az összes fejjelöltet, tehát az alábbi elemeket: MagNP VBG VBN VB VBP AP PerdurantNP-ket (tehát a perdurant fejű főnévi csoportokat) Ezeket mind bejelöljük fejnek. Perdurant jelentésű főnévnek azokat a főneveket vettük, amelyeknek lehet szabad bővítményük, tehát úgy vesszük, mintha igék lennének. A legutóbbi megbeszélésen hangzott el az, hogy a szabad prepozíciós vonzatokat nem a főnévhez, hanem az igei fejhez kötjük. 4. Végiglépkedünk a komplementumokon, és azokhoz párosítjuk a fejeket. Az alábbi algoritmus szerint: 5. Az adott komplementumhoz tartozó fej kijelölésénél első jelölt a közvetlenül előtte álló fej. Ha a fej MagNP, annak nem lehet prepozíció nélküli főnévi vonzata. Ha a fej VBN, annak szintén nem lehet főnévi fej vonzata (csak prepozíciós) 22
23 Ha a fej MagNP, a komplementumjelölt pedig prepozíciós frázis, akkor ellenőrizzük, hogy annak a főnévnek lehet-e olyan vonzata. Ha nem, akkor azt elvetjük. Egyéb esetben összekötjük. A noprep-complement elnevezést átírjuk obj-complement címkékre, ha a prepozíció nélküli MagNP előtt VB, VBZ, VBP vagy VBG tagú fejjelölt található. Fontos megjegyezni, hogy MagNP-ket illesztünk a vonzatkerettárban, nem főnévi fejet. A főnévi fejek kinyeréséhez a MagNP-ket a CFG-nyelvtan visszavezetésével kapjuk meg. Ehhez rekurzív mélységi fabejáró algoritmust használunk. Ekkor megkapjuk a főnévi fejet, amelyet kikeresünk a vonzatkerettárból. 6. Ha az adott komplementum még nincs összekötve fejjel, akkor az előtte lévő fejnek nem vonzata. Ekkor a következő lépéseket hajtjuk végre: A fejek listáján lépkedünk visszafele. Az 5-ös pontban lévő ellenőrzéseket végrehajtjuk az előtte lévő fejeken, egészen addig, amíg olyan fejhez nem érünk, amelynek az adott komplementum a vonzata. A felsorolások okozzák a legtöbb problémát. Egyelőre az elsőszintű felsorolásokkal foglalkozunk. Végiglépkedünk a noprep-complement elemeken. Ezek azért problémásak, mert az angol szabadalmakban nem ismételjük meg a prepozíciót, ha a felsorolás tagjai ugyanazon fejhez tartoznak, ergó néha több fejhez is lehetne kötni. Ekkor megkeressük az azt megelőző legközelebbi komplementumot, amelyhez már van kötve fej. Ekkor a felsorolás kérdéses elemét ehhez a fejhez kötjük. 23
24 6 Problémák és megoldások A korábban már említett perdurantok vonztaiank kezelése és a felsorolásokban felbukknaó problémákon kívül néhány további esetben is szükséges volt kézi szabályokkal javítani a szintaktikai elemzés kimenetét. Ezeket az alábbiakban ismertetjük. 6.1 Adjunktumok A köznyelvhez képest szerencsére igen kevés az adjunktumok száma a szabadalmak igen kötött nyelvezetének köszönhetően (csak azt mondják, ami feltétlenül szükséges, azt viszont pontosan). Néhány esetben azonban különös figyelmet igényelt az adjunktumok kezelése. Az optionally gyakorlatilag vagy-szerű logikai operátorként viselkedik (valami vagy megtörténik, vagy nem), ezért a szemantikai elemzés során erre hangsúlyt kell fektetni. Egy példa: C.sub.6-C.sub.10-arylthio which is optionally substituted by nitro, amino, C.sub.1-C.sub.6-alkyl or C.sub.1-C.sub.4-alkoxy A példában a C.sub.6-C.sub.10-arylthio helyett állhat vagy nitro, vagy amino, vagy C.sub.1-C.sub.6-alkyl vagy C.sub.1-C.sub.4-alkoxy. Egy másik lehetséges problémaforrás, hogy a szabad határozó néha az ige és a vonzata között helyezkedik el: consisting essentially of a purified mineral composition and optional excipients Ez a vonzatkeret illesztése miatt okozhat problémákat, de néhány szabály segítségével áthidalható, szemantikai szinten pedig az ilyen módon az igéhez kapcsolódó legtöbb határozó jelentése elhanyagolható a mondat szempontjából. A PP-bővítmények (during a sport activity, without a tabletting excipient ) vagy az előtte levő NP részei (ill. a főnévi fej bővítményei), vagy pedig az igéhez kapcsolódnak. Ennek eldöntése igen nehéz, sokszor még az ember számára sem egyértelmű. A főnevekhez készítendő vonzatkerettárat kellett ilyen esetekben segítségül hívni (ha a főnévi fejhez egy adott prepozíciót tartalmazó PP kapcsolódik, akkor a főnév bővítményeként kezeljük, ha nem, akkor az igéhez tartozóként), vö. Klausz et al. (2010). Bizonyos, jelzőket módosító határozószavak (pharmaceutically, substantially, dermatologically, therapeutically ) gyakran kollokációszerűen viselkednek: a dermatologically acceptable carrier 24
25 a therapeutically effective amount of a compound of Formula I a pharmaceutically acceptable salt thereof Ezeket egységként vettük fel a szótárban. 6.2 Sajátos fordulatok A szabadalmak szókincsének jellegzetes elemei bizonyos szófordulatok (said, a plurality of ), melyek nem feltétlenül találhatók meg egy általános célú szótárban, így ezeket külön fel kell venni, illetve a (szintaktikai) kezelésükre külön szabályokat kell írni. Például a fenti said jelző anaforikusan utal vissza egy, a szabadalmi igénypont szövegében már korábban megemlített entitásra, így anaforikus elemként érdemes kezelni. Az a plurality of típusú szerkezetek szemantikailag átlátszóak, noha szintaktikailag a plurality számít a kifejezés fejének, szemantikai szinten az of prepozíció bővítménye játszik csak fontos szerepet: A vitamin supplement to temporarily enhance the abilities of a individual during a sport activity comprising a plurality of B family vitamins and one or more other vitamins, minerals, and/or natural ingredients. Ebből következően a mondat szemantikai reprezentációjában az a plurality of nyelvi kifejezés nem is szerepel. 6.3 Összetételek Az elemzés során problémát okozhatnak a halmozott NP-szerkezetek, ezen belül is különösen az előmódosítók. Mint fentebb említettük, a szabadalmi szövegekre kifejezetten jellemző a tömörség, az informativitásra való törekvés, ami többek között a rendkívül hosszú mondatokban, szószerkezetekben nyilvánulhat meg. Ráadásul az angol nyelvben a főnévi előmódosítók számának csupán az érthetőségi korlátok szabnak határt. A több, közvetlenül egymás után álló főnév a gépi elemzés során elsősorban szegmentálási problémát jelenthet. Többek között az N + ADJ + N szerkezetű magnp-k okozhatnak ilyen problémát, mivel a szerkezeti elemzésük többféleképpen történhet. Alapvetően kétféle variáció állhat fenn: a középső elem, azaz a melléknévi alak vagy az előtte álló főnévhez kapcsolódhat szorosabban, vagy az utána állóhoz. Az utóbbi esetben az N + ADJ szerkezetű NP-nek az első főnév az előmódosítója: [N + [ADJ + N]. A gépi elemző általában ezt a szegmentálási variációt használja alapértelmezésként. Azonban vannak esetek, amikor az N + ADJ + N szerkezet mellékneve bár szintén az utána álló főnév előmódosítója az előtte álló főnévhez szorosabban 25
26 kapcsolódik, mivel a vele alkotott jelzői módosító feje. (Itt az első főnév az előmódosító előmódosítója): [[ N + ADJ] + N], pl. [[silicone conditioning] oil]. Ilyen esetekben a szintaktikai elemzés során a melléknév után kell részekre bontani az NP-t. (Amennyiben névelő áll a második főnév előtt, egyértelmű, hogy a melléknevet az előtte álló főnévhez kell kapcsolni.) A szóban forgó melléknévi alakok lehetnek ing végződésűek, illetve past participle alakúak. Az előbbiek többnyire tárgyas igéből képzett folyamatos melléknévi igenevek, pl. containing, vagy tárgyas igéből képzett melléknevek, pl. (ph-)responsive, (bio-)absorbable, de lehetnek egyszerű melléknevek is, pl. (sodium- )free. A past participle alakúak szintén tárgyas igéből képzettek: (diabetes- )associated, (lipoprotein receptor-)related. A fentebbieken kívül kétértelműek lehetnek még az ADJ + ADJ + N szerkezetű szóösszetételek is, amelyeket [ADJ + [ADJ + N]] szerkezetként (pl. substituted lower alkyl, inorganic metal oxide) és [[ ADJ + ADJ] + N] szerkezetként (vascular-related diseases) is lehet értelmezni. A melléknevet tartalmazó előmódosítókban az első elem lehet számosságra utaló elem is, ami szintén azt a problémát veti fel, hogy hova kapcsoljuk az utána álló melléknevet abban az esetben, ha nincs kötőjel az elemek között, pl. pentasubstituted C1-C12 alkyl, three- to seven-membered alkylene bridge. 26
27 7 Összegzés A tanulmányban bemutattuk az angol nyelvű szabadalmak elemzésére szolgáló rendszerünk nyelvészeti komponenseit. Ismertettük a szabadalmak nyelvi sajátosságait és az azokból fakadó elemzési problémákat. Utóbbiakra számos szabályalapú megoldást dolgoztunk ki, melyek segítségével az elemző algoritmusunk mind pontosság, mind fedés terén (azaz F-mértéket tekintve is) számottevő javulást mutatott. A jövőben az algoritmus további tökéletesítése, illetve a most még nem megoldott problémák (pl. felsorolások) kielégítő kezelése a célunk. Bibliográfia Agatonovic, M., Aswani, N., Bontcheva, K., Cunningham, H., Heitz, T., Li, Y., Roberts, I., Tablan, V.: Large-scale, Parallel Automatic Patent Annotation. In: Proceedings of 1st International CIKM Workshop on Patent Information Retrieval - PaIR'08. Napa Valley, California, USA (2008) Farkas, R., Vincze, V., Móra, Gy., Csirik, J., Szarvas, Gy.: The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text. In: Proceedings of the Fourteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics, Uppsala (2010) 1 12 Kiss M., Nagy Á.: Egy nyelvészeti UIMA folyamat a kézi annotálástól az eredmények megjelenítéséig. In: Tanács A., Vincze V. (szerk.): VII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2010) Klausz Á., Vincze V., Nagy Á., Almási A.: Vonzatkeretek vizsgálata orvostudományi tárgyú, angol nyelvű szabadalmi szövegeken. In: Tanács A., Vincze V. (szerk.): VII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2010) Klein, D., Manning, C. D.: Accurate Unlexicalized Parsing. In: Proceedings of the 41st Meeting of the Association for Computational Linguistics (2003) Nyilas S., Németh G., Almási A.: Szótáralapú kémiai NE-felismerő rendszer. In: Tanács A., Vincze V. (szerk.): VII. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2010) Osenga, K.: Linguistics and patent claim construction. Rutgers Law Journal Vol. 38, No. 61 (2006) Ungváry R.: Az ontológiák legfelső generikus szintje, a csúcsfogalmak természetes rendszere és a DOLCE kritikája. In: Alexin Z., Csendes D. (szerk.): MSzNy 2006 IV. Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, Szeged (2006)
Nyelvészeti problémák a szabadalmak feldolgozásában
168 VII. Magyar Számítógépes Nyelvészeti Konferencia Nyelvészeti problémák a szabadalmak feldolgozásában Vincze Veronika 1, Nagy Ágoston 1, Klausz Ágnes 1, Almási Attila 1, Kiss Márton 1 1 Szegedi Tudományegyetem,
Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu
VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK
Szótáralapú kémiai NE-felismer rendszer
Szeged, 2010. december 2 3. 379 Szótáralapú kémiai NE-felismer rendszer Nyilas Sándor, Németh Gábor, Almási Attila Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged, Árpád tér 2. {nyilasster,
Magyar nyelvű néprajzi keresőrendszer
Szeged, 2013. január 7 8. 361 Magyar nyelvű néprajzi keresőrendszer Zsibrita János 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport zsibrita@inf.u-szeged.hu 2 MTA-SZTE Mesterséges
Különírás-egybeírás automatikusan
Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
A magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
Igekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
Vonzatkeretek vizsgálata orvostudományi tárgyú, angol nyelv szabadalmi szövegeken
180 VII. Magyar Számítógépes Nyelvészeti Konferencia Vonzatkeretek vizsgálata orvostudományi tárgyú, angol nyelv szabadalmi szövegeken Klausz Ágnes, Vincze Veronika, Nagy Ágoston, Almási Attila Szegedi
A Mazsola KORPUSZLEKÉRDEZŐ
A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1
dr.xlsx A programról Szövegműveletekhez használható függvények
dr.xlsx A programról A CD struktúrája A CD 9 munkafüzetben mutatja be a Microsoft Excel 2003, 2007 és 2010 függvényeit. Az egyes munkafüzetek a "tartalom" munkafüzetből érhetők el a munkafüzet nevére kattintással.
Ismeretlen kifejezések és a szófaji egyértelm sítés
Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,
Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.
Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
a Szeged FC Treebankben
Szeged, 2014. január 16 17. 67 Többszintű szintaktikai reprezentáció kialakítása a Szeged FC Treebankben Simkó Katalin Ilona 1, Vincze Veronika 2, Farkas Richárd 1 1 Szegedi Tudományegyetem, TTIK, Informatikai
AWK programozás, minták, vezérlési szerkezetek
10 AWK programozás, minták, vezérlési szerkezetek AWK adatvezérelt szkriptnyelv text processing, adat kiterjesztés, tagolt adatok automatizált soronkénti feldolgozása a forrásállományt soronként beolvassa
AWK programozás Bevezetés
09 AWK programozás Bevezetés AWK adatvezérelt szkriptnyelv text processing, adat kiterjesztés, tagolt adatok automatizált soronkénti feldolgozása a forrásállományt soronként beolvassa és feldolgozhatóvá
MORFOLÓGIAI FELÉPÍTÉS
A SZÓÖSSZETÉTEL SZÓÖSSZETÉTEL Két vagy több szóalak összekapcsolásával hozunk létre új lexémát Tudatos szóalkotás és véletlenszerű keletkezés Létrejöttüket nemcsak szintaktikai szabályok, hanem szemantikai,
A szótárról. 1. Mi ez?
A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.
Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok
Lexikon és nyelvtechnológia Földesi András /
Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.
Tartalomjegyzék. Tartalomjegyzék
Tartalomjegyzék A főnév 11 Kis és nagy kezdőbetűk 11 A főnevek neme 12 A főnevek többes száma 13 Nem megszámlálható főnevek 15 Csak többes számban használatos főnevek 16 Foglalkozások 17 Címek, rangok,
Honlap szerkesztés Google Tudós alkalmazásával
Dr. Mester Gyula Honlap szerkesztés Google Tudós alkalmazásával Összefoglaló: A közlemény tematikája honlap szerkesztés Google Tudós alkalmazásával. A bevezetés után a tudományos teljesítmény mérésének
Az igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
A kétféle igemódosítóról
KIEFER FERENC A kétféle igemódosítóról Preverbs in Hungarian have two important properties which distinguish them from other elements in the sentence: (i) they occupy the position immediately preceding
Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED AWK - szintaxis, vezérlési szerkezetek Operációs rendszerek 11. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik
Szakterületi modell A fogalmak megjelenítése. 9. fejezet Applying UML and Patterns Craig Larman
Szakterületi modell A fogalmak megjelenítése 9. fejezet Applying UML and Patterns Craig Larman 1 Néhány megjegyzés a diagramokhoz Ez a tárgy a rendszer elemzésről és modellezésről szól. Noha például egy
MODELLALAPÚ SZEMANTIKUS KERESŐ RENDSZER KIDOLGOZÁSA
TECH_08_A2/2-2008-0092 MODELLALAPÚ SZEMANTIKUS KERESŐ RENDSZER KIDOLGOZÁSA IDŐKÖZI SZAKMAI BESZÁMOLÓ 3. SZAKASZ SZÓEGYÉRTELMŰSÍTŐ (WSD) MODUL KIDOLGOZÁSA Alkalmazott Logikai Laboratórium Szegedi Tudományegyetem
Tartalomjegyzék. Bevezetés Az ige mondatalkotó képessége. 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében.
Tartalomjegyzék Bevezetés 13 1. Az ige mondatalkotó képessége 15 2. Az Objekt"-ek sorrendje főnevek, ill. névmások esetében 17 18 3. Néhány gyakori, Prapositionalobjekt"-tel mondatot alkotó ige 23 4. Névmási
Mára új helyzet alakult ki: a korábbiakhoz képest nagyságrendekkel komplexebb
Iskolakultúra 2004/8 Nagy József ny. egyetemi tanár, Szegedi Tudományegyetem, Szeged Az elemi kombinatív képesség kialakulásának kritériumorientált diagnosztikus feltárása tanulmány Ha beírjuk a számítógép
Egyirányban láncolt lista
Egyirányban láncolt lista A tárhely (listaelem) az adatelem értékén kívül egy mutatót tartalmaz, amely a következő listaelem címét tartalmazza. A láncolt lista első elemének címét egy, a láncszerkezeten
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged
Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt
Tartalomjegyzék. Tartalomjegyzék. A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17
A főnév 10 A főnevek neme 10 A főnevek többes száma 14 A főnév a mondatban 16 Gyakorlatok 17 A főnév szószerkezetekben 20 A névelő 21 Gyakorlatok 26 A hangsúlytalan mutató névmással álló főnév 28 A birtokos
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
Klasszikus héber nyelv 4.: Szintaxis
Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2016. november 16. Félévközi ZH 45 perc open-book, Arnold-Choi 2 3. Témaválasztás házi dolgozatra Témaválasztás házi dolgozatra
Elliptikus listák jogszabályszövegekben
Szeged, 2015. január 15 16. 273 Elliptikus listák jogszabályszövegekben Hamp Gábor 1, Syi 1, Markovich Réka 2,3 1 BME Szociológia és Kommunikáció Tanszék 1111 Budapest, Egry József u. 1. hampg@eik.bme.hu,
A továbbiakban Y = {0, 1}, azaz minden szóhoz egy bináris sorozatot rendelünk
1. Kódelmélet Legyen X = {x 1,..., x n } egy véges, nemüres halmaz. X-et ábécének, elemeit betűknek hívjuk. Az X elemeiből képzett v = y 1... y m sorozatokat X feletti szavaknak nevezzük; egy szó hosszán
Operációs rendszerek. 10. gyakorlat. AWK - bevezetés UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED AWK - bevezetés Operációs rendszerek 10. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor 1 / 15 Reguláris
Angol C2 1 1 060. nyelvi programkövetelmény. A javaslattevő alapadatai. A nyelvi képzésre vonatkozó adatok. 960 óra + 180/300 OP
Angol C2 1 1 060 nyelvi programkövetelmény A javaslattevő alapadatai Javaslatot benyújtó neve Tudományos Ismeretterjesztő Társulat A nyelvi képzésre vonatkozó adatok Nyelv megnevezése Nyelvi képzés szintje
Operációs Rendszerek II. labor. 2. alkalom
Operációs Rendszerek II. labor 2. alkalom Mai témák (e)grep Shell programozás (részletesebben, példákon keresztül) grep Alapvető működés: mintákat keres a bemeneti csatorna (STDIN vagy fájl) soraiban,
Klasszikus héber nyelv 4.: Szintaxis
Klasszikus héber nyelv 4.: Szintaxis BBN-HEB11-204 Koltai Kornélia, Biró Tamás 2015. november 25. Témaválasztás házi dolgozatra (ע "ו ( igeragozás Ismétlés: Mondatok: Arnold & Choi 5. rész A mondat belső
Relációs algebra áttekintés és egy táblára vonatkozó lekérdezések
Relációs algebra áttekintés és egy táblára vonatkozó lekérdezések Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 2.4. Relációs algebra (áttekintés) 5.1.
MAGYAR MINT IDEGEN NYELV
Magyar mint idegen nyelv emelt szint 0911 ÉRETTSÉGI VIZSGA 2009. október 19. MAGYAR MINT IDEGEN NYELV EMELT SZINTŰ ÍRÁSBELI ÉRETTSÉGI VIZSGA JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ OKTATÁSI ÉS KULTURÁLIS MINISZTÉRIUM
PÁRHUZAMOS IGEI SZERKEZETEK
PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK
9. előadás Környezetfüggetlen nyelvek
9. előadás Környezetfüggetlen nyelvek Dr. Kallós Gábor 2015 2016 1 Tartalom Bevezetés CF nyelv példák Nyelvek és nyelvtanok egy- és többértelműsége Bal- és jobboldali levezetések A fák magassága és határa
Jegyzőkönyv. Készült: Szeged Megyei Jogú Város Közgyűlése Oktatási Bizottságának 2013. 05. 15-én tartott ülésén.
Jegyzőkönyv Készült: Szeged Megyei Jogú Város Közgyűlése Oktatási Bizottságának 2013. 05. 15-én tartott ülésén. Jelen vannak: Pocsai Blanka, a bizottság elnöke, Dr. Révész Mihály, a bizottság alelnöke,
Magyar nyelvtan tanmenet 4. osztály
COMENIUS ANGOL-MAGYAR KÉT TANÍTÁSI NYELVŰ ÁLTALÁNOS ISKOLA Magyar nyelvtan tanmenet 4. osztály 2013/2014 Tanítók: Tóth Mária, Buruncz Nóra Tankönyvcsalád: Nemzeti Tankönyvkiadó Anyanyelvünk világa 4. osztály
Mesterséges intelligencia, 7. előadás 2008. október 13. Készítette: Masa Tibor (KPM V.)
Mesterséges intelligencia, 7. előadás 2008. október 13. Készítette: Masa Tibor (KPM V.) Bizonytalanságkezelés: Az eddig vizsgáltakhoz képest teljesen más világ. A korábbi problémák nagy része logikai,
A fordítóprogramok szerkezete. Kódoptimalizálás. A kódoptimalizálás célja. A szintézis menete valójában. Kódoptimalizálási lépések osztályozása
A fordítóprogramok szerkezete Forrásprogram Forrás-kezelő (source handler) Kódoptimalizálás Fordítóprogramok előadás (A,C,T szakirány) Lexikális elemző (scanner) Szintaktikus elemző (parser) Szemantikus
AWK programozás, minták, vezérlési szerkezetek
10 AWK programozás, minták, vezérlési szerkezetek AWK futtatási módok AWK parancs, közvetlen programkódmegadás: awk 'PROGRAMKÓD' FILE példa: ls -l awk '{print $1, $5}' a programkód helyére minden indentálás
Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint
MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori
Írásjelek helyes szedése. Szabó Csaba. Mondatvégi írásjelek. Központozás. Kötőjelfélék. Szabó Csaba november 18.
2008. november 18. A magyar nyelvben a mondatok modalitásának kifejezésére mondatvégi et használunk. Kijelentő mondat esetén pontot (.). A magyar nyelvben a mondatok modalitásának kifejezésére mondatvégi
Miért olyan fontos a minıségi pont?
A fiókban látható konkrét minıségi pont értékek egy olyan általános számítás eredményei, ami a kulcsszó tökéletes egyezése esetére érvényesek. Miért olyan fontos a minıségi pont? A minıségi pont három
Angol C2 1 1 091 nyelvi programkövetelmény
Angol C2 1 1 091 nyelvi programkövetelmény A javaslattevő alapadatai Javaslatot benyújtó neve Nyelviskolák Szakmai Egyesülete A nyelvi képzésre vonatkozó adatok Nyelv megnevezése Nyelvi képzés szintje
II. Mérés SZÉCHENYI ISTVÁN EGYETEM GYŐR TÁVKÖZLÉSI TANSZÉK
Mérési Utasítás Linux/Unix jogosultságok és fájlok kezelése Linux fájlrendszerek és jogosultságok Linux alatt, az egyes fájlokhoz való hozzáférések szabályozása érdekében a fájlokhoz tulajdonost, csoportot
Knoch László: Információelmélet LOGIKA
Mi az ítélet? Az ítélet olyan mondat, amely vagy igaz, vagy hamis. Azt, hogy az adott ítélet igaz vagy hamis, az ítélet logikai értékének nevezzük. Jelölése: i igaz h hamis A 2 páros és prím. Logikai értéke
Bevezetés az e-magyar programcsomag használatába
Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések
I. ANALITIKAI ADATOK MEGADÁSA, KONVERZIÓK
I. ANALITIKAI ADATOK MEGADÁSA, KONVERZIÓK I.2. Konverziók Geokémiai vizsgálatok során gyakran kényszerülünk arra, hogy különböző kémiai koncentrációegységben megadott adatokat hasonlítsunk össze vagy alakítsuk
SZAKÁLL SÁNDOR, ÁsVÁNY- És kőzettan ALAPJAI
SZAKÁLL SÁNDOR, ÁsVÁNY- És kőzettan ALAPJAI 30 Műszeres ÁSVÁNYHATÁROZÁS XXX. Műszeres ÁsVÁNYHATÁROZÁs 1. BEVEZETÉs Az ásványok természetes úton, a kémiai elemek kombinálódásával keletkezett (és ma is keletkező),
EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ
EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ SZERKEZETEK KINYERÉSE KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet Budapest, 2011. június 16. 1 / 33 1 MAGYAR IGEI SZERKEZETEK Alapmodell és
ZÁRÓDOLGOZATI TÁJÉKOZTATÓ
ZÁRÓDOLGOZATI TÁJÉKOZTATÓ 54 481 02 Gazdasági informatikus szakképesítés 1. Tartalmi követelmények A jelölt záródolgozatként egy vállalat/vállalkozás rendszerének/alrendszerének elemző bemutatását végzi
BASH SCRIPT SHELL JEGYZETEK
BASH SCRIPT SHELL JEGYZETEK 1 TARTALOM Paraméterek... 4 Változók... 4 Környezeti változók... 4 Szűrők... 4 grep... 4 sed... 5 cut... 5 head, tail... 5 Reguláris kifejezések... 6 *... 6 +... 6?... 6 {m,n}...
NYILVÁNOS KÖNYVTÁRI KATALÓGUSOK
NYILVÁNOS KÖNYVTÁRI KATALÓGUSOK A bibliográfiák rendszerező jegyzékek, amelyek a dokumentumokról készült leírásokat, valamilyen nézőpont vagy elv alapján egységben láttatják, értelmezik, visszakereshetővé
1. A kutatás célja, a munkatervben vállalt kutatási program ismertetése
1 1. A kutatás célja, a munkatervben vállalt kutatási program ismertetése A kutatás célja a természetgyógyászat néven összefoglalható, alternatív és komplementer gyógyító módszerek (röviden: alternatív
Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei. kisszámítógépes rendszerekben. Kutató Intézet
Nagy adattömbökkel végzett FORRÓ TI BOR tudományos számítások lehetőségei Kutató Intézet kisszámítógépes rendszerekben Tudományos számításokban gyakran nagy mennyiségű aritmetikai művelet elvégzésére van
sallang avagy Fordítótervezés dióhéjban Sallai Gyula
sallang avagy Fordítótervezés dióhéjban Sallai Gyula Az előadás egy kis példaprogramon keresztül mutatja be fordítók belső lelki világát De mit is jelent, az hogy fordítóprogram? Mit csinál egy fordító?
középső o Nyelv eleje magasabban magas hátulja magasabban mély o Ajak kerekítés (labiális) rés (illabiális) o Hossz rövid hosszú Mássalhangzók o Idő
Nyelvtan Nyelvi jelek o szavak (lexéma o szóelem (morféma: szótő és toldalék) o tovább bonthatók fonémákra (jelelemek) Nyelv 3 szint o hangok o szavak o mondatok o nyelvtan szintek egymásra épülésének
Bevezetés a nyelvtudományba. 5. Szintaxis
Bevezetés a nyelvtudományba 5. Szintaxis Gerstner Károly Magyar Nyelvészeti Tanszék Szintaxis Mondattan Hangok véges elemei a nyelvnek Szavak sok, de nyilván véges szám Mondatok végtelen sok Mi a mondat?
Magyar C2 1 1 076 nyelvi programkövetelmény
Magyar C2 1 1 076 nyelvi programkövetelmény A javaslattevő alapadatai Javaslatot benyújtó neve Katedra Nyelviskola Kft. A nyelvi képzésre vonatkozó adatok Nyelv megnevezése Nyelvi képzés szintje Nyelvi
A 2008/2009. tanévi fővárosi 9. évfolyamos kompetenciaalapú angol és német nyelvi bemeneti mérések eredményeinek elemzése
Mérei Ferenc Fővárosi Pedagógiai és Pályaválasztási Tanácsadó Intézet A 2008/2009. tanévi fővárosi 9. évfolyamos kompetenciaalapú angol és német nyelvi bemeneti mérések eredményeinek elemzése 2009. március
BÜNTETŐJOGI JOGÉRVÉNYESÍTÉS A SZELLEMITULAJDON-JOGOK TERÜLETÉN EURÓPAI ÉS NEMZETI SZINTEN 1
Dr. Fazekas Judit Dr. Gyenge Anikó BÜNTETŐJOGI JOGÉRVÉNYESÍTÉS A SZELLEMITULAJDON-JOGOK TERÜLETÉN EURÓPAI ÉS NEMZETI SZINTEN 1 I. BEVEZETŐ NEMZETKÖZI ÉS KÖZÖSSÉGI JOGTÖRTÉNETI ELŐZMÉNYEK I.1. A NEMZETKÖZI
Halmazok. A és B különbsége: A \ B. A és B metszete: A. A és B uniója: A
Halmazok Érdekes feladat lehet, amikor bizonyos mennyiségű adatok között keressük az adott tulajdonsággal rendelkezők számát. A következőekben azt szeretném megmutatni, hogy a halmazábrák segítségével,
Rendszer szekvencia diagram
Rendszer szekvencia diagram Célkitűzések A rendszer események azonosítása. Rendszer szekvencia diagram készítése az eseményekre. 2 1.Iteráció Az első igazi fejlesztési iteráció. A projekt kezdeti szakaszában
Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben *
Félig kompozicionális fınév + ige szerkezetek a számítógépes nyelvészetben * Vincze Veronika 1. Bevezetés A dolgozat a kollokációk egy altípusának, a félig kompozicionális szerkezeteknek más néven funkcióigés
MI AZ EGYSÉG? TÖRVÉNY ÁLTAL MEGKÖVETELT KAPCSOLAT TÖRVÉNYI KÖVETELMÉNY ORSZÁGONKÉNT ELTÉRHET
MI AZ EGYSÉG? MI AZ EGYSÉG? EGY SZABADALOMMAL AKKOR VÉDHETŐ TÖBBB TALÁLMÁNY, HA AZOK KÖZT MEGVAN A TÖRVÉNY ÁLTAL MEGKÖVETELT KAPCSOLAT TÖRVÉNYI KÖVETELMÉNY ORSZÁGONKÉNT ELTÉRHET MI A JOGPOLITIKAI INDOKA?
Java programozási nyelv
Java programozási nyelv 2. rész Vezérlő szerkezetek Nyugat-Magyarországi Egyetem Faipari Mérnöki Kar Informatikai Intézet Soós Sándor 2005. szeptember A Java programozási nyelv Soós Sándor 1/23 Tartalomjegyzék
KUTATÁSI ÖSSZEFOGLALÓ
KUTATÁSI ÖSSZEFOGLALÓ Második esély típusú intézmények és programjaik Az Equal program keretén belül szervezett Fiatalok Tematikus Hálózat megbízásából a tanulmány szerzői arra vállalkoztak, hogy átfogó
15. Programok fordítása és végrehajtása
15. Programok fordítása és végrehajtása Programok fordítása és végrehajtása. (Fordítás és interpretálás, bytecode. Előfordító, fordító, szerkesztő. A make. Fordítási egység, könyvtárak. Szintaktikus és
Branch-and-Bound. 1. Az egészértéketű programozás. a korlátozás és szétválasztás módszere Bevezető Definíció. 11.
11. gyakorlat Branch-and-Bound a korlátozás és szétválasztás módszere 1. Az egészértéketű programozás 1.1. Bevezető Bizonyos feladatok modellezése kapcsán előfordulhat olyan eset, hogy a megoldás során
Könnyebb gyerekkel feleséget találni
2. szint Szeptember Könnyebb gyerekkel feleséget találni A gyermekes(1) férfiak nagyobb eséllyel(2) találnak partnert, mint a gyermektelenek(3) - mondja egy brit magazin. Az "FQ" című újság az első apáknak
Fogyatékossággal élő emberek életminősége és ellátási költségei különböző lakhatási formákban
Fogyatékossággal élő emberek életminősége és ellátási költségei különböző lakhatási formákban Zárótanulmány a VP/2013/013/0057 azonosítószámú New dimension in social protection towards community based
Kezelési útmutató Keresés: szó, kifejezés
NORM.DOK GEOTECHNIKA Kezelési útmutató Kezelési útmutató Keresés: szó, kifejezés Ön a NORM.DOK GEOTECHNIKA rendszer kezelési útmutatójának a karaktersorozat kerestetésével kapcsolatos részét olvassa. A
A középszintű szóbeli vizsga értékelési útmutatója. Orosz nyelv. Általános útmutató
A középszintű szóbeli vizsga értékelési útmutatója Orosz nyelv Általános útmutató A következő táblázat az értékelési szempontokat és az egyes szempontoknál adható maximális pontszámot mutatja. A Beszédtempó,
NÉHÁNY MEGJEGYZÉS A MAGYAR FŐNÉVRAGOZÁS PARADIGMÁJÁNAK SZERKEZETÉRŐL
NÉHÁNY MEGJEGYZÉS A MAGYAR FŐNÉVRAGOZÁS PARADIGMÁJÁNAK SZERKEZETÉRŐL HERMAN JÓZSEF Amikor felköszönt valakit az ember, az ünnepeltet saját házában, otthonában illik felkeresnie: ezért kalandozom ebben
Tájékoztató az Íráskészség feladatok értékeléséről május-júniusi vizsgaidőszaktól. Angol nyelv
Tájékoztató az Íráskészség feladatok értékeléséről 2017. május-júniusi vizsgaidőszaktól Angol nyelv A feladatlapon az alábbi figyelmeztetés és tájékoztatás jelenik meg: Ügyeljen a megadott szószámra! Amennyiben
TÁJÉKOZTATÓ fizikus MSc hallgatóknak a. Diplomamunka
TÁJÉKOZTATÓ fizikus MSc hallgatóknak a Diplomamunka szerkesztéséről, alakjáról és beadásáról 1. Tartalmi követelmények A diplomamunka a fizikus MSc hallgatónak a témavezető irányításával elért önálló kutatási,
Felhasználói kézikönyv a Víziközmű Adatbeviteli Felülethez 2012. augusztus
Felhasználói kézikönyv a Víziközmű Adatbeviteli Felülethez 2012. augusztus 1 1. Bevezetés Az adatbekérő felület célja, hogy a Magyar Energia Hivatal (továbbiakban: Hivatal) a víziközműszolgáltatásról szóló
Vállalkozás alapítás és vállalkozóvá válás kutatás zárójelentés
TÁMOP-4.2.1-08/1-2008-0002 projekt Vállalkozás alapítás és vállalkozóvá válás kutatás zárójelentés Készítette: Dr. Imreh Szabolcs Dr. Lukovics Miklós A kutatásban részt vett: Dr. Kovács Péter, Prónay Szabolcs,
Akikért a törvény szól
SZISZIK ERIKA KLÉR ANDREA Akikért a törvény szól Családsegítõ és gyermekjóléti szolgálatunk keretein belül olyan kutatást végeztünk Zuglóban, amelyben igyekeztünk képet kapni a kerületben veszélyeztetettként
SZÉCHENYI ISTVÁN EGYETEM
SZÉCHENYI ISTVÁN EGYETEM JEDLIK ÁNYOS GÉPÉSZ-, INFORMATIKAI ÉS VILLAMOSMÉRNÖKI INTÉZET INFORMATIKA TANSZÉK A féléves programozási feladatok készítésének általános szabályai INFORMATIKA TANSZÉK 2011 Tartalomjegyzék
Megoldás. Feladat 1. Statikus teszt Specifikáció felülvizsgálat
Megoldás Feladat 1. Statikus teszt Specifikáció felülvizsgálat A feladatban szereplő specifikáció eredeti, angol nyelvű változata egy létező eszköz leírása. Nem állítjuk, hogy az eredeti dokumentum jól
BASH script programozás II. Vezérlési szerkezetek
06 BASH script programozás II. Vezérlési szerkezetek Emlékeztető Jelölésbeli különbség van parancs végrehajtása és a parancs kimenetére való hivatkozás között PARANCS $(PARANCS) Jelölésbeli különbség van
Osztályozóvizsga 1/13. K ANGOL NYELV
Osztályozóvizsga 1/13. K ANGOL NYELV A. Ruházati Vásárlási szituációk az alábbi témakörökben: 1. Méteráru üzlet 2. Férfi cipők 3. Női cipők 4. Rövidáruk / kemény rövidáru 5. Rövidáruk/ puha rövidáru 6.
Információkereső tezaurusz
Információkereső tezaurusz a magyar leíró szófajtan köréből Bevezető a tezauruszkészítésről. Az ige mediális ige M: Történést, állapotot kifejező ige. H középige F ige A alanytalan ige fakultatív alanyú
Webprogramozás szakkör
Webprogramozás szakkör Előadás 5 (2012.04.09) Programozás alapok Eddig amit láttunk: Programozás lépései o Feladat leírása (specifikáció) o Algoritmizálás, tervezés (folyamatábra, pszeudokód) o Programozás