A Szeged Treebank függőségi fa frmátumban Vincze Vernika 1, Szauter Dóra 1, Almási Attila 1, Móra György 1, Alexin Zltán 2, Csirik Jáns 3 1 Szegedi Tudmányegyetem, Infrmatikai Tanszékcsprt {vinczev, szauter, gymra}@inf.u-szeged.hu, vizipal@gmail.cm 2 Szegedi Tudmányegyetem, Szftverfejlesztés Tanszék alexin@inf.u-szeged.hu 3 MTA-SZTE, Mesterséges Intelligencia Tanszéki Kutatócsprt csirik@inf.u-szeged.hu Kivnat: Az előadásban a Szeged Treebank függőségi fa frmátumra történő átalakításának flyamatát mutatjuk be. Az eredetileg frázisstrukturált treebankből autmatikus knverzió eredményeképpen létrejött függőségi fákat kézi útn ellenőriztük és javítttuk, létrehzva ezzel az első magyar nyelvű kézzel anntált dependenciakrpuszt. Jelenleg az üzleti híreket, újsághíreket és jgi szövegeket tartalmazó alkrpuszk anntációja fejeződött be, de terveink között szerepel a teljes krpusz átalakítása függőségi fa frmátumra. Az elkészült adatbázis hasznsítható többek között az infrmációkinyerésben és a gépi frdításban is. 1 Bevezetés A Szeged Treebank függőségi fákat tartalmazó szintaktikai anntációjának célja az első, teljes egészében kézzel anntált magyar nyelvű dependenciakrpusz létrehzása. Az adatbázis számítógépes szempntú hasznsíthatósága többrétű, hiszen a gépi frdításban való felhasználás mellett az infrmációkinyerés részterületein is száms alkalmazásban töltheti be a tanító adatbázis szerepét. Az előadásban ismertetjük a krpuszépítési munkaflyamatkat, a knverzió és az anntáció srán felmerült prblémákat és az azkra született megldáskat, tvábbá a krpusz statisztikai adatait, végül szót ejtünk a krpusz hasznsíthatóságáról is, illetve nemzetközi kntextusban is elhelyezzük a létrehztt adatbázist. 2 Függőségi nyelvtank A Szeged Treebank eredetileg frázisstrukturált frmában kódlja a mndat összetevői közti szintaktikai visznykat. A frázisstrukturált krpuszban a mndatk tagmndatkból felépülő hierarchikus struktúrát alktnak: a mndat összetevői (knstituensei) knstituensfákká szerveződnek. Maguk a tagmndatk igékre, az igék vnzataira (ezek névszói szerkezetek) és egyéb alktóelemekre bnthatók, amelyek az egyes szinteken belül aznban nem alktnak hierarchiát. A mndat szavai a
knstituensfa levelein helyezkednek el, a fa egyéb csmópntjai absztrakt szerveződési egységeket jeleznek (frázisstruktúra-címkékkel ellátva). A függőségi fa frmátum ettől abban tér el, hgy a fában minden egyes csmópnt a mndat egy szavának felel meg. A mndatfa csúcsán egy mesterséges gyökérelem található, amelynek alárendeltjei lesznek a mndatban előfrduló szavak, vagyis a gyökérelemen kívül nem találhatók absztrakt csmópntk a fában. A mndatban minden egyes szó szigrúan egy másik szó alárendeltségében van: egy szónak csak egy fölérendeltje lehet, egy csmópnt alá aznban tartzhat több szó is, például az ige csmópntja alá srlható be az ige összes bővítménye. A függőségi fában szereplő csmópntk között többféle kapcslat is lehetséges, ezeket általában különféle címkékkel látják el, amelyek a kapcslat jellegére utalnak. Az első függőségi nyelvtannak Tesnière könyve [20] tekinthető, mely lefekteti a rendszer alapjait. Híres hasnlata szerint a mndatnak az ige a közpnti eleme, mely egész kis drámát fejez ki: a dráma szereplői az ige bővítményei, melyeket Tesnière aktánsknak nevez. A mndatban így tehát alárendelt elemek és fölérendelt elemek szerveződnek egységbe. Mel čuk [17, 18] függőségi nyelvtana az Értelem Szöveg Elméleten belül jött létre. Nála a függőségi viszny lineáris relációként jelenik meg a szavak között. Mélyszintaktikai szinten 12 visznytípust feltételez, ebből 6 az ige és különféle bővítményei (aktánsai) között létezik, a többi viszny pedig mellérendelést és különféle módsító szerepet jelez. A Mel čuk-féle függőségi nyelvtan különlegessége, hgy a mellérendelést is egyfajta alárendelésként fgja fel: a mellérendelés első tagjáhz kapcslódik a kötőszó, illetve utóbbihz a mellérendelés tvábbi tagja(i) speciális (COORD) visznnyal. Egy másik érdekesség, hgy biznys esetekben a nyelvtan engedélyezi absztrakt, azaz a mndatban fnetikailag meg nem jelenő nyelvi elemet jelző csmópntk felvételét a függőségi fába: ilyen eset például az egyes szám harmadik személyű jelen idejű létige az rszban (és a magyarban is), amely fnetikailag nem ölt testet a mndatban, aznban absztrakt szinten mégis jelen van, hiszen múlt és jövő időkben megjelenik testes frmában. A magyar nyelvre alkalmaztt függőségi nyelvtankról [16] és [19] nyújt áttekintést, illetve saját, mrféma alapú függőségi nyelvtanuk rövid vázlatát mutatják be a szerzők. Mdelljükben a függőségi fák alapelemei a mrfémák, mivel agglutináló nyelvekben nem (csak) a szavak, hanem a mrfémák képesek a különböző grammatikai visznyk kifejezésére. Ez a megldás megkönnyíti a különböző típusú nyelvek függőségi fái közti leképezéseket, mert például az angl may segédige csmópntjának a magyar fában a hat mrféma csmópntja felel meg. Ezt az eljárást alkalmazva a függőségi fákn alapuló számítógépes frdítórendszerek hatéknysága jelentősen megnövekedhet. 3 Más nyelvű dependenciakrpuszk A világ száms nyelvére fejlesztettek már ki dependenciakrpuszt. Ezek közül az egyik leghíresebb a cseh nyelvre épített Prague Dependency Treebank [1], mely mrflógiai, szintaktikai és tektgrammatikus szintű anntációt is tartalmaz. Ugyanez a műhely anglra és csehre is kifejlesztett egy párhuzams, dependenciaanntációt
tartalmazó krpuszt [2, 3], illetve arab nyelvű dependenciakrpusz is fűződik a nevükhöz [4]. A fentieken kívül száms európai (többek között svéd [5], görög [6], rsz [7] és szlvén [8]) és Európán kívüli nyelvre (japán [9], kínai [10]) építettek már dependencia treebanket, illetve még hlt nyelvekre is: egy latin nyelvű krpusz már létrejött, és alktói egy ógörög krpuszn dlgznak jelenleg [11]. Az első magyar nyelvű dependenciakrpusz létrehzásával ehhez a vnulathz kívánunk csatlakzni. 4 A krpuszépítés flyamata Ahhz, hgy az eredetileg frázisstrukturált treebankből dependenciakrpuszt tudjunk készíteni, először is szükség van egy knverziós lépésre, melynek srán a knstituensfák függőségi visznykká alakulnak át. Mivel az autmatikus gépi knverziótól nem várhatunk tökéletes és hiba nélküli eredményt, ezt a munkafázist egy kézi ellenőrzési flyamat követi, melynek srán nyelvészek átnézik a fájlkat, és a szükséges esetekben módsítják azkat. Nha a krábbi szakirdalmban megtalálható a magyarra alkalmaztt függőségi nyelvtan rövid vázlata [16, 19], a Szeged Treebank függőségi fa frmátumra történő átalakításakr mégsem követjük teljes egészében ezt a mdellt. Ennek az a magyarázata, hgy az említett mdell mrféma alapú, azaz a függőségi fa csmópntjaiban nem szóalakk, hanem mrfémák szerepelnek. Ahhz aznban, hgy a szintaktikai fákat mrfémákból építhessük fel, szükség lenne egy jól működő mrflógiai elemzőre, mely a Szeged Treebank szóalakjait mrfémákra bntaná. Mivel a Szeged Treebank MSD-kódjai a képzéseket nem jelölik, például a műveltető és ható igék képzőit a szótő részeként kezeli a rendszer, vagyis nem lenne képes külön mrfémát, azaz külön csmópntt rendelni a képzőkhöz. A mrféma alapú függőségi fákra történő knverzió választása még tvábbi munkaigényes feladatkkal járna (többek között az MSD-kódrendszer átalakítása úgy, hgy lehessen jelezni a képzéseket, a szóalakk újrakódlása a krpuszn belül, jól működő mrflógiai elemző kialakítása a krpuszra stb.). Emiatt csupán a szóalakk közti függőségi visznyk bejelölésére vállalkztunk. A Szeged Treebank 2.0 függőségi fa frmátumra való átalakítása első lépésének a 2007-es CNLL knferencia szervezőbizttsága által kiírt nemzetközi versenyfeladat [12] tekinthető, amikr is a tesztadatbázis elkészítésére való felkérésnek köszönhetően megtörtént a krpusz HVG- és Népszabadság-cikkeket tartalmazó részének knvertálása [13], majd ennek nymán a teljes krpusz átalakítása. A Szeged Treebank 2.0-ban az ige és vnzatai közti nyelvtani visznyk jelölve vltak. Ezeket a visznykat kellett függőségi visznykká átalakítani. A knverzió srán autmatikusan, gépi útn történt a visznyk átcímkézése nyelvészek által előzetesen meghatárztt szabályk alapján. A lehetséges függőségi visznyk az alábbiak:
APPEND a mndatba szervesen nem illeszkedő mndatrészek ATT főnév és jelző, névutó és főnév, főnév(i módsító) és főnév közti viszny AUX ige és segédige közti viszny AUXS a mndat értékű elem CONJ kötőszó COORD mellérendelés DAT nak rags főnévi vnzat DET főnév és determináns közti viszny FROM hnnan? kérdésre válaszló határzószó, illetve névutós szerkezet INF főnévi igenév LOCY hl? kérdésre válaszló határzószó, illetve névutós szerkezet MODE egyéb határzószavak, illetve névutós szerkezetek NEG tagadószó OBJ ige és tárgy közti viszny OBL ige és egyéb főnévi bővítménye közti viszny PRED ige és névszói állítmány közti viszny PREVERB ige és igekötő közti viszny PUNCT írásjel QUE kérdőszó ROOT a mndat fő eleme SUBJ ige és alany közti viszny TFROM mikrtól? kérdésre válaszló határzószó, illetve névutós szerkezet TLOCY mikr? kérdésre válaszló határzószó, illetve névutós szerkezet TO hva? kérdésre válaszló határzószó, illetve névutós szerkezet TTO meddig?, mikrra? kérdésre válaszló határzószó, illetve névutós szerkezet A gépi útn előállt fájlkat nyelvészek ellenőrizték, és ha kellett, javíttták. A javítási munkálatkhz az erre a célra kifejlesztett, és a magyar nyelv sajátsságainak megfelelően testre szabtt TrEd szerkesztőprgramt [14] használtuk. 4.1 Típushibák A kézi ellenőrzés srán elsődleges feladat a gépi knverzió átnézése, szükség esetén javítása vlt. A javításra szruló legtipikusabb hibák két kategóriába estek: (1) a csmópnt rssz helyen vlt a fában; (2) a csmópnt és fölérendeltje nem a megfelelő visznyban állt. A hibák nagy része abból fakadt, hgy a frázisstrukturált krpuszban nem minden nyelvtani viszny vlt jelölve, például a névelők, számnevek és jelzők a főnévi csprtn belül szerepeltek, és a főnévhez fűződő visznyuk külön nem vlt feltüntetve. A knverzió srán autmatikusan a főnév alá lettek bekötve ATT visznnyal mindezen elemek, a mndatban található egyéb elemek pedig az ige alá kerültek be MODE visznnyal. Ezeket szükség szerint javítani kellett a megfelelő függőségi visznyra, illetve áthelyezni a megfelelő felettes (anya)csmópnt alá.
Az átcímkézést igénylő leggyakribb esetek a következők vltak: jelzős szerkezeten belüli ragztt főnév A knvertálóprgram a fenti kkból kiflyólag ATT címkével láttt el minden főnevet, amely AP (melléknévi csprt) tagja vlt, például a ténylegesnél 1,9_milliárd dllárral magasabb árbevételt szerkezetben a ténylegesnél és a dllárral is ATT címkét kaptt a helyes OBL helyett, így ezt kézi útn kellett javítani. NE-k kezelése A tulajdnnevek az esetek nagy többségében ATT címkét kaptak a knverzió srán, ezeket természetesen javítttuk az adtt kntextusnak megfelelő címkére. alárendelő mellékmndatk fő elemének címkéje Az alárendelő mellékmndatkat a Treebankben annak megfelelően címkézték, hgy milyen szerepet tölt be a főmndatban az utalószó (és az utalószó alá is kötötték be, amennyiben vlt ilyen a mndatban, l. alább). A dependenciakrpuszban ettől eltérően csak annyit jelölünk, hgy alárendelésről van szó, azaz ATT címkével látjuk el a mellékmndat fő elemét. mellérendelések másdik, harmadik tagja A Treebankben a mellérendelések a frázisstruktúra-nyelvtankban szkáss megldásnak megfelelően kívülről kaptak egy közös címkét, melynek típusa megegyezett a mellérendelés tagjainak saját címkéjével: tehát két egymás mellé rendelt főnévi csprt (NP) egy külső NP címkével is rendelkezett, mely mindkettőt magában fglalta. Mivel a dependencia-nyelvtankban nincsenek mesterséges csmópntk, ez az eljárás nem biznyult követhetőnek, így a Mel čuk-féle megldást követtük a mellérendelések elemzésénél, l. lejjebb. ez/az mutató névmásk A mutató névmásk ATT címkét kaptak, ha mutató névmás + névelő + főnév knstrukcióban (ez a ház) frdultak elő. Alanyesetű előfrdulásukkr DET, azaz determinánsi címke járt nekik, ha pedig esetragt viseltek (pl. ebben a házban), akkr az adtt esetnek megfelelő címkére kellett javítani (jelen példában OBL-ra). A csmópntk áthelyezése a fában az alábbi esetekben vlt a legszükségesebb: alárendelő mellékmndatk Amint már fentebb utaltunk rá, a kötőszó nem képezte az alárendelő mellékmndatk részét a Szeged Treebank frázisstrukturált váltzatában. Ennek eredményeképpen a knverzió után a főmndat fő eleméhez kapcslódtt a kötőszó és a mellékmndat fő eleme is (külön-külön). A kézi ellenőrzés flyamán a nyelvészek a kötőszóhz kötötték hzzá a mellékmndat fő elemét, így teremtve meg a kapcslatt a két összetevő között.
birtks szerkezetek A birtks szerkezetek két része, a birtks és a birtk gyakran nem kapcslódtt össze a krpuszban. Különösen érvényes vlt ez a nak rags birtksra, főleg, ha nem a birtk melletti pzíciót fglalta el a mndatban. A dependenciakrpuszban a birtkst mindig összekötöttük a birtkkal, még akkr is, ha ezzel keresztező függőségek álltak elő, azaz a fa két éle metszi egymást. (Ez a frázisstruktúra-nyelvtankban szigrúan tils, mivel tt lehetségesek a mzgatásk, dependencia-nyelvtankban aznban elfgadtt a keresztezések léte.) mellérendelés Amint már az átcímkézési eseteknél említettük, mellérendelésnél nemcsak a csmópntk címkéit, hanem a helyzetüket is módsítani kellett. A gépi elemzés srán általában a kötőszó funkcinált a szerkezet fejeként, és a mellérendelés tagjai vele álltak függőségi visznyban. A Mel čuk-féle megldásnak megfelelően aznban a szerkezet első tagja funkcinál fejként, ez alá kell kötni a kötőszót (amennyiben vlt) CONJ visznnyal, majd a mellérendelés többi tagja következik COORD visznnyal kapcslva az előző elemhez. főnévi igenevek és igekötők Ha a mndatkban szerepelt egy lyan (segéd)ige, amelynek főnévi igenév vnzata vlt (szeret, kíván, fg, kell ), akkr a gépi elemzés a főnévi igenév esetleges igekötőjét a főigéhez társíttta. Ezt a hibatípust is kézzel javíttták a nyelvészek az ellenőrzés srán. 4.2 Mellérendelés A mellérendelés kérdése prblémákat vet fel a legtöbb szintaktikai elmélet számára: egyes elméletek hívei azt a megldást tartják jónak, hgy a kötőszó a krdináció feje, másk pedig amellett érvelnek, hgy a szerkezet feje a mellérendelés egyik tagja. Vizsgáljuk meg ezeket az elképzeléseket külön-külön! Tegyük fel, hgy a kötőszó a szerkezet feje. Felmerül aznban a kérdés, hgy mit lehet tenni a direkt krdináció eseteiben, amikr nincs az elemek között kötőszó. Ha nincs kötőszó, akkr fel kell tételezni egy virtuális csmópntt, amely képes fejként funkcinálni. Az elképzelésnek aznban más hátulütője is van: ha több mellérendelt elem van, akkr nem tudjuk megkülönböztetni az A és B és C típust az A, B és C típustól. A prblémát meg lehetne úgy kerülni, hgy felveszünk egy absztrakt és -t az A és B fölé, de akkr a B egyidejűleg két csmópnthz (egy virtuális ÉS és egy valós és) kapcslódna, ez pedig szigrúan tils. Tvábbi hátránya az elgndlásnak, hgy ha például a mellérendelt frázis a mndat alanya, akkr a kötőszó és az ige közt lenne SUBJ viszny, ez pedig igen kevéssé lenne szkványs. Egy másik elképzelés szerint azns szinten szerepelnek a krdinált elemek és a kötőszó, de nincsenek összekapcslva, például a Jancsi és Juliska mézeskalácsháza szókapcslatban a mézeskalácsháza Jancsi, mézeskalácsháza és, valamint mézeskalácsháza Juliska visznyk állnak fönn. Ez esetben az jelenti a prblémát, hgy nha Jancsi és Juliska összetartzását az azns címkéjű (ATT) viszny még
valahgy tudná jelölni, de eléggé kérdéses, hgy milyen visznyban állna a mézeskalácsháza és az és, arról nem is beszélve, hgy eléggé szkatlan, hgy a krdináció két tagját nem kapcsljuk össze. A fenti megldásk egyike sem nyújt kielégítő választ a felmerülő prblémákra, éppen ezért a krpusz átalakítása srán a krdináció esetén a Mel čuk-féle elképzelést [17, 18] követjük, ahl is a mellérendelés egyfajta alárendelés. Mindig a krdináció első eleme a fej, mert az tud az egész frázis helyett állni. Vegyük a következő példákat: Elmentem a bltba Józsival és Katival. Elmentem a bltba Józsival. *Elmentem a bltba Józsival és. *Elmentem a bltba és Katival. A másdik, illetve a harmadik és negyedik mndat közti különbség mutatja, hgy a krdináció nem bntható fel két egyenrangú részre, hiszen ha a Józsival és az és Katival elemek egyenértékűek lennének, akkr elfgadhatónak kellene lennie az utlsó mndatnak. A Józsival az és elemmel sem tartzik szrsan össze, hiszen akkr a harmadik mndat is jó lenne. A megldás az, hgy hárm részt feltételezünk a krdinációban: az első elem a fej, ehhez kapcslódik a kötőszó CONJ visznnyal, illetve a kötőszót követi a másdik mellérendelt tag COORD visznnyal: Józsival CONJ és COORD Katival Ez ábrázlás szempntjából igaziból alárendelés, és így szerkezetben nem lesz különbség mellé- és alárendelés között: csak a visznyk (ATT, illetve COORD) jelzik, hgy melyikről van szó. 4.3 Predikatív névszók A magyar nyelv sajátságaiból adódóan a predikatív névszót tartalmazó mndatkban a létige kijelentő mód jelen idő E/3. alakja nem jelenik meg a felszínen, szemben a más módú, idejű vagy számú, illetve személyű frmákkal: András katna (*van). András legyen katna! András katna lesz. A mellérendeléshez hasnlóan, jelen prblémánál is kétféle megldási lehetőség létezik. Az első lehetőség szerint a mndat fő elemének a predikatív névszót tekintjük, ez alá csatljuk az alanyt, és nem veszünk fel virtuális csmópntt. Aznban ennek a megldásnak az a hátránya, hgy teljesen más szerkezetet
tulajdnítunk ugyanannak a mndatnak jelen és például múlt időben, ami megkérdőjelezhető, mert az egyik esetben a predikatív elem és az alany között közvetlen, másik esetben pedig közvetett kapcslat van: AUXS ROOT katna SUBJ András AUXS ROOT vlt PRED \ SUBJ katna András A másik megldás fenntartja az azns szerkezetet a mndat bármely előfrdulása esetén, igaz, ennek az az ára, hgy fel kell tételeznünk egy virtuális csmópntt a létige kijelentő mód jelen idő E/3. alakja számára (VAN). Így a következőképpen alakulnak a függőségi fák: AUXS ROOT VAN PRED \ SUBJ katna András AUXS ROOT vlt PRED \ SUBJ katna András
Tvábbi érv a virtuális csmópnt alkalmazása mellett, hgy szintaktikai szinten mindenképpen jelen van a VAN, hiszen a többi igealak/igeidő/igemód esetében testes mrfémaként jelenik meg. Az már másdlags (mrflógiai) kérdés, hgy jelen idő E/3-ban miért zéró mrféma az alakja (vö. [18]). Előnyt jelenthet a virtuális csmópnt alkalmazása a krpusz nemzetközi felhasználhatóságában is, hiszen például egy függőségi fákra épülő frdítóprgram jóval hatéknyabb működésre képes, ha azns struktúrájú fát kell leképeznie a másik nyelvre, szemben azzal, ha még ráadásul külön transzfrmációs lépéseket is be kell iktatnia a frdítás flyamatába. 5 Statisztika A Szeged Treebank 2.0 állmánya 82.000 mndatt, 1,2 millió szövegszót és 250 ezer írásjelet tartalmaz. A szövegek hat különböző témakörből kerültek ki, témakörönként ~200 ezer szó terjedelemben. A témakörök a következők: Szépirdalm 14-16 éves krú tanulók fgalmazásai Újságcikkek (Népszabadság, Népszava, Magyar Hírlap, HVG) Számítástechnikai szövegek Jgi szövegek Gazdasági és pénzügyi rövidhírek 2009 nvemberéig a gazdasági és pénzügyi rövidhíreket tartalmazó alkrpusz, az újsághírek és a jgi szövegek dependenciaelemzése készült el teljes egészében, illetve a számítógépes témájú szövegek elemzése zajlik jelenleg. Az eddig elkészült krpusz statisztikai adatai a következő táblázatban fglalhatók össze: 1. táblázat: A krpusz statisztikai adatai. newsml újsághírek jgi szövegek összesen Mndatk 9574 10210 9278 29062 Szavak 186030 182172 220069 588271 Írásjelek 25712 32880 33515 92107 Az anntációs munkálatk várhatóan 2010 elején fejeződnek be. 6 A krpusz hasznsíthatósága A számítógépes nyelvészet több területén is hasznnal bírhat a függőségi fák alkalmazása: mind a gépi frdításban, mind az infrmációkinyerésben sikeresen felhasználhatók a függőségi fa frmátumú krpuszk. 6.1 Gépi frdítás A szintaktikai transzfrmáción alapuló gépi frdítási eljárásk alapvetően két frrásra építenek: vagy a frrásnyelvi knstituensfákat képezik le a célnyelvi knstituensfára, vagy pedig függőségi fákkal dlgznak. A knstituensfákat alkalmazó módszer előnyei közé tartzik, hgy rkn nyelvek gépi frdítására jól alkalmazható, hiszen a rkn nyelveknek többnyire hasnló a szintaxisa, tvábbá az eltérő szórendből adódó prblémákat is elfgadható mértékben ldja meg. A módszer hátránya visznt, hgy rendkívül bnylult és költséges transzfrmációs szabálykat kell bevezetni a rendszerbe, ráadásul ha a mndatnak teljesen eltérő szintaktikai szerkezete van a frrás-, illetve a célnyelvben, a frdítás teljesen elfgadhatatlanná válik. Gyakri hiba tvábbá a knstituensfákat használó frdítórendszerekben, hgy az elemző gyakran hibás szerkezetet tulajdnít a fának, felesleges címkéket szúr be vagy rssz csmópntkat feleltet meg egymásnak. A mesterséges csmópntkból adódó hibák kiküszöbölését sikeresen ldják meg a függőségi fákra alapuló frdítórendszerek, hiszen a függőségi fákban nincsenek absztrakt (mesterséges) csmópntk. A fa minden csmópntja így egy természetes nyelvi elemnek feleltethető meg a mndatban, a fa nem tartalmaz szintaktikai csmópntkat, a nyelvek közti szintaktikai különbségek így eltűnnek. A gépi frdítási eljárás srán minden csmópnt lefrdítódik, és ha szükséges, akkr a csmópntk újrarendeződnek biznys előre megadtt
valószínűségek mentén. A függőségi fákat alkalmazó gépi frdítási eljárás különösen a nem rkn vagy eltérő szintaxisú nyelvpárk esetén lehet gyümölcsöző. 6.2 Infrmációkinyerés A számítógépes nyelvészet egy más területén, az infrmációkinyerésben is hasznsíthatók a függőségi fák. A szintaktikailag anntált krpuszk igen fnts szereppel bírnak az autmatikus infrmációkinyerés területén, ugyanis nem elégséges csak azt tudni, hgy milyen szavak, illetve kifejezések szerepelnek az adtt szövegben, annak is nagy jelentősége van, hgy ezek egymással milyen visznyban állnak. Például gazdasági jellegű szövegekben a különböző tranzakciókról szóló infrmációk között szerepelnie kell annak is, hgy ha A és B cég vett részt egy adásvételi flyamatban, akkr melyik cég vásárlta fel a másikat (azaz melyik a felvásárl ige alanya és tárgya). Ahhz aznban, hgy ezt nagy biztnsággal meg lehessen állapítani, szintaktikai visznykat is tudni kell elemeznie az infrmációkinyerő rendszernek. A szintaktikai visznyk tanításában rendkívüli szereppel bírnak a szintaktikailag anntált krpuszk. A kötött szórenddel rendelkező nyelvek esetén jó alternatíva lehet a knstituensfákat használó, szintaktikailag anntált krpusz: ezekben ugyanis adtt szintaktikai szerkezethez adtt szintaktikai viszny társul. A függőségi nyelvtankra épülő krpuszk aznban inkább a szabad szórendű nyelvek esetén nyújtanak nagy segítséget az infrmációkinyerésben, hiszen esetükben a szintaktikai visznykat illetően nem lehet a szórendet segítségül hívni: a függőségi nyelvtank lényege, hgy a szórendtől függetlenül képes meghatárzni a mndat szintaktikai szerkezetét. Jelen krpuszban jelölve vannak az ige és bővítményei közti alapvető visznyk, azaz a bővítmények közül az alany, tárgy és részeshatárzó szerepű argumentumk könnyen aznsíthatók (SUBJ, OBJ és DAT címkével vannak ellátva), a tvábbi bővítmények pedig OBL címkével rendelkeznek. Így az infrmációkinyerő prgram is sikeresen meg tudja állapítani a következő példában rejlő szintaktikai visznykat: Az E.ON_Hungária_Energetikai_Rt. 87,713 százalékra növelte részesedését a Tiszántúli_Áramszlgáltató_Rt-ben. A kinyerhető releváns szintaktikai visznyk a következők: növelte - Az E.ON_Hungária_Energetikai_Rt. (alany) növelte részesedését (tárgy) növelte a Tiszántúli_Áramszlgáltató_Rt-ben (bővítmény) A szintaktikai visznykból a számítógép számára is kiderül, hgy a mndatban szereplő két Named Entity visznya milyen, azaz az E.ON rendelkezik tulajdnrésszel a Titászban, és nem frdítva, ezáltal a szintaktikai visznykat is felhasználó infrmációkinyerés pntssága igencsak megjavul az azkat nem hasznsító mdellekhez képest. 6.3 Többnyelvűség A magyar nyelvű dependeciakrpusz létrehzásával lehetőség nyílik a többnyelvűséget szem előtt tartó alkalmazásk fejlesztésére is. A Szeged Treebank alkrpuszai közül a kapcslódási pntt a többnyelvű (párhuzams) krpuszkhz az 1984 és a Windws2000 szövegállmányk jelenthetik, hiszen ezeknek a szövegeknek biznysan létezik idegen nyelvű megfelelője is. Amennyiben az idegen nyelvű verziók tartalmaznak függőségi visznykra alapuló szintaktikai anntációt, könnyen létre lehet hzni egy magyar-adtt nyelvű párhuzams dependenciakrpuszt. Ez nagyban elősegítené egyrészt a többnyelvű infrmációkinyerést támgató rendszerek fejlesztését, másrészt pedig a függőségi fákn alapuló, szintaktikai módszerekre építő gépi frdítóprgramk létrehzását. A krpusz létrehzása tehát mind elméleti, mind gyakrlati szempntk alapján jelentőségteljesnek és hasznnal kecsegtetőnek nevezhető. 7 Összegzés A tanulmányban a Szeged Treebank függőségi fa frmátumra történő átalakításának flyamatát mutattuk be: ismertettük a munkaflyamatkat, a felmerült prblémákat és az azkra nyújttt megldáskat. Szót ejtettünk a krpusz gépi frdításban, illetve infrmációkinyerésben való hasznsíthatóságáról, tvábbá a kntrasztív nyelvészet és a dependeciaszintaxis kutatói is számára hasznnal bírhat az adatbázis. A későbbiekben szeretnénk
tvábbá kifejleszteni egy magyar nyelvű dependenciaparsert is (vagy egy már rendelkezésre álló krábbi (például a MaltParser [15]) testreszabásával, vagy pedig önálló kutatás-fejlesztés eredményeként), melyhez az elkészült krpusz tanító adatbázisként szlgálhat. Köszönetnyilvánítás A kutatást részben a TUDORKA és a MASZEKER prjekt (Jedlik Ánys prgramk) keretében az NKTH támgatta. Hivatkzásk 1. Hajič, J., Böhmvá, A., Hajičvá, E., Vidvá Hladká, B.: The Prague Dependency Treebank: A Three-Level Anntatin Scenari. In: A. Abeillé (ed.): Treebanks: Building and Using Parsed Crpra, Amsterdam:Kluwer (2000) 103-127 2. Čmejrek, M., Cuřín, J., Havelka, J., Hajič, J., Kubň, V.: Prague Czech-English Dependecy Treebank: Syntactically Anntated Resurces fr Machine Translatin. In: 4th Internatinal Cnference n Language Resurces and Evaluatin, Lisbn, Prtugal (2004) 3. Čmejrek, M., Cuřín, J., Havelka, J.: Prague Czech-English Dependecy Treebank: Any Hpes fr a Cmmn Anntatin Scheme? In: HLT/NAACL 2004 Wrkshp: Frntiers in Crpus Anntatin, Bstn, Massachusetts (2004) 47-54 4. Hajič, J., Smrž, O., Zemánek, P:, Šnaidauf, J., Beška, E.: Prague Arabic Dependency Treebank: Develpment in Data and Tls. In: Prceedings f the NEMLAR Internatinal Cnference n Arabic Language Resurces and Tls. Cair, Egypt, September 2004. (2004) 110-117 5. Nivre, J.: Thery-Supprting Treebanks. In: Nivre, J. and Hinrichs, E. (eds.) Prceedings f the Secnd Wrkshp n Treebanks and Linguistic Theries (TLT 2003), Växjö University Press (2003) 117-128 6. Prkpidis, P., Desipri, E., Kutsmbgera, M., Papagergiu, H., Piperidis, S.: Theretical and practical issues in the Cnstructin f a Greek Dependency Crpus. In: Prceedings f the 4th Wrkshp n Treebanks and Linguistic Theries (TLT-2005), Barcelna (2005) 7. Bguslavsky, I., Grigrieva, S., Grigriev, N., Kreidlin, L., Frid, N.: Dependency Treebank fr Russian: Cncept, Tls, Types f Infrmatin. In: Prceedings f the 18th cnference n Cmputatinal linguistics. Saarbrücken, Germany (2000) 987 991 8. Džerski, S., Erjavec, T., Ledinek, N., Pajas, P., Žabkrtský, Z., Žele, A.: Twards a Slvene Dependency Treebank. In: Prceedings f Fifth Internatinal Cnference n Language Resurces and Evaluatin, LREC'06, 24-26 May 2006. Gena, Italy (2006) 9. Lepage, Y., Shin-Ichi, A., Susumu, A., Hitshi, I.: An anntated crpus in Japanese using Tesnière s structural syntax. In: Prceedings f COLING-ACL 98 Wrkshp n the Prcessing f Dependency-based Grammars, Mntreal (1998) 10. Liu, H.: Building and Using a Chinese Dependency Treebank. GrKG/Humankybernetik N. 48 Vl. 1 (2007) 3 14 11. Bamman, D., Crane, G.: The Design and Use f a Latin Dependency Treebank. In: Prceedings f the Fifth Internatinal Wrkshp n Treebanks and Linguistic Theries (TLT 2006) (Prague) (2006) 67-78 12. Nivre, J., Hall, J., Kübler, S., McDnald, R., Nilssn, J., Riedel, S., Yuret, D.: The CNLL 2007 Shared Task n Dependency Parsing. In: Prceedings f the CNLL Shared Task Sessin f EMNLP-CNLL 2007, Prague (2007) 915 932 13. Alexin, Z.: A frázisstrukturált Szeged Treebank átalakítása függőségi fa frmátumra. In: Tanács, A., Csendes, D. (szerk.): V. Magyar Magyar Számítógépes Nyelvészeti Knferencia (MSZNY 2007). Szegedi Tudmányegyetem, Szeged (2007) 263-266 14. http://ufal.mff.cuni.cz/~pajas/tred/ 15. Nivre, J., Hall, J., Nilssn, J., Chanev, A., Eryigit, G., Kübler, S., Marinv, S., Marsi, E.: MaltParser: A languageindependent system fr data-driven dependency parsing. Natural Language Engineering, N. 13, Vl. 2. (2007) 95-135. 16. Kutny I., Wacha B.: Magyar nyelvtan függőségi alapn. Magyar Nyelv Vl. 87 N. 4. (1991) 393 404. 17. Mel čuk, I. A.: Dependency Syntax: thery and practice. State University f New Yrk Press, Albany, NY (1988) 18. Mel čuk, I. A.: Levels f Dependency in Linguistic Descriptin: Cncepts and Prblems. In Agel, V., Eichinnger, L., Erms, H.-W., Hellwig, P., Herringer, H. J., Lbin, H. (eds.): Dependency and Valency. An Internatinal Handbk f Cntemprary Research, vl. 1, Berlin-New Yrk, W. de Gruyter (2003) 188-229 19. Prószéky, G., Kutny, I., Wacha, B.: Dependency Syntax f Hungarian. In: Maxwell, Dan; Klaus Schubert (eds.) Metataxis in Practice (Dependency Syntax fr Multilingual Machine Translatin), Fris, Drdrecht, The Netherlands (1989) 151 181 20. Tesnière, L.: Éléments de syntaxe structurale. Paris, Klincksieck (1959)