A SZÓTÁR adatbázis felhasználása a Szószablya projektben

Save this PDF as:
 WORD  PNG  TXT  JPG

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "A SZÓTÁR adatbázis felhasználása a Szószablya projektben"

Átírás

1 A SZÓTÁR adatbázis felhasználása a Szószablya projektben Kornai András Kézirat, v0.95, okt Bevezetés Bár a SZÓTÁR adatbázis kutatási célokra már két évtizede elérhető (a SZTAKI-ban 1984-ben volt a bemutatója), a teljes anyag minden korlátozás nélküli nyilvánosságra hozatalára csak most, a Szószablya projekt honlapján kerülhet sor, mivel húsz évvel ezelőtt a fájlméretek még nem engedték meg a széleskörű hozzáférést. Eredetileg az Éltető László által a SZTAKI-ban kifejlesztett assembler alapú adatbázis-kezelő (részletesen ismerteti Éltető 1985) tette lehetővé, hogy az anyagban keresni tudjunk, most külön figyelmet fordítottunk arra, hogy mindent a Unix héj által kínált eszközökkel, különösen a grep, awk, sed, perl programcsaláddal könnyen kezelhető formába konvertáljunk. Miután a 8-bites karakterek sokszor még ma is zavart okoznak, mindent meghagytunk az akkor használt 7-bites formában, ahol ékezetek helyett az 1-3 számokat használjuk (Prószéky 1985). Moore törvényének hála ma már az egész anyag, mintegy 40MB, minden nehézség nélkül feldolgozható akár átlagos személyi számítógépen is. Húsz éve a magyar szókészletről még csupán két nagyobbnak mondható számítógépes feldolgozás készült: a SZÓTÁR rendszer magját e kettő egyesítése adja (Kornai 1986). Az első, a Papp Ferenc féle a tergo szótár (a továbbiakban VégSz, ld. Papp 1969a) alapját képező ún. Debreceni Thesaurus, nemcsak úttörő munka volt, hanem egyben kulcsot ad a hagyományos magyar lexikográfia eredményeinek a digitális korszakba való átmentéséhez is, hiszen a VégSz az Értelmező Szótár (ÉrtSz) kis híján hatvanezer címszaván alapult (bár Papp és munkatársai ezekhez még számos igen fontos kódot adtak hozzá, a szókészletet egyes durva sajtóhibák javításától eltekintve adottnak vették). A második, a Füredi Kelemen-féle gyakorisági szótár (a továbbiakban GyakSz, ld. Füredi Kelemen 1988) mintegy félmillió szövegszavas mintán alapult, ebből sajnos a tulajdonnevek már kikerültek mire az anyag a SZTAKI gépére került, így 487 ezer szövegszó (91 ezer különböző szóalak), mintegy 42 ezer lemma állt rendelkezésünkre. Azóta természetesen sokkal nagyobb számitógépes lexikográfiai munkák is elkezdődtek: ezek közül külön kiemeljük a Nyelvtudományi Intézetben Pajzs Júlia vezetésével zajló nagyszótári projektet (ld. és a Váradi Tamás vezetésével ugyanott készülő digitális korpuszt (ld. Kornai 2001-ben készített egy jóval nagyobb (4.5 millió weblapon, több milliárd szövegszón alapuló) gyakorisági felmérést, amelyet a kutatást támogató Axelero Internet szíves engedélyével most szintén nyilvánosságra hozunk a Pilot0 könyvtárban, és természetesen ebbe a sorba tartozik a Szószablya projekt is, amely terveink szerint mintegy ötmilliárd szavas mintán alapul majd: ez utóbbit itt most a Web0 korpusszal illusztráljuk. Az egyes anyagok főbb jellemzőit mutatja az alábbi táblázat: VégSz GyakSz Pilot0 Web0 szövegszó NA k 1.26 g 196 m szóalak NA-2 91k k 31.1 m 4.4 m lemma 58 k 42 k NA k 1A. táblázat: a cikkben tárgyalt anyagok főbb jellemzői Jogos a kérdés, hogyha egyszer a GyakSz anyagánál három nagyságrenddel nagyobb felmérések is elérhetők (és a közeljövőben várható a négy nagyságrenddel nagyobb Magyar Webkorpusz), akkor ugyan mi értelme van a SZÓTÁR nyilvánosságra hozatalának, a tudománytörténeti érdekesség? Bár nincs kizárva, hogy az anyag ilyen szempontból is érdekes lehet még a magyarországi számítógépes nyelvészet történetét kutatóknak, a szerző ennek megítélésére nyilván nem hivatott, és nem is célja a tudománytörténeti vizsgálódás. Az ebben a cikkben adott válasz három részből áll. Az első részben egyfajta OLVASS.EL-t adunk a SZÓTÁR-ban megtalálható számos olyan (pl. etimológiai) információról, amelyek a későbbi, nagyobb felmérésekből hiányoznak, tehát közzétételük mindenképpen indokolt. A második részben összehasonlítjuk a különböző, most nyilvánosságra 1

2 kerülő anyagok szerkesztési elveit: mint látni fogjuk, a metaadatok eltérő volta miatt az adatok (tehát a fenti táblázat oszlopai) nem vethetőek mechanikusan össze, ami már önmagában is elég ok a nyers adatok közzétételére. Végül a harmadik részben tárgyaljuk azokat a módszereket, különösen Zipf és Herdan törvényeit, melyekkel a táblázat NA (nincs adat) elemeit meg lehet becsülni: mint ebből kiderül, valójában a SZÓTÁR jóval nagyobb, a Pilot0 pedig jóval kisebb, mint amekkorának az 1A. táblázat alapján látszik. Cikkünk magja a harmadik rész, amelyben nemcsak bevezetjük az olvasót a modern számítógépes nyelvészetben központi szerepet betöltő statisztikai modellek információelméleti alapelveibe, hanem ezeket az elveket a gyakorlatban, konkrét numerikus becslésekre is felhasználjuk. Végső soron a SZÓTÁR és a többi anyag nyilvánosságra hozatalát nemcsak a tudományos etika elemi reprodukálhatósági követelménye teszi szükségessé (Marshall 2003), hanem a statisztikai módszer alapjai is: a nyelv tényeinek vizsgálatához nemcsak nagy és egyre nagyobb mintákra van szükség, hanem arra is, hogy ezek egymástól függetlenek legyenek, hiszen az eredmények alkalmazhatóságát csak ez garantálhatja. A SZÓTÁR teljes nyilvánosságra kerülése biztosítja, hogy mostantól az adatbázis ne csak a Szószablya projektet, hanem általában a magyar számítógépes nyelvészet egészét robusztusabbá, elméletileg és gyakorlatilag megalapozottabbá tehesse. 1. A SZÓTÁR mezőről mezőre Az Éltető László által kifejlesztett rendszer (amelyet a SZÓTÁR-on 1984 végén demonstráltunk) klasszikus, rekordorientált adatbázis-kezelő, amelyben minden szó (vagy lemma) mellett fix hosszúságú, fix értelmezésű mezők állnak. Eredetileg maga a szó is egy 31 karakter hosszú mezőt foglalt le, a mai rendszerben már természetesen nincs szükség arra hogy a mezőket szóközökkel töltsük fel csak azért hogy minden szó pontosan 31 karaktert foglaljon el. Példaképpen álljon itt néhány rekord a szótár fájlból: kedv n CVcvcc F8 O9 T01 A04 PL00 PO04 J03 kedvel v CVcvccvc F7 S78 O9 D1 Gt VY01 IK2 J03 kedves a CVcvccvc F7 O9 D1 T01 HA03 AD04 BB04 J09 FK032 SZF20 kedves a CVcvccvc F8 kedves n CVcvccvc F7 O9 D1 T01 A03 PL04 PO04 J09 FK032 kedvez v CVcvccvc F0 O9 D1 G00504 VY18 IK2 J03 kedvezés n CVcvccvcvvc F0 S78 O9 D1 T01 A03 PL04 PO04 kedvezmény n CVcvccvccvvc F4 Ö D1 T01 A03 PL04 PO04 J02 kedvezményes a CVcvccvccvvcvc F0 Ö D1 T01 HA00 AD07 BB03 J02 kedvez}o a CVcvccvcvv F6 O9 D1 T01 HA00 AD99 BB02 J02 kedvez}otlen a CVcvccvcvvccvc F3 O9 D1 T01 HA00 AD09 BB03 A szót (illetve szóalakot, ld. lentebb) követő első mező a szófaj: ez egy egybetűs kód, amely az alábbi értékeket veheti fel (baloldalt található az adott kategória számossága): n f}onév v ige a melléknév 1519 d határozószó 482 u számnév 340 e indulatszó 305 s névmás 180 c köt}oszó 90 p névutó 57 i igeköt}o 27 k kötött morféma 2 l latin prefix 1 r mutatószó Ezek a szófajkódok az ÉrtSz távolról sem vitathatatlan szófajbesorolásait tükrözik ahol ezek nem egyeznek meg a GyakSz által adott besorolással, ott ez utóbbiakat is feltüntetjük. A kódok jelentését a rendszer eredetileg FU 2

3 fájlokban tárolta (ld. Kornai 1986), ezeket most a Kulcs könyvtárban érheti el az olvasó: az SZF kódok (tehát a GyakSz szófajkódjai) Kulcs/gyak.faj alatt találhatók meg. A szófajt követi a szavak mássalhangzó magánhangzó szerkezetét mutató ún. CV-csontváz (angolul CV skeleton, ld. pl. Clements Keyser 1983). Egy célprogram segítségével minden szóhoz (például illemtanár) új, a CVcsontvázat tartalmazó mezőt rendeltünk (a példában vccvccvcvvc). A program természetesen nem tudott minden digráfról, trigráfról, illetve hangzókiesésről automatikusan dönteni, így a vízsugár típusú szavak CV-csontvázát kézzel kellett kijavítani. (Az összes kétes esetet, tehát mintegy 15 ezer szót át kellett nézni, de szerencsére csak néhány százat kellett kijavítani.) A CV-csontvázat követi a F(rekvencia) mező, amely a GyakSz részletes adataiból csak egyszámjegyű kivonatot ad: ez 0 akkor, ha a szó nem szerepel a GyakSz-ban; 1 akkor, ha 1 gyakorisággal szerepel; 2 akkor, ha többször szerepel, de ugyanabban az anyagrészben; 3 akkor, ha kétszer szerepel, de különböző anyagrészekben; 4 akkor, ha a statisztikai eszközökkel kialakított ún. módosított gyakoriság (Fmod, ld. lentebb) 0 és 2 közé esik; 5 akkor, ha Fmod 2 és 4 közé esik; 6 akkor, ha Fmod 4 és 8 közé esik; 7 akkor, ha Fmod 8 és 20 közé esik, végül 8 akkor, ha Fmod legalább 20 (ld. Kulcs/szótár.f). Mint a cikk második részében látni fogjuk, az F-ben tárolt információ a gyakoriságról ugyan durva, viszont megbízható tájékoztatást ad. Az adatok statisztikai természete miatt több tizedesjegyre csak a felső zónában lévő (F=8,9) szavak gyakoriságát lett volna érdemes megadni, ezek az adatok (melyek kézi használatra a GyakSz-ban eddig is elérhetők voltak), most digitális formában is elérhetővé válnak. Ezután O kulccsal az eredet (a Bárczi-féle Szófejtő Szótár alapján, ld. Kulcs/szótár.ere), majd a VégSz paradigmakódjai következnek. Átvettünk a GyakSz-ból néhány olyan kódot is (SZF, T-kód, homonímia-kód, utóbbiakról ld. Kulcs/gyak.t, Kulcs/gyak.hom), amelyek az egyes homonímák azonosítását könnyítik meg: tekintve, hogy a homonímák beosztása a két anyagban nem ugyanolyan, ezek összefésülése csak kézi munkával, esetről esetre haladva lenne megvalósítható. Ezek a rekordok tehát valójában nem jelentenek új szócikkeket, a SZÓTÁR kibővülése (jelenleg durván 72 ezer rekordból áll) tehát azoknak a szavaknak köszönhető, amelyeket a VégSz nem tartalmazott, ellenben a GyakSz igen. A GyakSz és a VégSz egyesítése azzal következménnyel járt, hogy a CV-csontváz kivételével egyik szempont szerint sem teljes a kódolás: azok mellől a szavak mellől, amelyek csak a GyakSz-ból származnak, hiányzik a debreceni kód, és azok mellől, amelyek a GyakSz félmillió szavas kiinduló anyagában nem szerepeltek (a gyakorisági kód 0) ez persze már önmagában elárul valamit az ilyen szavak gyakoriságáról. Természetesen ezeket a hiányokat jó lenne megszüntetni, ez azonban meglehetősen összetett feladat. Tekintve, hogy a SZÓTÁR kutatási célokra jelen állapotában is jól felhasználható, a teljességre törés önmagában nem indokolhatja a pótlólagos kódolással járó hatalmas munkát: célszerűbbnek tűnik az anyagot a HunSpell nyilvánosan elérhető tőtárával harmonizálni, hiszen a VégSz (és így a SZÓTÁR is) meglehetősen részletes információt tartalmaz a hangrendről, egyes toldalékokról, és paradigma-osztályba sorolást is ad (bár az anyag inhomogén, és ezt csak fokozta az az eljárás, hogy a tőszavak esetén a kódolók átvették az ÉrtSz minősítéseit, de összetételek esetén saját nyelvérzékükre hagyatkoztak ld. VégSz o.). 2. Az adatgyűjtés módszerei A szövegmintákon alapuló nyelvi feldolgozás során három munkafázist különíthetünk el: az első a szövegszavakra bontás avagy tokenizálás, majd a szövegszavak gyakorisági elemzése; a második a morfológiai alapú lemmatizálás, majd a szótövek gyakorisági elemzése; a harmadik az egyértelműsítés avagy dizambiguálás, majd az egyes szójelentések gyakorisági elemzése Szövegszavakra bontás Bár a nagyobb léptékű szótárak hagyományosan szövegmintákon, pontosabban az ezekből készült cédulakatalóguson alapulnak, a szövegszavakra bontás mint probléma fel sem szokott merülni, mert azt a kézi előfeldolgozás során a lexikográfusok mintegy észrevétlenül elvégzik. Egészen más a helyzet a gépi alapú feldolgozásnál, hiszen a gépnek semmi nem magától értetődő, sem az, hogy a nagy- és kisbetűs alakokat egybeejtjük-e (Aztat, AZTAT és aztat hány szövegszó-típusba kerül), sem az, hogy mit kezdünk az ilyen normatív szempontból esetleg szubstandard alakokkal. Általában már a szövegszavakra bontás során meg kell hozni számos olyan döntést, ami a későbbi fázisok eredményét nagyban befolyásolja, ezeket itt csak címszavakban soroljuk fel, durván az algoritmizálás növekvő nehézsége szerinti sorrendben. 3

4 Határoló elemek A tipikus határoló elem a szóköz (whitespace), de az algoritmusnak gondoskodnia kell a szóköz-értékű egyéb elemek, pl. a sorhagyó szóköz (HTML-ben ), a tabulátorjel (horizontal tab), a soremelés (carriage return, linefeed, vertical tab), a csengőjel (visible bell) és egyéb nyomdai értékkel nem rendelkező (non-printing) karaktereknek, illetve ezek sorozatainak helyes kezeléséről is Elhagyandó elemek A szavak elején és végén gyakran találunk olyan írásjeleket, mint a pont, vessző, különféle zárójelek, melyeket szótárkészítési szempontból nem szokás a szó részének tekinteni. Ezek törlése nem mindig triviális feladat, hiszen esetenként mégis a szó részének számítanak, pl. Compute! magazin, Dr. Schwartz. Külön kiemeljük a kötőjeleket, amelyek szó végén az elválasztást jelölik, vagyis tisztán nyomdatechnikai okokból jelennek meg, és így a tokenizálásnál elhagyandóak. A kisés nagybetű jellegű esetek ez alól kivételt jelentenek, hiszen a kötőjel itt összetételből törölt elemet jelző konvenció, nem pedig a *kisés szó elválasztására szolgál Karakternormalizálás A modern (pl. a világhálón található) szövegekben igen sokféle karakter-kódolás található, ezek közül külön kiemeljük az ISO és szabványokat, és a HTML-entitások rendszerét. Például az ő betű (és egyben teljes jogú szó) lekódolható mint oktális 221, 265 és mint HTML ô is. Ide tartozik a fontosabb szövegszerkesztő programok, pl. a TeX/LaTeX által használatos kódok helyes kezelése is és a hálózaton sajnos rendkívül elterjedt ekezettelen irasmod is Nagy- és kisbetű Gyakorlati szempontból négyféle mintázatot szokás elkülöníteni: MINDNAGY, Elejenagy, mindkicsi és MindenEgyéb. Bár minden (számokat és írásjeleket már nem tartalmazó) szóalak minden előfordulása beleilleszthető ezen minták valamelyikébe, algoritmikus szempontból külön nehézséget okoz a kontrasztív és egyéb hangsúlyt jelző nagybetűk (erre MOST vigyázz) elkülönítése a betűszók inherens nagybetűitől (FTC), továbbá a mondat eleji és a mondaton belüli nagybetűhasználat megkülönböztetése Egybe, külön, kötőjellel, elszakítva Az akadémiai helyesírási szabályok pedagógiai szempontból igen kudarcos részét alkotják az egybe- és különírás szabályai: az empirikus anyag igen komoly számmal tartalmaz olyan alakokat, ahol a szabályt a szerző nem tartja be. Külön megemlítjük az elváló igekötők (nem pistul bele lehetőleg belepistul nem pedig pistul bele alatt gyűjtendő) és a klitikumok (tényleg pesti-e) esetét ban kitérünk a konvencionálisan szóközzel írt, de valójában összetett szót (frázist) alkotó alakokra is (Magyar Nemzeti Bank, 12 pont) Gyakoriság A fenti kérdések kezelésére kialakított szerkesztői elvek ismerete nélkül még azok a látszólagosan triviális kérdések sem válaszolhatók meg értelmesen, hogy hány szó(alak)ból álló szövegminta alapján készült a vizsgálat, hány különféle alakot találtunk, és ezeknek mi a gyakorisága (ld. fentebb az 1A. táblázatban). A VégSz és a GyakSz elveit jól leírja ezek bevezetője, a Magyar Webkorpusz esetén pedig a fenti feladatokat végző algoritmusok (is) nyilvánosan, forráskóddal együtt elérhetőek lesznek, így itt csak a már említett Pilot0 felmérés tokenizálási hátterét tárgyaljuk. A Northern Light keresőmotor belső felépítéséből adódó okok miatt a szövegszavak mind nagybetűs alakra vannak konvertálva, ezekben 8-bites magyar ékezetek nincsenek (az ékezetek 123-kóddal szerepelnek), a szövegszavak elválasztása agresszív (a kötőjel kizárólag szó elején, az előjeles számokban megengedett), az írásjelek törlése (a számokban megengedett tizedespont kivételével) hasonlóan. Tokenizálásra kerülnek viszont az URL-ek, így lett a leggyakoribb szóalak a HU, hiszen ez minden vizsgált lapnál legalább egyszer előfordul. Külön hangsúlyozzuk, hogy ebben a felmérésben nem egyszerűen szógyakoriságot (text frequency, TF), hanem dokumentumgyakoriságot (document frequency, DF) mértünk, tehát ha egy alak mellett a 3 szám szerepel, az nem azt jelenti hogy 1.26 milliárd szóból háromszor fordult elő, hanem azt, hogy 3 olyan weblap volt ahol előfordult, esetleg laponként többször is. Illusztráció gyanánt álljon itt a Pilot0 gyakorisági lista első 10 eleme (zárójelben a GyakSz megfelelő adatai): 4

5 HU (0) A (42655) LISTS (0) DIRECTORIES (0) AZ (13168) ÉS (8759) IS (4426) (0) E (164) NEM (8624) Mint látható, az adatok mechanikus összevetésére nincs mód, de annyi azért már a fentiekből is kikövetkeztethető hogy a Pilot0 hiába alapul több ezerszer nagyobb mintán, mint a GyakSz, adatai ilyen formában még nem alkalmasak a GyakSz eredményeinek finomítására. Az ehhez szükséges statisztikai módszerek alapjaival a 3.2. részben foglalkozunk Tövezés A szótő (illetve összetételek esetén szótövek) megtalálása igen komplex nyelvészeti feladat, melynek nehézségeit itt nem is tárgyaljuk, hiszen a morfológiai szakirodalom nagy része valamilyen formában ezzel foglalkozik. Számítógépes lexikográfiai szempontból azonban e nehézségek igen nagy része kikerülhető az alább felsorolt általános elvek következetes érvényesítésével Ragok és jelek igen, képzők és összetételek nem A leíró nyelvészet hagyományosan két affixum-kategóriát különböztet meg: derivációs és inflexiós elemeket; a magyar nyelvészeti hagyomány ezzel szemben három kategóriával dolgozik: képző, jel, rag. Mint Antal (1977) kimutatta, a képzők derivációs, a ragok és jelek inflexiós elemek, így a továbbiakban a jeleket mi is a ragokhoz soroljuk. Különösen az információ-visszakeresés (IV, angolul information retrieval, IR) szempontjából fontos, hogy azokat a szóalakokat, amelyek ugyanazt jelentik, csupán mondatbeli szerepük más, ugyanahhoz a lemmához soroljuk (utazásra, utazáshoz, utazások stb.) és megfordítva, olyan szóalakokat, amelyek nem jelentik ugyanazt (út, utas, utazás) ne soroljunk egy lemma alá, még akkor sem, ha teljesen világos, hogy egy tőből képezzük őket Összetett szavak nem Információ-visszakeresési kontextusban magától értetődő, hogy aki talajgyalut keres annak a talajjal vagy a gyalukkal foglalkozó weblapok nem lesznek különösebben érdekesek, így az összetett szavak elemzése, bár tisztán morfológiai szempontból teljesen indokolt, az IV szempontjából egyenesen káros. Kivételt jelentenek az elváló elemek (a magyarban tehát elsősorban az igekötők), hiszen ezeknél a különböző szóalakok (pl. belehúzott, húzzál bele) valóban ugyanazt a jelentést belehúz, iparkodik hordozzák Produktív, átlátható, (szófajváltó) képzők igen Kivételt jelentenek alól azok a képzők, amelyek az alábbi három, egymást többnyire támogató kritériumnak mind megfelelnek: legyenek produktívak (diakrón szempontból a szótárban gyakran tűnjenek fel új ilyen elemek), legyenek átláthatóak (a képzett szó jelentése a tő és a képző jelentéséből előre megjósolható legyen), és a bemenő tő szófaját változtassák meg. Világosan ide tartozik pl. a melléknévből főnevet képző -ság/ség vagy a főnévből melléknevet képző -as/es/os/ös. Természetesen ezeknél is vigyázni kell a túlelemzés elkerülésére, tehát fürdőszobás annyi mint fürdőszobával rendelkező de házas tipikusan házasságban élő nem pedig házzal rendelkező, tehát a lexikalizálódott forma elérésénél az elemzést abba kell hagyni. A Szószablya projekt keretében fejlesztett HunStem tövezőben a felhasználó által beállítható, hogy mely képzőket választunk le. A -ság és -os mellett ezek alapértelmezésben a következőek: -i, -jú, -nyi (ha külön melléknévként nincs felvéve); -gat (csak az l, z, zik, szt végű igéknél, ahol a gyakorító mozzanat a jelentést csak igen kevéssé befolyásolja); -cska kicsinyítő (bár ez nem szófajváltó); a melléknévi igenévi alakok -andó, -ott, -ó; végül a feltételes -hat. Viszont tulajdonnevek esetében akkor is eltávolítjuk az -i képzőt ha a képzett alak szerepel a szótárban: budapesti Budapest. 5

6 Gyakoriság Hogy a Szószablyában mi kerül egy (morfológiai alapú) lemmába azt a fentebb összefoglalt tövezési elvek definiálják. Miután ezek nem esnek teljesen egybe sem a magyar lexikográfiai hagyományt hűen követő VégSz, sem a saját jóval kifinomultabb logikáját követő GyakSz lemmatizálási elveivel, az 1A. táblázat oszlopainak összehasonlítását ez is nehezíti, bár nem teszi lehetetlenné. A Pilot0 esetén a fő problémát valójában nem a tokenizálási és lemmatizálási konvenciók eltérő volta, de még csak nem is a gyakorisági számadatok eltérő jellege (TF helyett DF) jelenti, hanem a kiinduló adatok tisztítatlan volta. Míg a VégSz és a GyakSz (tehát a SZÓTÁR egésze) nyilvánvalóan magyar nyelvű anyagokon alapszik, a Pilot0 mintában a.hu tartományba tartozó angol, német, és más nyelvű lapok szabadon keverednek a magyar nyelvűekkel. Mint későbbi vizsgálataink mutatják, a teljes minta jelentős részét ezek adják! Az alábbiakban közöljük az 1A. táblázat egy korrigált változatát, melynek első oszlopában megelőlegezünk néhány olyan becslést, melyet csak a 3. részben indoklunk majd meg részletesen. A Pilot0 oszlopban szereplő összesítésből kivettük azokat az alakokat, melyeket a Szószablya keretében kifejlesztett hunspell helyesírás-ellenőrző (Németh 2003) nem fogad el Egyértelműsítés VégSz GyakSz Pilot0 Web0 szövegszó 2.7 m 487 k 786 m 191 m szóalak 140 k 91k k 2.9 m 4.4 m lemma 58 k 42 k 702 k 611 m 1B. táblázat: a főbb jellemzők korrigált (becsült) értékei A szótárkészítés fontos lépése az egyes szójelentések (pl. nap 1 égitest és nap 2 időszak ) megkülönböztetése. A probléma nehézségének legfontosabbb mérőszáma az elágazási fok, mely durván azt méri, hogy egy szóalakhoz átlagban hány értelem tartozik: ez a GyakSz alapján megközelítőleg 1.17 (tehát a legtöbb szó egyértelmű). A lentebb részletesen tárgyalt technikai okok miatt (ld rész) nem is ezt a számot érdemes használni, hanem ennek 2 alapú logaritmusát, amely a többértelműséget bitekben méri: a GyakSz alapján ez a mennyiség 0.23 bit. Az egyértelműsítés feladatát logikailag két részre bonthatjuk: szófaj szerinti, illetve jelentés szerinti egyértelműsítés Szófaj szerinti egyértelműsítés Igen gyakran a szavak (mind a szótövek mind a szóalakok) különféle értelmei már a szófaj alapján elkülönülnek: pl. az ég 1 égbolt főnév, az ég 2 tűz emészti pedig ige. A morfológiai elemzés a szófaj felismeréséhez igen gyakran jelentős segítséget ad: égek nyilván ige, egek főnév. Bár vannak szép számmal a morfológia alapján eldönthetetlen esetek (pl. legyek többes számú főnév vagy egyes szám első személyű ige), ha a rendelkezésünkre áll egy szófajbesoroló algoritmus (angolul part of speech tagger), akkor ezzel a többértelműségek igen nagy részét kezelni tudjuk: a GyakSz anyagán mérve 0.20 bitet Egy szófajon belüli egyértelműsítés Kiinduló példánk (nap 1 égitest és nap 2 időszak ) egyértelműsítéséhez a szófaji információ nem elegendő, itt ezen túlmenő kontextusra van szükség. Az esetek egy részében ezt a közvetlen szövegkörnyezet megadja (sikeres nap nyilván időszak míg fősorozatbeli nap nyilván égitest ), de máshol még ez sem elég, pl. millió nap. Ahol a megoldás olyan sok szintaktikai, szemantikai, sőt gyakran pragmatikai változó függvénye, mint ebben a problémában, és ahol e változók pontos mibenléte nem is ismert, ott előtérbe kerül a statisztikai elemzés. Ennek alapján a szófajon belüli többértelműségek elágazási foka jóval kisebb, a GyakSz anyagán mindössze 1.02: a biteket összevetve tehát azt mondhatjuk, hogy a morfológiai elemzés az egyértelműsítés problémáját több mint 87%-ban megoldja. 3. A gyakoriság kvantitatív törvényei 3.1.-ben bevezetünk egy meglepően egyszerű valószínűségszámítási modellt, amely a további tárgyalás alapja lesz. (A részletes levezetéseket elhagyjuk, mindvégig csupán a középiskolás matematikaanyag ismeretét tételezzük fel.) A hagyományos nyelvészet legfontosabb adatstruktúrája a szótár, a modern nyelvészeté pedig a rejtett Markov modell (Hidden Markov Model, HMM): 3.2.-ben bemutatjuk, hogy a matematikai modell hogyan alkalmazható nem csak 6

7 e két alapvető struktúrára, hanem a számítógépes nyelvészetnek számos olyan látszólag más területhez tartozó algoritmusára is, mint a 2.1.-ben tárgyalt szavakra bontás (tokenizálás), a 2.2.-ben tárgyalt morfológiai elemzés (lemmatizálás), és a 2.3.-ban említett szófajmeghatározás. A gyakoriság Zipf és Herdan nevéhez kapcsolódó törvényeit a 3.3. szakaszban tárgyaljuk Az egyszerű (unigram) modell Legyen egy nagy csomag kártyánk, melyeknek előlapján nemcsak a szokásos szimbólumok (makk hetes, pikk dáma) hanem egy absztrakt F i (1 i K) szimbólumkészlet bármely eleme szerepelhet. A kártyák hátlapjáról egy másik (diszjunkt) B j (1 j L) szimbólumrendszer elemei olvashatók le nem kötjük ki sem azt, hogy F i és B i között egy-egy megfeleltetés legyen, sem azt hogy a csomagban minden F i, B j feliratozású kártya előforduljon. Ahhoz sem ragaszkodunk, hogy az F i (vagy B j ) valószínűségei egyenletesek legyenek, viszont ahhoz igen, hogy amikor a csomagból újabb és újabb lapokat húzunk (elemi Bernoulli kísérlet), akkor ezt a lap visszatételével és a csomag újbóli megkeveréssel kössük össze (azért hogy minden lap ugyanabból az eloszlásból vett véletlen minta legyen). Lehet célunk például egy olyan magyar-angol szótár, amely (i) nem csak lemmákat, hanem szóalakokat is tartalmaz, továbbá (ii) nemcsak alternatív fordításokat, hanem ezek gyakoriságát is megadja. Ebben az esetben a kártyák látható oldalán (előlapján) a magyar szavakat, hátlapjukon pedig ezek angol fordításait tüntetjük fel, ügyelve arra, hogy a magyar szavak a magyar, az angol szavak pedig az angol szövegben vett előfordulási gyakoriságukkal legyenek szerepeltetve. Külön említésre érdemes az a standard eljárás, hogy a szótárat mindkét oldalon kiegészítjük egy ismeretlen F 0, illetve B 0 szóval: erre részben az ad okot, hogy a szótárból mind a magyar mind az angol oldalról természetesen hiányoznak elemek, részben pedig az, hogy a fordítások listája sem mindig teljes. A két eloszlás, tehát P (F i ) és P (B j ) empirikusan vizsgálható. Például megmérhetjük hogy az angol oldal entrópiája (az információ továbbításához átlagban szükséges bitek száma) H(F ) 12.7, míg a magyar oldalé H(B) Az ehhez szükséges adatok akár egynyelvű gyakorisági szótárakból, illetve egynyelvű korpuszokból is könnyen beszerezhetők/számolh az alábbi módon. Az információelmélet alapvető definíciója szerint a P (F i ) valószínűségekkel adott eloszlás entrópiája H F = i P (F i ) log(p (F i )), (1) ahol szokás szerint 2 alapú logaritmust és a 0 log(0) = 0 konvenciót használjuk. Bár a P (F i ) számokat pontosan nem ismerjük, rendelkezésre áll ezeknek a korpuszban mért (korrigálatlan) becslése: ha a korpusz az F i alakot n i -szer tartalmazza, és összesen N szövegszóból áll, akkor ez P (F i ) = n i /N. Ezt a maximum likelihood becslést alkalmazva például a GyakSz alapján a magyar széppróza entrópiája nak adódik. A Shannon-féle kódolási tétel alapján tehát a széppróza minden egyes szövegszava átlagban ennyi bit információt továbbít. Ez a szám lényegesen kisebb a fentebb idézett 15.4 bitnél, amit elsősorban azzal magyarázhatunk, hogy a képletet a tulajdonnevek elhagyása (tehát a korpusz információtartalmának jelentős csökkentése) után alkalmaztuk A morfológiai elemzés mint unigram modell Legyenek a kártyák előlapján a szóalakok, hátoldalán pedig a szótövek (szótári alakok, lemmafejek). Az (1) képlettel kiszámolhatjuk nemcsak a szövegszavak alapján vett H F, hanem a lemmák alapján vett H B entrópiát is: ez a GyakSz esetében bitnek adódik. A kettő különbsége éppen azt fejezi ki, hogy a morfológiai alapú lemmatizálás mennyit mos el a részletekből: mint látható az eredmény meglehetősen alacsony, mindössze 1.38 bit, ami azt jelzi hogy egy szótő (lemma) átlagban = 2.6 alakban fordul elő. Bár az egyértelműsítés hatását (amely mintegy 0.2 bitre tehető) ebben a számításban elhanyagoltuk (ld. lentebb), a 2.6-os szorzó lényegesen jobban kifejezi a morfológiai rendszer bonyolultságát, mint az egy lemmához tartozó szövegszavak (gyakorisággal súlyozott) átlaga, amely ugyanezen a korpuszon csak Ezeket az értékeket felhasználhatjuk az 1A. táblázat első oszlopából a VégSz hiányzó szóalakszámának (NA-2) megbecslésére: mint látni fogjuk az alak/lemma arány segítségével alulról (127 k alak), a reálisabb elágazási szám segítségével pedig felülről becslünk (151 k alak) meg: az 1B. táblázatban szereplő 140 k egyszerűen ezek középértéke. Miután a dolog az információelméletben járatlanoknak szokatlannak tűnhet, tekintsük egy egyszerű példanyelvet, amelyben csupán 4 szó van: lesz, lett, meleg, és hideg, és tegyük fel, hogy a korpusz végig meleg lett, illetve hideg lesz és hasonló mondatokból áll. Miután a négy szó mindegyike egyforma, 1/4-es valószínűséggel szerepel, az eloszlás entrópiája H F pontosan 2 bit. A morfológiai elemzés során 3 tövet különítünk el: len- a lesz, lett alakok töve, a meleg, hideg szavak pedig önmaguk tövei. Mivel az igei tő kétszer olyan valószínű, mint a melléknéviek, a kártyák 7

8 hátlapjának valószínűségi eloszlása (0.5, 0.25, 0.25), ennek entrópiája pedig 1.5 bit. A morfológiai elemzés hozadéka közvetlenül kiszámolható, hiszen a meleg, hideg tövek ismeretében a pontos alak meghatározásához 0 bit, a lenismeretében pedig 1 bit információra van szükség, ezek valószínűségekkel súlyozott átlaga tehát 0.5 bit. Általában, ha a kártyák hátlapja és előlapja közti asszociáció az egyik irányban egyértelmű (mint példánkban, ahol minden alakhoz egyértelmű tő tartozik), akkor az asszociáció H F B információtartalmát egyszerűen az előlapi és a hátlapi entrópiák különbségeként nyerjük, példánkban 0.5= Az ebből számolt elágazási 2 H elágazási fok példánkban = 1.41, míg a kvantitatív nyelvészetben gyakran mért alak/lemma arány ennél a példánál 4/3=1.33. Bár ez jóval egyszerűbben számolható (ezért igen hasznos) mérőszám, mint a példa is mutatja, a valós morfológiai komplexitásra csupán alsó becslést ad, és annak sem túl pontosat. Összefoglalva az eddigieket, minden olyan rendszer, ahol valószínűségi súllyal szereplő bemenethez (előlapi szimbólumok) valószínűségi súllyal rendelkező kimenetet (hátlapi szimbólumok) rendelünk, felfogható úgy, mint egy P (F i, B j ) (kártya)modell. Ezen valószínűségekből már kiszámolható az előlapok eloszlásának H F, a hátlapok eloszlásának H B, és az egész rendszernek H F,B entrópiája. Gyakorlati szempontból különösen fontosak a P (B j F i ) feltételes eloszlások és P (F i B j ) duálisaik, hiszen ezek mondják meg, hogy milyen gyakorisággal fordítjuk a nap szót, mint sun, illetve, mint day, vagy, hogy milyen valószínűséggel rendeljük például a kapunk szóalakhoz a kapu, illetve a kap tövet. A GyakSz anyagában a megtesz tőnek a legnagyobb az entrópiája (78 alak, 5.00 bit), ezt követi az elvisz (108 alak, 4.94 bit). Mint ez a példa is mutatja, az alaktani változatosságot sokkal jobban jellemzik a feltételes entrópiák, mint az alakok leszámolása: a megtesz = 32.1, az elvisz pedig = 30.7 elágazási fokkal fordul csak elő. Ha a rögzített F i -hez tartozó P (B j F i ) eloszlás entrópiáját H Fi -vel jelöljük, akkor az asszociáció egészének H B F entrópiáját ezek súlyozott átlagai adják meg, képletben: H B F = i P (F i )H Fi. (2) A gyakorlati számításokat nagyban megkönnyíti, hogy érvényesek az alábbi összefüggések: H F + H B F = H B + H F B = H F,B. (3) Hangsúlyozzuk, hogy az asszociáció nem szimmetrikus: pl. annak az ismeretéből, hogy a magyar szóalakok entrópiája 15.4 míg az angoloké csak 12.7, egyáltalán nem következik, hogy a fordítás feladatának komplexitása éppen a különbség (2.7 bit/szó) lenne. (Valójában a magyar-angol rendszer teljes entrópiája csak párhuzamos szövegen mérhető, és ha ez mondjuk 20 bit, akkor a magyar-angol fordítás =4.6, az angol-magyar fordítás pedig tehát 7.3 bit megadását igényli.) Ha az ilyen valószínűségi információkkal kiegészített szótárat invertáljuk, tehát a kártyákat hátulról nézzük (a P (B j F i ) ismeretében P (F i B j ) triviálisan számolható), akkor már el is jutottunk a rejtett Markov modellek (Hidden Markov Model, HMM) alapjaihoz. Az ilyen modellekben a kártyák hátoldalára a modell rejtett állapota, a kártyák elejére pedig a modell felszíni megfigyelései (angolul observables) vannak felírva: az unigram HMM ezt még az egyes állapotok közti átmenetvalószínűségek táblájával (és esetleg bemeneti valószínűségekkel) egészíti ki. Az unigram HMM tehát a gyakorisági szótár fogalmának általánosítása. Az n-gram HMM még ennél is tovább lép, vagyis az állapotok kimeneti valószínűségeit nem csak a közvetlenül megelőző, hanem az előző n állapot mibenlététől teszi függővé Zipf és Herdan törvényei Ha a szavakat gyakoriság szerint csökkenő sorrendbe állítjuk, Zipf klasszikus törvénye azt mondja ki, hogy az i-edik szó gyakorisága, p i arányos 1/i B -vel, ahol B 1-nél valamivel nagyobb konstans (Mandelbrot 1959), tehát log(p i ) log(i)-nek B iránytangensű lineáris függvénye lesz. Ezt mutatja az alábbi ábra: 8

9 12 "gyaksz" "pilot0" "web0" ábra: Zipf törvénye A normalizálatlan Zipf-görbék tengelymetszetei a korpusz méretével együtt nőnek, tehát az egyenesek feljebb és feljebb csúszása természetes. Ahol viszont az iránytangens jelentős megváltozását látjuk ott joggal gyanakodhatunk strukturális okokra (ld. lentebb). Zipf törvényével lényegében ekvivalens Herdan (1960) törvénye, mely szerint egy N elemű mintában N C különböző elemet találunk: a Herdan-törvény C konstansa éppen a Zipf-törvény B konstansának reciproka (Kornai 1999). Valójában B nem becsülhető jól a fentihez hasonló görbék lineáris regressziójával, sokkal célszerűbb a becslést Herdan törvényén keresztül végezni: ha a minta mérete N, és ezek közt V különböző van, akkor C = log(v )/log(n), B = log(n)/log(v ). Ügyelni kell arra, hogy a minták növekedtével a becsült érték C-hez felülről, és viszonylag csak lassan konvergál, ezért kis minták C-re csak felső, B-re pedig csak alsó becslést adnak (Mandelbrot 1961). Ebből a szempontból a félmillió szavas GyakSz még nagyon kicsi, az ebből számított C = 0.87 érték ezért csak durva felső becslésnek tekinthető. Miután a Pilot0 DF és nem TF alapú, ezért C-re alsó becslést ad: ez Ismét a kettő középértékét véve, C = 0.8- cal nyerjük az 1A. táblázat első oszlopából a VégSz hiányzó tokenszámának (NA-1) becslését: 140 k szóalakhoz durván 2.7 m szót kell átnézni. Azt állítjuk tehát, hogy ha veszünk egy ekkora random mintát a magyarból, akkor ebben lesz legalább 140 k különböző szóalak, és ezek morfológiai elemzés után legalább 58 k lemmába fognak tartozni. (A jelentés szerinti egyértelműsítés hatása, mint fentebb láttuk, elhanyagolható, de ez természetesen a lemmaszám növekedését, nem pedig csökkenését hozná.) Azt viszont nem állítjuk, hogy ez az eljárás éppen a VégSz szókincsét, tehát a magyar szótárkészítési hagyomány szerint legfontosabbnak ítélt szavakat eredményezné! Arra természetesen nem adható becslés, hogy pontosan ezeket a szavakat mennyi anyag átnézése után találnánk meg lehet hogy soha, mert egyik vagy másik szó a szótárban csak a cédulakatalógusban ejtett hiba miatt szerepel. Értelmesebb az a kérdés, hogy mekkora mintában garantálhatjuk hogy a VégSz 58 k szavának mondjuk 95% már szerepelni fog: ennek okai a VégSz és a GyakSz anyagának szisztematikus összevetéséből már világosak. Fenti konzervatív becsléseink alapján egy GyakSz-méretű (487 k szavas) mintában durván = szóalakot várhatunk, melyek durván 14 k lemmába sorolhatók, tehát a VégSz anyagának java, 58-14=44 k lemma, a GyakSz-ban eleve nem szerepelhetne. Bár a GyakSz ennél jóval nagyobb változatosságot mutat, lévén tudatosan válogatott (nem-random) minta, a két anyag összevetéséből az derül ki, hogy mintegy 36 k lemma, tehát a VégSz anyagának többsége, valóban nem szerepel a GyakSz-ban. Ha ezen szavak listáját megvizsgáljuk a jóval nagyobb Pilot0 felmérésben abban a reményben, hogy a félmillió szavas GyakSz hiányosságait a több milliárd szavas web majd bepótolja, akkor arra a meghökkentő eredményre jutunk, hogy ez távolról sincs így. A több ezerszeres korpusznövekedés a hiányzó 36 k lemmának mindössze negyedét pótolja, vagyis összesen 9 k olyan lemmát találunk, amelyik a GyakSzban még nem, de a Pilot0-ban már szerepel. 9

10 A maradék kézi átnézése rögtön világossá teszi, hogy mi az eltérés oka: a VégSz tele van olyan lemmákkal, mint ágfa vagy áfium, melyekről a kortárs magyar beszélő legfeljebb homályosan tudja, hogy mit jelentenek. Amíg a Török Áfium Ellen Való Orvosság ki nem kerül a világhálóra, addig az áfiumot a Pilot0 és Web0 jellegű felmérések egyszerűen nem fogják megtalálni. Ami tehát a VégSz erénye, a magyar lexikográfiai hagyomány követése, az a egyben hátránya is: a hagyomány diakrón alapú. Miután a kortárs nyelv számára ez csak egy a vizsgálható nyelvi rétegek közül, és a szótárkészítésben nincs is kitüntetett szerepe, az elsősorban a kortárs nyelvhasználat felé forduló nyelvtechnológiai alkalmazások nem fogadhatják be kritika nélkül a hagyományos magyar lexikográfia eredményeit. Ezeknek digitális formában való közzététele azonban mindenképpen hasznos, nemcsak azért, mert a SZÓTÁR számos olyan adatot és szempontot tartalmaz amelyek a korszerűbb és nagyobb felmérésekből hiányoznak, hanem azért is, mert a statisztikai elemzést ezen adatok bevonása jóval robusztusabbá teszi. Köszönetnyilvánítás Ez úton is szeretnék köszönetet mondani Füredi Mihálynak és Prószéky Gábornak, Könyves-Tóth Kálmánnak, aki a VégSz lyukkártyáit megmentette az enyészettől, és mindazoknak, akik annak idején az SZTAKI-ban a SZÓTÁR létrehozásához hozzájárultak: Bodó Évának, Détári Györgynek, Éltető Lászlónak, Tóth Péternek, és Vámos Tibornak. Az anyag nyilvánosságra hozatalát az Axelero Internet hathatós támogatása tette lehetővé, e munka megírását pedig az IHM IKTA programja. Külön köszönet a Szószablya projekt résztvevőinek, akik a cikk megírásához számos hasznos tanáccsal, anyaggal, és észrevétellel járultak hozzá. Irodalom Antal L. 1977: Egy új magyar nyelvtan felé. Magvető, Budapest. Clements, N. Keyser, S. 1983: CV Phonology. MIT Press, Cambridge, Mass. Éltető L. 1985: Uj adatbáziskezelő rendszer VM/CMS alatt. Információ Elektronika. Kornai A 1986: Szótári adatbázis az akadémiai nagyszámítógépen. MTA Nyelvtudományi Intézet Working Papers II Kornai A. 1999: Zipf s law outside the middle range. Proc. Sixth Meeting on Mathematics of Language, University of Central Florida, Mandelbrot, B. 1961: On the thory of word frequencies and on related markovian models of discourse. In R. Jakobson (ed): Structure of language and its mathematical aspects. American Mathematical Society, Providence RI, Marshall, E. 2003: The UPSIDE of Good Behavior: Make Your Data Freely Available. Science v 299 Feb 14 p 900. Papp F. 1969a: A Magyar Nyelv Szóvégmutató Szótára. Akadémiai Kiadó. Budapest. Prószéky G. 1985: Automatizált morfológiai elemzés a nagyszótári munkálatokban. Kézirat, MTA Nyelvtudományi Intézet 10

A szógyakoriság és helyesírás-ellenőrzés

A szógyakoriság és helyesírás-ellenőrzés A szógyakoriság és helyesírás-ellenőrzés Halácsy Péter 1, Kornai András 2, Németh László 1, Rung András 3, Szakadát István 1 és Trón Viktor 4 1 Budapesti Műszaki és Gazdaságtudományi Egyetem, Média Oktatási

Részletesebben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9. Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból

Részletesebben

Matematikai geodéziai számítások 6.

Matematikai geodéziai számítások 6. Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre

Részletesebben

Informatikai Rendszerek Alapjai

Informatikai Rendszerek Alapjai Informatikai Rendszerek Alapjai Dr. Kutor László A redundancia fogalma és mérése Minimális redundanciájú kódok 1. http://uni-obuda.hu/users/kutor/ IRA 2014 könyvtár Óbudai Egyetem, NIK Dr. Kutor László

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Mesterséges intelligencia, 7. előadás 2008. október 13. Készítette: Masa Tibor (KPM V.)

Mesterséges intelligencia, 7. előadás 2008. október 13. Készítette: Masa Tibor (KPM V.) Mesterséges intelligencia, 7. előadás 2008. október 13. Készítette: Masa Tibor (KPM V.) Bizonytalanságkezelés: Az eddig vizsgáltakhoz képest teljesen más világ. A korábbi problémák nagy része logikai,

Részletesebben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

Zárthelyi dolgozat feladatainak megoldása 2003. õsz

Zárthelyi dolgozat feladatainak megoldása 2003. õsz Zárthelyi dolgozat feladatainak megoldása 2003. õsz 1. Feladat 1. Milyen egységeket rendelhetünk az egyedi információhoz? Mekkora az átváltás közöttük? Ha 10-es alapú logaritmussal számolunk, a mértékegység

Részletesebben

Magyar nyelvtan tanmenet 4. osztály

Magyar nyelvtan tanmenet 4. osztály COMENIUS ANGOL-MAGYAR KÉT TANÍTÁSI NYELVŰ ÁLTALÁNOS ISKOLA Magyar nyelvtan tanmenet 4. osztály 2013/2014 Tanítók: Tóth Mária, Buruncz Nóra Tankönyvcsalád: Nemzeti Tankönyvkiadó Anyanyelvünk világa 4. osztály

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori

Részletesebben

BASH SCRIPT SHELL JEGYZETEK

BASH SCRIPT SHELL JEGYZETEK BASH SCRIPT SHELL JEGYZETEK 1 TARTALOM Paraméterek... 4 Változók... 4 Környezeti változók... 4 Szűrők... 4 grep... 4 sed... 5 cut... 5 head, tail... 5 Reguláris kifejezések... 6 *... 6 +... 6?... 6 {m,n}...

Részletesebben

Egy kvantitatív szemiotika felé? Takács Boglárka

Egy kvantitatív szemiotika felé? Takács Boglárka ב ה Egy kvantitatív szemiotika felé? Takács Boglárka http://www.prezzey.net Medizinische Universität Wien Mikata Kft. Így merült fel a probléma: Hogyan lehet megállapítani egy jelsorozatról, hogy természetes

Részletesebben

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07.

Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás január 07. Értékelés a BUS programhoz elkészült termékek magyar változatáról Készítette: Animatus Kft. Jókay Tamás 2011. január 07. Tartarlom Guide book,,...3 Trainer s slides,,...4 Trainer s handbook,,...5 CD,,...6

Részletesebben

Különírás-egybeírás automatikusan

Különírás-egybeírás automatikusan Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

dr.xlsx A programról Szövegműveletekhez használható függvények

dr.xlsx A programról Szövegműveletekhez használható függvények dr.xlsx A programról A CD struktúrája A CD 9 munkafüzetben mutatja be a Microsoft Excel 2003, 2007 és 2010 függvényeit. Az egyes munkafüzetek a "tartalom" munkafüzetből érhetők el a munkafüzet nevére kattintással.

Részletesebben

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8. Algoritmuselmélet 2-3 fák Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 8. előadás Katona Gyula Y. (BME SZIT) Algoritmuselmélet 8. előadás

Részletesebben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

Dr. Wührl Tibor Ph.D. MsC 04 Ea. IP P címzés

Dr. Wührl Tibor Ph.D. MsC 04 Ea. IP P címzés Dr. Wührl Tibor Ph.D. MsC 04 Ea IP P címzés Csomagirányítás elve A csomagkapcsolt hálózatok esetén a kapcsolás a csomaghoz fűzött irányítási információk szerint megy végbe. Az Internet Protokoll (IP) alapú

Részletesebben

Adatbázis rendszerek. dr. Siki Zoltán

Adatbázis rendszerek. dr. Siki Zoltán Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete A számítógépes nyelvészet elmélete és gyakorlata Formális nyelvek elmélete Nyelv Nyelvnek tekintem a mondatok valamely (véges vagy végtelen) halmazát; minden egyes mondat véges hosszúságú, és elemek véges

Részletesebben

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség

Részletesebben

AZ EGÉSZSÉGESEN ÉS A FOGYATÉKOSSÁG NÉLKÜL LEÉLT ÉVEK VÁRHATÓ SZÁMA MAGYARORSZÁGON

AZ EGÉSZSÉGESEN ÉS A FOGYATÉKOSSÁG NÉLKÜL LEÉLT ÉVEK VÁRHATÓ SZÁMA MAGYARORSZÁGON AZ EGÉSZSÉGESEN ÉS A FOGYATÉKOSSÁG NÉLKÜL LEÉLT ÉVEK VÁRHATÓ SZÁMA MAGYARORSZÁGON DR. PAKSY ANDRÁS A lakosság egészségi állapotát jellemző morbiditási és mortalitási mutatók közül a halandósági tábla alapján

Részletesebben

Blonde. Szépségszalon, Szolárium, Spa, Fitness. Ügyviteli Rendszer. Funkcionális Specifikáció. Verzió 1.1

Blonde. Szépségszalon, Szolárium, Spa, Fitness. Ügyviteli Rendszer. Funkcionális Specifikáció. Verzió 1.1 Blonde Szépségszalon, Szolárium, Spa, Fitness Ügyviteli Rendszer Funkcionális Specifikáció Verzió 1.1 Blonde Funkcionális Specifikáció v1.1 2012.01.12 1 Tartalomjegyzék 1. Bevezetés 3 1.1. A dokumentum

Részletesebben

megtalálásának hihetetlen nehéz voltán alapszik. Az eljárás matematikai alapja a kis FERMAT-tétel egy következménye:

megtalálásának hihetetlen nehéz voltán alapszik. Az eljárás matematikai alapja a kis FERMAT-tétel egy következménye: Az RSA módszer Az RSA módszer titkossága a prímtényezős felbontás nehézségén, a prímtényezők megtalálásának hihetetlen nehéz voltán alapszik. Az eljárás matematikai alapja a kis FERMAT-tétel egy következménye:

Részletesebben

A maximum likelihood becslésről

A maximum likelihood becslésről A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának

Részletesebben

Bevezetés a programozásba. 5. Előadás: Tömbök

Bevezetés a programozásba. 5. Előadás: Tömbök Bevezetés a programozásba 5. Előadás: Tömbök ISMÉTLÉS Specifikáció Előfeltétel: milyen körülmények között követelünk helyes működést Utófeltétel: mit várunk a kimenettől, mi az összefüggés a kimenet és

Részletesebben

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv?

BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? BARANGOLÁS AZ E-KÖNYVEK BIRODALMÁBAN Milyen legyen az elektonikus könyv? Készítették: Névery Tibor és Széll Ildikó PPKE I. évf. kiadói szerkesztő hallgatók, közösen 1 BEVEZETŐ Az elektronikus könyv valamilyen

Részletesebben

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,

Részletesebben

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 15. Nemparaméteres próbák Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November

Részletesebben

Regionális forduló november 19.

Regionális forduló november 19. Regionális forduló 2016. november 19. 9-10. osztályosok feladata Feladat Írjatok Markdown HTML konvertert! A markdown egy nagyon népszerű, nyílt forráskódú projektekben gyakran használt, jól olvasható

Részletesebben

Bevezetés a számítástechnikába

Bevezetés a számítástechnikába Bevezetés a számítástechnikába Beadandó feladat, kódrendszerek Fodor Attila Pannon Egyetem Műszaki Informatikai Kar Villamosmérnöki és Információs Rendszerek Tanszék foa@almos.vein.hu 2010 október 12.

Részletesebben

Az alábbi áttekintés Délkelet-Európa (a volt Jugoszlávia országai

Az alábbi áttekintés Délkelet-Európa (a volt Jugoszlávia országai OKTATÁSIRÁNYÍTÁS ÉS OKTATÁSPOLITIKA A BALKÁNON Az alábbi áttekintés Délkelet-Európa (a volt Jugoszlávia országai Szlovénia kivételével, Bulgária, Románia és Albánia) oktatási rendszerei előtt álló kihívásokat

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év).

2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét, amely februári keltezésű (bármely év). 1. fejezet AWK 1.1. Szűrési feladatok 1. Készítsen awk szkriptet, ami kiírja egy állomány leghosszabb szavát. 2. Készítsen awk szkriptet, amely kiírja az aktuális könyvtár összes alkönyvtárának nevét,

Részletesebben

Az URaLUID adatbázis bemutatása

Az URaLUID adatbázis bemutatása Hatás alatt álló nyelvek Az URaLUID adatbázis bemutatása Simon Eszter MTA Nyelvtudományi Intézet 2017. január 13. 29. Finnugor Szeminárium Simon Eszter (MTA NyTI) Hatás alatt álló nyelvek 2017. január

Részletesebben

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Biomatematika 13. Varianciaanaĺızis (ANOVA) Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 13. Varianciaanaĺızis (ANOVA) Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date:

Részletesebben

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI MÉRÉSI EREDMÉYEK POTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI. A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk

Részletesebben

Honlapkoncepció. Miskolc város hivatalos honlapjához

Honlapkoncepció. Miskolc város hivatalos honlapjához Honlapkoncepció Miskolc város hivatalos honlapjához Ennek a dokumentumnak a célja, hogy rögzítse azokat az alapelveket, amelyek egyrészt irányt szabnak, másrészt kereteket adnak az új városi honlap részletes

Részletesebben

KARAKTERFELISMERÉS AZ EVASYS-BEN

KARAKTERFELISMERÉS AZ EVASYS-BEN KARAKTERFELISMERÉS AZ EVASYS-BEN HOL HASZNÁLHATÓ, KI HASZNÁLHATJA A Miskolci Egyetem megvásárolta a kézírásfelismerés (ICR) modult az Evasys legutóbbi licencével együtt. Ezzel lehetőség nyílt a papír alapú

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4. A készülő MGTSz adatbázis felépítése Blaho Sylvia, Sass Bálint & Simon Eszter MTA Nyelvtudományi Intézet 2010. február 4. Az előadás vázlata 1 A projekt bemutatása A szöveg feldolgozásának szintjei A korpusz

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

Sémi összehasonlító nyelvészet

Sémi összehasonlító nyelvészet Sémi összehasonlító nyelvészet BMA-HEBD-303 Biró Tamás 5. A nyelvtörténeti rekonstrukció alapjai. Jelentéstan. 2016. március 30. Összehasonlító rekonstrukció: alapok A történeti rekonstrukció klasszikus

Részletesebben

ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az eredmény. A kérdés a következő: Mikor mondhatjuk azt, hogy bizonyos események közül

ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az eredmény. A kérdés a következő: Mikor mondhatjuk azt, hogy bizonyos események közül A Borel Cantelli lemma és annak általánosítása. A valószínűségszámítás egyik fontos eredménye a Borel Cantelli lemma. Először informálisan ismertetem, hogy milyen probléma vizsgálatában jelent meg ez az

Részletesebben

DETERMINÁNSSZÁMÍTÁS. Határozzuk meg a 1 értékét! Ez most is az egyetlen elemmel egyezik meg, tehát az értéke 1.

DETERMINÁNSSZÁMÍTÁS. Határozzuk meg a 1 értékét! Ez most is az egyetlen elemmel egyezik meg, tehát az értéke 1. DETERMINÁNSSZÁMÍTÁS A (nxn) kvadratikus (négyzetes) mátrixhoz egyértelműen hozzárendelhetünk egy D R számot, ami a mátrix determinánsa. Már most megjegyezzük, hogy a mátrix determinánsa, illetve a determináns

Részletesebben

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat:

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat: Karbantartás Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat: Jelszó módosítása: A felhasználói jelszavunkat módosíthatjuk ebben a menüpontban, a régi jelszavunk megadása után. Általánosan

Részletesebben

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata

A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata A regisztrált álláskeresők számára vonatkozó becslések előrejelző képességének vizsgálata Az elemzésben a GoogleTrends (GT, korábban Google Insights for Search) modellek mintán kívüli illeszkedésének vizsgálatával

Részletesebben

A Matarka szerszámosládája

A Matarka szerszámosládája A Matarka szerszámosládája Szeged, 2007 Perlaki Attila perlaki@kvtlinux.lib.uni-miskolc.hu 1. Feltöltés A Matarka adatbázis feltöltését a közvetlen kézi bevitelen túl XML állományokból is el lehet végezni.

Részletesebben

LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL

LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL LINEÁRIS PROGRAMOZÁSI FELADATOK MEGOLDÁSA SZIMPLEX MÓDSZERREL x 1-2x 2 6 -x 1-3x 3 = -7 x 1 - x 2-3x 3-2 3x 1-2x 2-2x 3 4 4x 1-2x 2 + x 3 max Alapfogalmak: feltételrendszer (narancs színnel jelölve), célfüggvény

Részletesebben

Sorozatok I. Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma)

Sorozatok I. Brósch Zoltán (Debreceni Egyetem Kossuth Lajos Gyakorló Gimnáziuma) Sorozatok I. DEFINÍCIÓ: (Számsorozat) A számsorozat olyan függvény, amelynek értelmezési tartománya a pozitív egész számok halmaza, értékkészlete a valós számok egy részhalmaza. Jelölés: (a n ), {a n }.

Részletesebben

A Gray-kód Bináris-kóddá alakításának leírása

A Gray-kód Bináris-kóddá alakításának leírása A Gray-kód Bináris-kóddá alakításának leírása /Mechatronikai Projekt II. házi feladat/ Bodogán János 2005. április 1. Néhány szó a kódoló átalakítókról Ezek az eszközök kiegészítő számlálók nélkül közvetlenül

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok A számítógépes nyelvészet elmélete és gyakorlata Korpuszok Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint

Részletesebben

9. Entitás modulok. Nagy Gusztáv: Drupal 7 alapismeretek Fejlesztői verzió: 2011. október 6.

9. Entitás modulok. Nagy Gusztáv: Drupal 7 alapismeretek Fejlesztői verzió: 2011. október 6. 9 9. Entitás modulok A szerző véleménye szerint a Drupal legnagyobb erősségei közé tartozik a magas szintű, absztrakt fogalmak mentén történő építkezés. A korábbiakban már megismerkedtünk a tartalmak és

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

Kutatásmódszertan és prezentációkészítés

Kutatásmódszertan és prezentációkészítés Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

19. AZ ÖSSZEHASONLÍTÁSOS RENDEZÉSEK MŰVELETIGÉNYÉNEK ALSÓ KORLÁTJAI

19. AZ ÖSSZEHASONLÍTÁSOS RENDEZÉSEK MŰVELETIGÉNYÉNEK ALSÓ KORLÁTJAI 19. AZ ÖSSZEHASONLÍTÁSOS RENDEZÉSEK MŰVELETIGÉNYÉNEK ALSÓ KORLÁTJAI Ebben a fejezetben aszimptotikus (nagyságrendi) alsó korlátot adunk az összehasonlításokat használó rendező eljárások lépésszámára. Pontosabban,

Részletesebben

PurePos: hatékony morfológiai egyértelműsítő modul

PurePos: hatékony morfológiai egyértelműsítő modul PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

Számelméleti alapfogalmak

Számelméleti alapfogalmak 1 Számelméleti alapfogalmak 1 Definíció Az a IN szám osztója a b IN számnak ha létezik c IN melyre a c = b Jelölése: a b 2 Példa a 0 bármely a számra teljesül, mivel c = 0 univerzálisan megfelel: a 0 =

Részletesebben

1. tétel. Valószínűségszámítás vizsga Frissült: 2013. január 19. Valószínűségi mező, véletlen tömegjelenség.

1. tétel. Valószínűségszámítás vizsga Frissült: 2013. január 19. Valószínűségi mező, véletlen tömegjelenség. 1. tétel Valószínűségszámítás vizsga Frissült: 2013. január 19. Valószínűségi mező, véletlen tömegjelenség. A valószínűségszámítás tárgya: véletlen tömegjelenségek vizsgálata. véletlen: a kísérlet kimenetelét

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC

SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. Szerkesztette KIEFER FERENC IGÉK, FÕNEVEK, MELLÉKNEVEK 1 2 3 SEGÉDKÖNYVEK A NYELVÉSZET TANULMÁNYOZÁSÁHOZ XXVIII. IGÉK, FÕNEVEK, MELLÉKNEVEK Elõtanulmányok a mentális szótár szerkezetérõl Szerkesztette KIEFER FERENC TINTA KÖNYVKIADÓ

Részletesebben

Amortizációs költségelemzés

Amortizációs költségelemzés Amortizációs költségelemzés Amennyiben műveleteknek egy M 1,...,M m sorozatának a futási idejét akarjuk meghatározni, akkor egy lehetőség, hogy külön-külön minden egyes művelet futási idejét kifejezzük

Részletesebben

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat:

Karbantartás. Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat: Karbantartás Az ESZR Karbantartás menüjébentudjuk elvégezni az alábbiakat: Jelszó módosítása: A felhasználói jelszavunkat módosíthatjuk ebben a menüpontban, a régi jelszavunk megadása után. Általánosan

Részletesebben

Andó Mátyás Felületi érdesség matyi.misi.eu. Felületi érdesség. 1. ábra. Felületi érdességi jelek

Andó Mátyás Felületi érdesség matyi.misi.eu. Felületi érdesség. 1. ábra. Felületi érdességi jelek 1. Felületi érdesség használata Felületi érdesség A műszaki rajzokon a geometria méretek tűrése mellett a felületeket is jellemzik. A felületek jellemzésére leginkább a felületi érdességet használják.

Részletesebben

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA BESZÉDTUDOMÁNY Az emberi kommunikáció egyik leggyakrabban használt eszköze a nyelv. A nyelv hangzó változta, a beszéd a nyelvi kommunikáció

Részletesebben

Az Informatika Elméleti Alapjai

Az Informatika Elméleti Alapjai Az Informatika Elméleti Alapjai dr. Kutor László Minimális redundanciájú kódok Statisztika alapú tömörítő algoritmusok http://mobil.nik.bmf.hu/tantargyak/iea.html Felhasználónév: iea Jelszó: IEA07 BMF

Részletesebben

Matematikai statisztikai elemzések 1.

Matematikai statisztikai elemzések 1. Matematikai statisztikai elemzések 1. A statisztika alapfogalmai, feladatai, Prof. Dr. Závoti, József Matematikai statisztikai elemzések 1.: A statisztika alapfogalmai, feladatai, statisztika, osztályozás,

Részletesebben

Nyelvtan, helyesírás 4. évfolyam. Tollal dolgozz! Ügyelj a külalakra! Jó munkát kívánunk!

Nyelvtan, helyesírás 4. évfolyam. Tollal dolgozz! Ügyelj a külalakra! Jó munkát kívánunk! Nyelvtan, helyesírás 4. évfolyam Név: Osztály: Tollal dolgozz! Ügyelj a külalakra! Jó munkát kívánunk! 1. Tedd ki a megfelelő ékezeteket a szavakra! futotest, fozokanal, kultura, szulofold, szololevel

Részletesebben

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás?

Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések. 1. Mi a programozás? Bevezetés Kinek szól a könyv? A könyv témája A könyv felépítése Mire van szükség a könyv használatához? A könyvben használt jelölések Forráskód Hibajegyzék p2p.wrox.com xiii xiii xiv xiv xvi xvii xviii

Részletesebben

Az MTMT és az Intézeti Repozitóriumok összekapcsolása bevezetési tapasztalatok SZLUKA PÉTER SEMMELWEIS EGYETEM KÖZPONTI KÖNYVTÁR

Az MTMT és az Intézeti Repozitóriumok összekapcsolása bevezetési tapasztalatok SZLUKA PÉTER SEMMELWEIS EGYETEM KÖZPONTI KÖNYVTÁR 1 Az MTMT és az Intézeti Repozitóriumok összekapcsolása bevezetési tapasztalatok SZLUKA PÉTER SEMMELWEIS EGYETEM KÖZPONTI KÖNYVTÁR PSZLUKA@LIB.SOTE.HU A repozitórium 2 Néhány tulajdonsága Elektronikus

Részletesebben

KOVÁCS BÉLA, MATEMATIKA II.

KOVÁCS BÉLA, MATEMATIKA II. KOVÁCS BÉLA, MATEmATIkA II 3 III NUmERIkUS SOROk 1 Alapvető DEFInÍCIÓ ÉS TÉTELEk Végtelen sor Az (1) kifejezést végtelen sornak nevezzük Az számok a végtelen sor tagjai Az, sorozat az (1) végtelen sor

Részletesebben

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai Nyugat-magyarországi Egyetem Geoinformatikai Kara Prof. Dr. Závoti József Matematika III. 6. MA3-6 modul A statisztika alapfogalmai SZÉKESFEHÉRVÁR 2010 Jelen szellemi terméket a szerzői jogról szóló 1999.

Részletesebben

Biostatisztika VIII. Mátyus László. 19 October

Biostatisztika VIII. Mátyus László. 19 October Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.

Részletesebben

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás

Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,

Részletesebben

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Galbács Gábor KIUGRÓ ADATOK KISZŰRÉSE STATISZTIKAI TESZTEKKEL Dixon Q-tesztje Gyakori feladat az analitikai kémiában, hogy kiugrónak

Részletesebben

BME Nyílt Nap november 21.

BME Nyílt Nap november 21. Valószínűségszámítás, statisztika és valóság Néhány egyszerű példa Kói Tamás Budapesti Műszaki és Gazdaságtudományi Egyetem koitomi@math.bme.hu BME Nyílt Nap 2014. november 21. Matematikai modell Matematikai

Részletesebben

A matematikai feladatok és megoldások konvenciói

A matematikai feladatok és megoldások konvenciói A matematikai feladatok és megoldások konvenciói Kozárné Fazekas Anna Kántor Sándor Matematika és Informatika Didaktikai Konferencia - Szatmárnémeti 2011. január 28-30. Konvenciók Mindenki által elfogadott

Részletesebben

Elemi statisztika fizikusoknak

Elemi statisztika fizikusoknak 1. oldal Elemi statisztika fizikusoknak Pollner Péter Biológiai Fizika Tanszék pollner@elte.hu Az adatok leírása, megismerése és összehasonlítása 2-1 Áttekintés 2-2 Gyakoriság eloszlások 2-3 Az adatok

Részletesebben

5. foglalkozás. Húsz találgatás Információelmélet

5. foglalkozás. Húsz találgatás Információelmélet 5. foglalkozás Húsz találgatás Információelmélet Röviden Mennyi információ van egy 1000 oldalas könyvben? Egy 1000 oldalas telefonkönyvben vagy 1000 üres lapon vagy Tolkien A Gyűrűk Ura könyvében van több

Részletesebben

A szótárról. 1. Mi ez?

A szótárról. 1. Mi ez? A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését

Részletesebben

Dr. Pétery Kristóf: Excel 2007 feladatok és megoldások 2.

Dr. Pétery Kristóf: Excel 2007 feladatok és megoldások 2. 2 Minden jog fenntartva, beleértve bárminemű sokszorosítás, másolás és közlés jogát is. Kiadja a Mercator Stúdió Felelős kiadó a Mercator Stúdió vezetője Lektor: Gál Veronika Szerkesztő: Pétery István

Részletesebben

FPI matek szakkör 8. évf. 4. szakkör órai feladatok megoldásokkal. 4. szakkör, október. 20. Az órai feladatok megoldása

FPI matek szakkör 8. évf. 4. szakkör órai feladatok megoldásokkal. 4. szakkör, október. 20. Az órai feladatok megoldása 4. szakkör, 2004. október. 20. Az órai feladatok megoldása Most csak három önmagában nem nehéz feladatot kapsz, és a feladatot magadnak kell általánosítani, szisztematikusan adatot gyűjteni, általános

Részletesebben

file:///d:/okt/ad/jegyzet/ad1/b+fa.html

file:///d:/okt/ad/jegyzet/ad1/b+fa.html 1 / 5 2016. 11. 30. 12:58 B+ fák CSci 340: Database & Web systems Home Syllabus Readings Assignments Tests Links Computer Science Hendrix College Az alábbiakban Dr. Carl Burch B+-trees című Internetes

Részletesebben

KOVÁCS BÉLA, MATEMATIKA I.

KOVÁCS BÉLA, MATEMATIKA I. KOVÁCS BÉLA, MATEmATIkA I. 1 I. HALmAZOk 1. JELÖLÉSEk A halmaz fogalmát tulajdonságait gyakran használjuk a matematikában. A halmazt nem definiáljuk, ezt alapfogalomnak tekintjük. Ez nem szokatlan, hiszen

Részletesebben

Egyenletek, egyenlőtlenségek X.

Egyenletek, egyenlőtlenségek X. Egyenletek, egyenlőtlenségek X. DEFINÍCIÓ: (Logaritmus) Ha egy pozitív valós számot adott, 1 - től különböző pozitív alapú hatvány alakban írunk fel, akkor ennek a hatványnak a kitevőjét logaritmusnak

Részletesebben

Területi elemzések. Budapest, 2015. április

Területi elemzések. Budapest, 2015. április TeIR Területi elemzések Felhasználói útmutató Budapest, 2015. április Tartalomjegyzék 1. BEVEZETŐ... 3 2. AZ ELEMZÉSBEN SZEREPLŐ MUTATÓ KIVÁLASZTÁSA... 4 3. AZ ELEMZÉSI FELTÉTELEK DEFINIÁLÁSA... 5 3.1.

Részletesebben

0. előadás Motiváció

0. előadás Motiváció 0. előadás Dr. Kallós Gábor 2015 2016 1 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás

Részletesebben

INFORMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI

INFORMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI 1. oldal, összesen: 6 oldal INFORMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI A vizsga formája Középszinten: gyakorlati és szóbeli. Emeltszinten: gyakorlati és szóbeli. Az informatika érettségi vizsga

Részletesebben