Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák"

Átírás

1 Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák A nyelvtechnológia eszközei 10. Indig Balázs április 28. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar

2 Tartalom Kötegelt helyesírás-ellenőrzés YAX (Yet Another XML parser) (Móréh Tamás munkája) Mozaikgramok ami a múltkori előadásból kimaradt VerbIndex (a.k.a. linked resources) GIT (reprezentáció) + GraphViz (vizualizáció) 2/64

3 Kötegelt helyesírás-ellenőrzés

4 Tipikus helyesírás-ellenőrző 4/64

5 A jelenlegi helyesírás-ellenőrző rendszerek Szó alapon működnek (lokális döntések) egybeírást lehet javítani, különírást nem Fix lexikon alapján szólista + morfológia nyílt szóosztályok az ismeretlen szavak hibásnak vannak jelölve Perspektívák az összeakadt ujjakon túl doménre adaptálhatóság nyelvhelyesség-ellenőrzés Cél: az egész szöveg egységként kezelése 5/64

6 Mi az ami... van? Nagy korpuszok Hagyományos helyesírás-ellenőrző program Szófaji egyértelműsítő (POS-tagger) Lemmatizáló Guesser szükséges? Globális információk alapján döntő eszköz Gépi tanuló algoritmus Jellemzők, amiket figyelnünk kell 6/64

7 Ötlet Fogunk sok szöveget (pl. könyvet, szakdolgozatot) Leelemezzük a meglevő eszközökkel Többször átolvassuk, kiemeljük az eltérő részeket megjelöljük a hibákat javítjuk automatikusan, amit tudunk Kérdés: honnan tudja a gép, hogy mi a helyes? 7/64

8 Hogyan javítunk? Az a posteriori információk alapján! a legtöbb ismeretlen szó alanyesetű a többi formájukat egyértelműsíteni kell Így csoportosíthatók lemma alapján és így... kitalálható a ragozási paradigma javítható a szótövesítés javíthatók az elgépelt variánsok a ritka, helyes alakok helyesnek minősíthetők (kevesebb zavaró elem) És ezek csak az ismeretlen szavak! 8/64

9 Példa Szóalak Frek. stem Obama 40 Obama Obamaáról 1 Obamaá Obamáék 1 Obamá Obamának 3 Obam Obamáról 3 Obam Obamáról 3 Obamá Obamát 5 Obam Obamát 5 Obamát Obamával 1 Obamával Obamához 3 Obamá 9/64

10 Készen vagyunk? Nem oldjuk meg továbbra sem... az egybeírást pl. az anyagnevekhez finomabb kategóriarendszer kellene a jóra változott alakokat (mellett mellet) a központozási hibákat a nyelvhelyességi hibákat 10/64

11 Más próbálkozások Szabály alapú nyelvhelyesség-ellenőrzés ritkán alkalmazható (a szabályok merevek) A magyar emberevés közben nem beszél. Tévesztési minták a gyakori elírásokból eddig nem volt hozzá erőforrás A string-távolság súlyozása túl sok hibás ajánlatot hoz be 11/64

12 Hogy csinálják az emberek? Hatalmas a priori tudással (tapasztalat) Ezt szimuláljuk statisztikával és szabályokkal Sokszori elolvasással Adaptálódnak (pl. új szavak, névelemek) ennek a szimulációját mutattam be Elemzik a szöveget az új ismeretek tükrében Dolgozunk az elemzőn És így is sok hiba marad! 12/64

13 Helyesírás-ellenőrző-elemző Minden tudásunkat felhasználva Gyakori struktúrák korpuszból kibányászva mozaikgramok Igei vonzatkeretek egyeztetése (MetaMorpho) Szavanként haladva előre próbálunk mintát illeszteni Jelentjük, ha nem találtunk értelmes struktúrát a statisztikai és a szimbolikus elemzés sem ment 13/64

14 YAX: hatékony, rekordorientált XML-elemzés

15 Yet Another XML parser Adott az XML mint metanyelv Javából jövő API-val, Pythonban A klasszikus DOM vs. SAX problémát tovább kellene gondolni Megoldás: ElementTree Xpath-ban lehet megszólítani, nem jól illeszkedik a Pythonba Példa: /users/user[login= user1 and (prof= admin or prof= op )] Problémák: futás közben nehéz szerkeszteni a kérést (SQL-re van megoldás) nehezen olvasható (regkif-jellegű, de nincs hibaellenőrzés) sok a hibalehetőség (pár elütéssel mást csinál, vagy hibát ad) (szubjektív álláspont:) nem intuitív 15/64

16 Yet Another XML parser Megoldás2: BeautifulSoup (TagSoup parser) Nem teljesen erre való: régi hibás XHTML-eket kezel Tagsoup (nem érvényes xml): <p>tag <em> soup </p></em> Manapság ilyenek nincsenek, de az API jó XML-re is Python-közelibb, mint az Xpath Problémák: DOM-alapú! Adott többféle házi formátum, amik között konvertálni kell Az XML jó köztes nyelv, kiterjedt eszközkészlettel rendelkezik Csináljunk olyan elemzőt, ami XML-en keresztül elemez! 16/64

17 Yet Another XML parser Specifikáció: Adott egy nem igazán konvencionális XML-fájl minden szó egy sor, elemzések TAB-bal vananak elválasztva mondatok, paragrafusok XML-taggel vannak jelölve metainformációk úgyszintén ja, és kb. 10 GB a mérete... Szeretnénk nem Xpath-szal dolgozni, hanem Pythonosan Lineáris feldolgozás után vissza akarjuk generálni az eredményt Lapos XML fájlról van szó, ami sok rekordot tartalmaz Egy rekord legyen egyszerre a memóriában, a többi eldobható A szülőket azért szeretnénk ismerni 17/64

18 Yet Another XML parser Megoldás (Önlab keretében): ElementTree, kis kiegészítéssel wrapper Pythonba jobban illő interfésszel XMLPullParser alapvetően SAX stratégiával chunkokat olvas be ami nem kell, törölhető a memóriából efölé kellett egy rendes API, ami megkímél a címkéktől... a részfa már legyen fában (DOM)! rekordokat és mezőket akarunk látni, nem címkéket Szép lekérdező nyelv, jól integrálódik a Pythonba Megeszi a nagy fájlokat is alapból... 18/64

19 Yet Another XML parser Példák: minden PLANT TAG, ha a text Rose reader.find_as_str("plant",, "Rose") minden TAG, ami "first" NAME-ű CATALOG-ban van reader.find_as_str(parent=("catalog", { NAME : "first"})) minden PLANT TAG, ha a PRICE gyermeke kisebb, mint 5.1 reader.find_as_str("plant", children=cond("price", text=lambda x: float(x[1:]) <5.1)) 19/64

20 Yet Another XML parser További érdekes kihívások: Tetszőleges XML-ből megállapítani, hogy... hány igazi rekordot tartalmaz? [1, 2] honnan érdemes DOM-szerűen kezelni (rekord szint)? hogyan néz ki egy rekord? A rekordok feldolgozása legyen áttetsző, függetlenül a fájl formátumától (XML-, vagy más formátum-előkonvertálással) méretétől (Big Data, vagy hagyományos módszerek) Dinamikusan fejlődő formátumok esetén is! nyelvtannal leírható (funkcionális) módon... 20/64

21 Mozaikgramok

22 Nyelvmodell a.k.a. korpuszminták A nyelvmodell válaszol arra a kérdésre, hogy... mi jöhet az adott (n darab) szó után? (n-gram modell) Ritka adattal van dolgunk... (nagy az állapottér) főleg ragozó és szabad szórendű nyelvek esetén A tradicionális nyelvmodellek homogének csak címkét vagy csak szóalakokat alkalmaznak faktoros nyelvmodellek erre több faktort használnak kis n-re csinálnak csak n-gramokat... Korpuszminták elég speciális esetekben léteznek rájuk algoritmusok (Mazsola) 22/64

23 Nyelvmodell a.k.a. korpuszminták Nekünk gyakori szókapcsolatok/korpuszminták kellenek n-gram, elemei állhatnak szóalakból, szótőből és címkéből később legyen bővíthető! Kombinatorikus robbanást eredményezhet! (Big data) Amit keresünk, az nemcsak az igei szerkezetek (Mazsola) félig kompozícionális szerkezetek nem-kompozícionális szerkezetek, többszavas kifejezések névelemek mintái... hanem minden egyszerre, ami gyakran előfordul! 23/64

24 Példák Többszavas kifejezések: A kisebbik kormánypárt, Ördög ügyvédje, Éjnek évadján, Hűlt helye volt Szólás-mondás: Hamarabb utolérik..., Itt van a kutya... Udvariassági formulák: Jó [napszak][acc]!, Szia [keresztnév]! Merev szerkezetek: Az országgyűlés a javaslatot [SZN DIGIT][NOM] igennel... elfogadta. Igei szerkezetek: lemma:esik szó [*][DEL] Név + titulus: Orbán Viktor magyar miniszterelnök Névelemek: Petőfi Sándor utcai Általános Iskola 24/64

25 Nyelvmodell a.k.a. korpuszminták Anélkül, hogy lelőném a poént... Számoljunk... kb szótő minden szótőhöz kb. 100 szóalak (főnév: kb. 1000): x 100 a címkék száma: kb. 200 egy elem: kb. 100 bájt = max(len(szóalak), len(szótő),len(címke)) 1-gram: x 100 x 200 x 100 = 8 x 10ˆ10 bájt = 80 GB 5-gram: túl sok a világ összes gépének És minket egyszerre érdekel a 2-5-gramig minden... 25/64

26 Nyelvmodell a.k.a. korpuszminták Anélkül, hogy lelőném a poént... Számoljunk... Hány elemet kellene tárolni az asszociatív tömbben? (8 x 10ˆ10)ˆn darab elemet az n-gram modelhez... Minden elem előfordulhat? Természetesen nem: ezt méri a perplexitás. Mit lehet tudni a görbéről? például érvényes rá a Zipf-eloszlás tehát a gyakori elemek kevesen lesznek! 26/64

27 Nyelvmodell a.k.a. korpuszminták Anélkül, hogy lelőném a poént..., néhány gondolat: Ha valaki megnézte a Zipf-görbét közelről, akkor láthatja, hogy az nem egy folytonos görbe, és nem lehet könnyen folytonossá tenni... Az asszociatív tömb O(1) elérési idejű, de mennyi a konstans? az elemek számával növekszik... átbukhat az O(n*log(n)) korláton is, amit a szófa ad, sőt még több memóriát is foglal... rosszul skálázódó, globális optimalizálás (lokális növekedéssel) tipikus többet ésszel, mint erővel feladat... (pl. állásinterjú) 27/64

28 Nyelvmodell a.k.a. korpuszminták Mi a cél? Már elhangzott előadáson... Olyan mondatvázakat keresünk, amik gyakoriak... Elemzéskor egészleges feldolgozás végezhető Olyan szerkezeteket keresünk, amik jól cache -elhetők Egy igeközpontú nyelvtanban ilyenek például az NP-k... Az igék argumentumai nem helyhez kötöttek, de az NP-k belseje igen! 28/64

29 Zipf-görbe 29/64

30 Zipf-görbe 30/64

31 Eszközök Gyors prototípus-építés + Big Data Memóriába nem fér bele, lemezre kell dolgozni Hátha van egy hatékony, használható adatbázis-kezelő Létező nagy n-gram-modell-építő programok Saját program Szempontok: UTF-8, RE, szótártípus, feladatorientált Scriptnyelvek: Perl, Python, Linux Coreutils + AWK Végül: MAWK (egy AWK variáns) a leggyorsabb GNU AWK-nál is, bár kevesebb dolgot tud... Később: C++ és OpenMP 31/64

32 Sketch Engine 32/64

33 Módszer Egyszerű generálás: gyors, sok a redundancia Az azonos frekvenciájú esetekből a legkonkrétabbat tartjuk csak meg (zajérzékeny) Manuálisan előszűrjük az unigramokat: a PUNCT címke törlése (különben túl gyakori lesz) ritka szóalakok, szótövek és címkék törlése Minden f frekvenciájú n-gram... legalább f frekvenciájú n k gramokból állhatnak inkrementálisan építhető n=1-től... 33/64

34 Előzetes eredmények (MNSZ2) Durva minőségbecslés: n-gram alapú nyelvfelismerő érzékeny a túl rövid mondatokra (nem kellenek) érzékeny az idegen szavakra (ritka névelemek) érzékeny a tokenizálási hibákra (erre van szükségünk) eszközök (langid.py, textcat): kb. 30%-on egyeztek meg A korpuszok összetétele nem megfelelő a hosszú, ismétlődő mondatok javarésze: Parlamenti Napló kicsi a korpusz a méréshez A címkézési hibákat felerősítjük Zajérzékeny a rendszerünk 34/64

35 Példák 35/64

36 Triviális vs. nem triviális minták Nagyon sok kimenet keletkezik, szűrni kell ezek nagy része érdektelen az ember számára a gépnek viszont minden információ új! Osztályozni kell a mintákat! ehhez szükséges a maximális mintákat megtalálni a részminták nem fontosak, eldobhatók... létező metrikák felhasználásával Nyelvészetileg érdekes ritka minták nincsenek. Talán még nagyobb korpuszban... 36/64

37 Alkalmazási lehetőségek Elemzőhöz: a szemantikai reprezentáció leírása Hogy dolgozná fel az ember az adott mintát? Nyelvmodellként, deformált szöveg zajszűrésére NP-k belsejének elemzésére Pontosan ismert, hogy mi az NP része és mi nem Egymás melleti NP-k határainak vizsgálatára Szófaji címkék finomításához Sketch Engine alapú keresésekhez ötletek 37/64

38 Hasonlósági metrikák: a frekvencián túl Tolerancia frekvenciaeltérések esetén (ablak) az alacsony gyakoriságú elemek sokan vannak! C-value: mennyire fontos a minta? a nagyobb egység fontosabb, vagy a részei külön? az eredeti ötletnek minden adatra szüksége van nem alkalmazható közvetlenül A metrikák nem ilyen esetekre lettek kitalálva Nem lehet közvetlenül felhasználni őket 38/64

39 Hasonlósági metrikák: a frekvencián túl Nagyobb, tisztább korpusz alkalmazása minőségbecsléssel kiszűrni a haszontalan mondatokat hamaraosan teljesen kész a Pázmány korpusz (1,2 milliárd token) Metrikák adaptálása a nagy állapottérhez Peter Hanks: Corpus Pattern Analysis kézzel generált szemantikai, nem lexikalizált minták géppel generálás az ismertetett módszerrel Integrálás az AnaGramma elemzőbe 39/64

40 VerbIndex a.k.a. Linked Data

41 VerbIndex a.k.a. Linked Data Adott egy egynyelvű erőforrás (VerbIndex), ami leírja az igéket... osztályhierarchiákba rendezve vonzatkeretek példákkal, szemantikai viszonyok bejelölve kézileg több erőforrással összekötve (FrameNet, PropBank, WordNet) Adott továbbá egy szabály-alapú fordítóprogram (MetaMorpho) amiben le vannak kódolva az igék vonzatkeretei kézzel a szabályoknak van forrásoldala (magyar) és céloldala (angol) Akkor miért ne kapcsoljuk össze őket szó szinten? így átemelhető az összes szemantikai információ magyarra! 41/64

42 Pattern Dictionary of English Verbs 42/64

43 MetaMorpho Egy tisztán szabály-alapú fordítórendszer(magyar-angol) a legalaposabb fordítórendszer magyarra több mint 30,000 igei vonzatkeret több mint 17,000 magyar ige Újraíró szabályokkal leírva (két oldaluk van) egy a forrás és egy a cél nyelven Különféle megszorításokkal morfológia, POS szemantika lexikálisan kötött 43/64

44 Példa: MetaMorpho Minden fiatal tudós ábrándozik a nagy tudományos áttörésről. HU.VP = SUBJ(human=YES) + TV(lex="ábrándozik") + COMPL#1(pos=N, case=del) EN.VP =SUBJ +TV(lex="dream") +COMPL#1(prep="about") Every young scientist dreams about the big scientific breakthrough. 27 bináris szemantikai tulajdonság További 54 morfológiai és egyéb nyelvtani jellemző 44/64

45 Verb Index 45/64

46 Módszer 1. Vettük egy egyszerű részhalmaz maximális leképezését Intranzitív, mono- és di-tranzitív igék (98%-os korpuszfedés) Minden lehetséges kombinációban (csak az igéknek kellett egyezni) Minden lehetséges jó leképezést tartalmaz, és jó sok rosszat is Egymást követő szűrők segítségével tartjuk meg a jó mintákat Leképezés a Magyar WordNet Princeton WordNet irányban A szelekciós megszorításokat ontológiával harmonizáltuk 3. Kézzel ellenőriztük az eredményt Véletlenül választott 200 mintán Három független annotátor segítségével 46/64

47 Ontológia: konkrét 47/64

48 VerbIndex a.k.a. Linked Data Problémák A MetaMorpho (MMO) szabályok oldalai aszimmetrikusak Forrásoldalon elemző, céloldalon generáló szabályok A céloldalon kicsi a fedés, mert nem volt cél... A szavak megszorításai eltérnek az erőforrásokban Más jellemzőkészlet írja le a világot: Harmonizálni kell őket! Teljesen más struktúra: VerbIndex-hierarchikus MMO-lista Eltérő jelentések tartozhatnak egy szóhoz (az angolban is) $ buys a house vs. Andy buys a house walk the dog v.s walk the forest 48/64

49 VerbIndex a.k.a. Linked Data Problémák (MMO) Változatos argumentumszerkezetek nem azonos az argumentumszám, szórend a két oldal között lexikálisan kötött argumentumok, amiknek nincs megfelelőjük legegyszerűbb: SUBJ V [OBJ] típus, a minták nagy részét fedi ezek könnyen megtalálhatók Néhány jellemző az angol, néhány a magyar oldalon van csak a default értékek nincsenek jelölve A prepozíciók jellemzőként vannak felvéve az elemek alá az angol erőforrásban külön elemet képeznek 49/64

50 Következtetések MetaMorpho Gépi fordítórendszer, nem általános erőforrás Angol oldalon kicsi a fedés (magyarra optimalizálták) Sok az idiomatikus keret, aminek nincs fordítása A jellemzők nem szigorúan formális alapon születtek Verbnet Rekurzív megszorírások valószínűleg CNF-ben Nincs dokumentáció (főleg a jellemzők leírásánál hiányzik) MetaMorpho WordNet leképezés Kevés a jó kapcsolat Nem elég precíz 50/64

51 Jövőbeli tervek Mindkét erőforrásban a megtalált hibák javítása További Gold Standard gyártása Új erőforrás készítése magyarra mindkettő jó tulajdonságainak felhasználásával ML-algoritmusok a Gold Standard alapján [3, 4] Párhuzamos korpuszokon keresztüli leképezés elemzők segítségével példa alapú leképezések 51/64

52 Vizualizáció

53 Hogyan elemezzünk? Függőségi viszonyokat keresünk (tér1) Balról jobbra egyesével haladva (mindenre emlékezve) (idő) Ige központú elemzés az ige előhozza a vonzatkereteit, és megpróbálja illeszteni őket A főnévi csoportok átláthatósága miatt, nem bináris fa (tér2) pedig egyesével jönnek az elemek! Igazából NP-ket keresünk, az igék argumentumainak Több elemzési ágat is szeretnénk egyszerre fejben tartani (tér3) Hogyan rajzoljuk le az közbülső és a végső eredményeket? 53/64

54 Vizualizáció Minden dimenziót szigorúan el kell különíteni Meg kell határozni, hogy... miket akarunk látni egyszerre? (és mit nem?) mi számít egy lépésnek? (elemzési lépés, változás a fában) mely objektumok változnak egy lépés során? milyen legyen a végső állapot formátuma? ( színes fák ) Oda-vissza lehessen lépegetni (a visszalépés miatt is!) Memória szempontjából hatékonynak kell maradni! Mély betekintés kell, de a szükségtelen részletek elrejtendők! 54/64

55 GIT mint adatstruktúra Objektumok Blob (token/frázis) Tree (szülő gyerek irányított kapcsolat) Commit (tranzakció a fában, ami visszaállítható) Tag (elemzési lépés) (Branch elemzési ág) Helytakarékos, irányított fa, mélységi kereséssel bejárható Ismerős lehet még: a Unix fájlrendszer struktúrájaként 55/64

56 GIT mint adatstruktúra 56/64

57 GIT mint adatstruktúra 57/64

58 GIT mint adatstruktúra 58/64

59 GIT mint adatstruktúra 59/64

60 GIT mint adatstruktúra Az elv már többszörösen bizonyított A GIT nem csak egy verziókezelő rendszer számtalan alkalmazási területe van, például adatbázisokban az ötlet fájlrendszerekből jön (lásd: Unix fájlrendszer) Ennek ellenére nincs funkcionális adattípus formája Implementálni kell, néhány kiegészítéssel együtt (önlab) A megjelenítés független komponens (GraphViz) A GUI szintén független komponens (Qt: fülekben a nézetek) 60/64

61 Függőségi változat Akár web alapú megjelenítés CSS-ben 61/64

62 Fizető-vendéglátás? 62/64

63 Kérdés, megjegyzés? 63/64

64 Választható cikkek V. Le and S. Gulwani, Flashextract: A framework for data extraction by examples, SIGPLAN Not., vol. 49, pp , June R. C. Miller and B. A. Myers, Outlier finding: Focusing user attention on possible errors, in Proceedings of the 14th Annual ACM Symposium on User Interface Software and Technology, UIST 01, (New York, NY, USA), pp , ACM, C. Bonial, O. Hargraves, and M. Palmer, Expanding verbnet with sketch engine, in 6th International Conference on Generative Approaches to the Lexicon, p. 44, J. Utt, A. Lenci, S. Padó, A. Zarcone, et al., The curious case of metonymic verbs: A distributional characterization, in Proceedings of the International Conference on Computational Semantics, /64

Lexikon és nyelvtechnológia Földesi András /

Lexikon és nyelvtechnológia Földesi András / Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz

7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz A nyelvtechnológia eszközei és nyersanyagai 2015/2016 2. félév 7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz Laki László 2016.04.06. A GÉPI FORDÍTÁS FAJTÁI

Részletesebben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

Mozaik nyelvmodell az AnaGramma elemzőhöz

Mozaik nyelvmodell az AnaGramma elemzőhöz 260 XII. Magyar Számítógépes Nyelvészeti Konferencia Mozaik nyelvmodell az AnaGramma elemzőhöz Indig Balázs 1,2, Laki László 1,2, Prószéky Gábor 1,2,3 1 MTA PPKE Magyar Nyelvtechnológiai Kutatócsoport

Részletesebben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink

Részletesebben

A Mazsola KORPUSZLEKÉRDEZŐ

A Mazsola KORPUSZLEKÉRDEZŐ A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban OpenCL alapú eszközök verifikációja és validációja a gyakorlatban Fekete Tamás 2015. December 3. Szoftver verifikáció és validáció tantárgy Áttekintés Miért és mennyire fontos a megfelelő validáció és

Részletesebben

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás

Részletesebben

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

Ismeretlen szavak helyes kezelése kötegelt

Ismeretlen szavak helyes kezelése kötegelt 310 IX. Magyar Számítógépes Nyelvészeti Konferencia Ismeretlen szavak helyes kezelése kötegelt helyesírás-ellenőrző programmal Indig Balázs 1, Prószéky Gábor 1,2 1 Pázmány Péter Katolikus Egyetem, Információs

Részletesebben

A szemantikus elemzés helye. A szemantikus elemzés feladatai. A szemantikus elemzés feladatai. Deklarációk és láthatósági szabályok

A szemantikus elemzés helye. A szemantikus elemzés feladatai. A szemantikus elemzés feladatai. Deklarációk és láthatósági szabályok A szemantikus elemzés helye Forrásprogram Forrás-kezelő (source handler) Lexikális elemző (scanner) A szemantikus elemzés feladatai Fordítóprogramok előadás (A, C, T szakirány) Szintaktikus elemző (parser)

Részletesebben

PurePos: hatékony morfológiai egyértelműsítő modul

PurePos: hatékony morfológiai egyértelműsítő modul PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás

Részletesebben

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6. Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek

Részletesebben

Programozási nyelvek (ADA)

Programozási nyelvek (ADA) Programozási nyelvek (ADA) Kozsik Tamás előadása alapján Készítette: Nagy Krisztián 3. előadás Programozási nyelv felépítése szabályok megadása Lexika Milyen egységek építik fel? Szintaktikus szabályok

Részletesebben

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása

Részletesebben

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek

TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1 Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok

Részletesebben

Különírás-egybeírás automatikusan

Különírás-egybeírás automatikusan Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia

Részletesebben

A szótárról. 1. Mi ez?

A szótárról. 1. Mi ez? A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését

Részletesebben

HÁZI FELADAT PROGRAMOZÁS I. évf. Fizikus BSc. 2009/2010. I. félév

HÁZI FELADAT PROGRAMOZÁS I. évf. Fizikus BSc. 2009/2010. I. félév 1. feladat (nehézsége:*****). Készíts C programot, mely a felhasználó által megadott függvényt integrálja (numerikusan). Gondosan tervezd meg az adatstruktúrát! Tervezz egy megfelelő bemeneti nyelvet.

Részletesebben

Intelligens elektronikus szótár és lexikai adatbázis

Intelligens elektronikus szótár és lexikai adatbázis Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

sallang avagy Fordítótervezés dióhéjban Sallai Gyula

sallang avagy Fordítótervezés dióhéjban Sallai Gyula sallang avagy Fordítótervezés dióhéjban Sallai Gyula Az előadás egy kis példaprogramon keresztül mutatja be fordítók belső lelki világát De mit is jelent, az hogy fordítóprogram? Mit csinál egy fordító?

Részletesebben

2. Visszalépéses keresés

2. Visszalépéses keresés 2. Visszalépéses keresés Visszalépéses keresés A visszalépéses keresés egy olyan KR, amely globális munkaterülete: egy út a startcsúcsból az aktuális csúcsba (az útról leágazó még ki nem próbált élekkel

Részletesebben

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt

Részletesebben

Nyelvi tudásra épülő fordítómemória

Nyelvi tudásra épülő fordítómemória Nyelvi tudásra épülő fordítómemória Hodász Gábor 1, Grőbler Tamás 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest hodasz@morphologic.hu 2 MorphoLogic Kft. Budapest grobler@morphologic.hu

Részletesebben

Igekötős szerkezetek a magyarban

Igekötős szerkezetek a magyarban Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek

Részletesebben

Verifikáció és validáció Általános bevezető

Verifikáció és validáció Általános bevezető Verifikáció és validáció Általános bevezető Általános Verifikáció és validáció verification and validation - V&V: ellenőrző és elemző folyamatok amelyek biztosítják, hogy a szoftver megfelel a specifikációjának

Részletesebben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A

Részletesebben

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems KOPI A fordítási plágiumok keresője Pataki Máté Kovács László MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 12 teljes állású munkatárs,

Részletesebben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program

Részletesebben

IBM SPSS Modeler 18.2 Újdonságok

IBM SPSS Modeler 18.2 Újdonságok IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern

Részletesebben

C++ programozási nyelv

C++ programozási nyelv C++ programozási nyelv Gyakorlat - 13. hét Nyugat-Magyarországi Egyetem Faipari Mérnöki Kar Informatikai Intézet Soós Sándor 2004. december A C++ programozási nyelv Soós Sándor 1/10 Tartalomjegyzék Objektumok

Részletesebben

Gépi tanulás a gyakorlatban. Lineáris regresszió

Gépi tanulás a gyakorlatban. Lineáris regresszió Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják

Részletesebben

Marton József BME-TMIT. Adatbázisok VITMAB november 11.

Marton József BME-TMIT. Adatbázisok VITMAB november 11. Marton József BME-TMIT Gajdos Sándor diasorának felhasználásával Adatbázisok VITMAB00 2016. november 11. A lekérdezés-feldolgozás folyamata I. Cél: az adatok adatbázisból való kinyerése Mivel: egyértelmű,

Részletesebben

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás

Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Algoritmusok Tervezése 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Mi az algoritmus? Lépések sorozata egy feladat elvégzéséhez (legáltalánosabban) Informálisan algoritmusnak nevezünk bármilyen jól definiált

Részletesebben

Modellező eszközök, kódgenerálás

Modellező eszközök, kódgenerálás Modellező eszközök, kódgenerálás Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő Rendszerek Kutatócsoport Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek

Részletesebben

KOMPUTER-ALGEBRA RENDSZEREK VERIFIKÁCIÓJA

KOMPUTER-ALGEBRA RENDSZEREK VERIFIKÁCIÓJA KOMPUTER-ALGEBRA RENDSZEREK VERIFIKÁCIÓJA Szoftver Verifikáció és Validáció, 2015 Ősz Vaitkus Márton Tartalom Motiváció Maple MiniMaple MiniMaple típusellenőrzése MiniMaple formális specifikációja MiniMaple

Részletesebben

YANG ZIJIAN GYŐZŐ 杨子剑

YANG ZIJIAN GYŐZŐ 杨子剑 YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,

Részletesebben

A fordítóprogramok szerkezete. Kódoptimalizálás. A kódoptimalizálás célja. A szintézis menete valójában. Kódoptimalizálási lépések osztályozása

A fordítóprogramok szerkezete. Kódoptimalizálás. A kódoptimalizálás célja. A szintézis menete valójában. Kódoptimalizálási lépések osztályozása A fordítóprogramok szerkezete Forrásprogram Forrás-kezelő (source handler) Kódoptimalizálás Fordítóprogramok előadás (A,C,T szakirány) Lexikális elemző (scanner) Szintaktikus elemző (parser) Szemantikus

Részletesebben

0. előadás Motiváció. Dr. Kallós Gábor

0. előadás Motiváció. Dr. Kallós Gábor 0. előadás Dr. Kallós Gábor 2017 2018 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás Sztringekkel

Részletesebben

Operációs rendszerek gyak.

Operációs rendszerek gyak. Operációs rendszerek gyak. AWK programozás Hirling Dominik Szegedi Tudományegyetem AWK AWK: a pattern scanning and processing language mintaelemző-és feldolgozó nyelv bármilyen szövegből minták alapján

Részletesebben

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban

Részletesebben

Adatbázis rendszerek. dr. Siki Zoltán

Adatbázis rendszerek. dr. Siki Zoltán Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti

Részletesebben

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem

Részletesebben

Bevezetés a programozásba. 5. Előadás: Tömbök

Bevezetés a programozásba. 5. Előadás: Tömbök Bevezetés a programozásba 5. Előadás: Tömbök ISMÉTLÉS Specifikáció Előfeltétel: milyen körülmények között követelünk helyes működést Utófeltétel: mit várunk a kimenettől, mi az összefüggés a kimenet és

Részletesebben

file:///d:/okt/ad/jegyzet/ad1/b+fa.html

file:///d:/okt/ad/jegyzet/ad1/b+fa.html 1 / 5 2016. 11. 30. 12:58 B+ fák CSci 340: Database & Web systems Home Syllabus Readings Assignments Tests Links Computer Science Hendrix College Az alábbiakban Dr. Carl Burch B+-trees című Internetes

Részletesebben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29. Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció

Részletesebben

Többfelhasználós és internetes térkép kezelés, megjelenítés

Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós környezetek Egyszerű fájlszerveres megoldás, LAN (Novel, Windows hálózat) Egy fájl egyidejű módosítása több helyről nem lehetséges

Részletesebben

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9. Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing

Részletesebben

Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED BASH recap, reguláris kifejezések Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor

Részletesebben

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ

EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ SZERKEZETEK KINYERÉSE KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet Budapest, 2011. június 16. 1 / 33 1 MAGYAR IGEI SZERKEZETEK Alapmodell és

Részletesebben

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.

Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8. Algoritmuselmélet 2-3 fák Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 8. előadás Katona Gyula Y. (BME SZIT) Algoritmuselmélet 8. előadás

Részletesebben

Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED Reguláris kifejezések - alapok, BASH Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor

Részletesebben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9. Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok

Részletesebben

Csima Judit október 24.

Csima Judit október 24. Adatbáziskezelés Funkcionális függőségek Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. október 24. Csima Judit Adatbáziskezelés Funkcionális függőségek 1 / 1 Relációs sémák

Részletesebben

Multimédiás adatbázisok

Multimédiás adatbázisok Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás

Részletesebben

Szövegbányászat és dokumentum kezelés

Szövegbányászat és dokumentum kezelés Szövegbányászat és dokumentum kezelés 1. Szöveg bányászat alapfogalmai Szövegbányászat Szövegbányászat = szöveg + bányászat Rövid történeti áttekintés: 1958 (Luhn): lényeges szavak kiemelése a szövegből

Részletesebben

Modellinformációk szabványos cseréje. Papp Ágnes, Debreceni Egyetem EFK

Modellinformációk szabványos cseréje. Papp Ágnes, Debreceni Egyetem EFK Modellinformációk szabványos cseréje Papp Ágnes, agi@delfin.unideb.hu Debreceni Egyetem EFK Tartalom MOF, UML, XMI Az UML és az XML séma MDA - Model Driven Architecture Networkshop 2004 2 Az OMG metamodell

Részletesebben

ABAP dictionary objektumok SAP adatmodell Táblák kezelése. Az SAP programozása 1. Tarcsi Ádám

ABAP dictionary objektumok SAP adatmodell Táblák kezelése. Az SAP programozása 1. Tarcsi Ádám ABAP dictionary objektumok SAP adatmodell Táblák kezelése Az SAP programozása 1. Tarcsi Ádám 1. Data dictionary Tarcsi Ádám, ELTE Informatikai Kar: Az SAP programozása 1. 2 Adat modellezés az SAP-ban Adatmodellezés

Részletesebben

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.

SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb. SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.hu Mesterséges intelligencia oktatás a DE Informatikai

Részletesebben

0. előadás Motiváció

0. előadás Motiváció 0. előadás Dr. Kallós Gábor 2015 2016 1 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás

Részletesebben

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.

Részletesebben

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák

Részletesebben

Adatszerkezetek 1. előadás

Adatszerkezetek 1. előadás Adatszerkezetek 1. előadás Irodalom: Lipschutz: Adatszerkezetek Morvay, Sebők: Számítógépes adatkezelés Cormen, Leiserson, Rives, Stein: Új algoritmusok http://it.inf.unideb.hu/~halasz http://it.inf.unideb.hu/adatszerk

Részletesebben

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?

Részletesebben

Számítógépes nyelvészet

Számítógépes nyelvészet Számítógépes nyelvészet Babarczy Anna A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból

Részletesebben

Szoftverminőségbiztosítás

Szoftverminőségbiztosítás NGB_IN003_1 SZE 2017-18/2 (9) Szoftverminőségbiztosítás Specifikáció alapú (black-box) technikák A szoftver mint leképezés Szoftverhiba Hibát okozó bement Hibás kimenet Input Szoftver Output Funkcionális

Részletesebben

2. Visszalépéses stratégia

2. Visszalépéses stratégia 2. Visszalépéses stratégia A visszalépéses keres rendszer olyan KR, amely globális munkaterülete: út a startcsúcsból az aktuális csúcsba (ezen kívül a még ki nem próbált élek nyilvántartása) keresés szabályai:

Részletesebben

MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK

MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK MUNKAERŐ-PIACI IGÉNYEKNEK MEGFELELŐ, GYAKORLATORIENTÁLT KÉPZÉSEK, SZOLGÁLTATÁSOK A DEBRECENI EGYETEMEN

Részletesebben

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel statisztikai és nyelvi eszközökkel Témalabor 2. beszámoló Témavezet : Vámos Gábor 2009. január 9. Mir l lesz szó? A cél: tesztelni és tanítani 1 A cél: tesztelni és tanítani Eszközök és célok Szókincs

Részletesebben

Mesterséges Intelligencia MI

Mesterséges Intelligencia MI Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés

Részletesebben

A magyar létige problémái a számítógépes nyelvi elemzésben

A magyar létige problémái a számítógépes nyelvi elemzésben A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:

Részletesebben

Operációs rendszerek. UNIX fájlrendszer

Operációs rendszerek. UNIX fájlrendszer Operációs rendszerek UNIX fájlrendszer UNIX fájlrendszer Alapegység: a file, amelyet byte-folyamként kezel. Soros (szekvenciális) elérés. Transzparens (átlátszó) file-szerkezet. Link-ek (kapcsolatok) létrehozásának

Részletesebben

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás

Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás Petőfi Irodalmi Múzeum A Digitális Irodalmi Akadémia megújuló rendszere technológiaváltás II. Partnerek, feladatok Petőfi Irodalmi Múzeum Megrendelő, szakmai vezetés, kontroll Konzorcium MTA SZTAKI Internet

Részletesebben

Algoritmusok és adatszerkezetek 2.

Algoritmusok és adatszerkezetek 2. Algoritmusok és adatszerkezetek 2. Varga Balázs gyakorlata alapján Készítette: Nagy Krisztián 1. gyakorlat Nyílt címzéses hash-elés A nyílt címzésű hash táblákban a láncolással ellentétben egy indexen

Részletesebben

Számítógép és programozás 2

Számítógép és programozás 2 Számítógép és programozás 2 6. Előadás Problémaosztályok http://digitus.itk.ppke.hu/~flugi/ Emlékeztető A specifikáció egy előfeltételből és utófeltételből álló leírása a feladatnak Léteznek olyan feladatok,

Részletesebben

5. SOR. Üres: S Sorba: S E S Sorból: S S E Első: S E

5. SOR. Üres: S Sorba: S E S Sorból: S S E Első: S E 5. SOR A sor adatszerkezet is ismerős a mindennapokból, például a várakozási sornak számos előfordulásával van dolgunk, akár emberekről akár tárgyakról (pl. munkadarabokról) legyen szó. A sor adattípus

Részletesebben

Üzleti architektúra menedzsment, a digitális integrált irányítási rendszer

Üzleti architektúra menedzsment, a digitális integrált irányítási rendszer Üzleti architektúra menedzsment, a digitális integrált irányítási rendszer XXII. MINŐSÉGSZAKEMBEREK TALÁLKOZÓJA A digitalizálás a napjaink sürgető kihívása Dr. Ányos Éva működésfejlesztési tanácsadó Magyar

Részletesebben

Szoftver újrafelhasználás

Szoftver újrafelhasználás Szoftver újrafelhasználás Szoftver újrafelhasználás Szoftver fejlesztésekor korábbi fejlesztésekkor létrehozott kód felhasználása architektúra felhasználása tudás felhasználása Nem azonos a portolással

Részletesebben

6. évfolyam ANGOL nyelv. Javítási-értékelési útmutató

6. évfolyam ANGOL nyelv. Javítási-értékelési útmutató CÉLNYELVI MÉRÉS 2016. június 1. 6. évfolyam ANGOL nyelv Javítási-értékelési útmutató Általános tudnivalók a javításról Az egyértelműen javított (pl. áthúzott vagy kisatírozott) válaszokat a javításnál

Részletesebben

Memóriagazdálkodás. Kódgenerálás. Kódoptimalizálás

Memóriagazdálkodás. Kódgenerálás. Kódoptimalizálás Kódgenerálás Memóriagazdálkodás Kódgenerálás program prológus és epilógus értékadások fordítása kifejezések fordítása vezérlési szerkezetek fordítása Kódoptimalizálás L ATG E > TE' E' > + @StPushAX T @StPopBX

Részletesebben

Szoftver-technológia II. Szoftver újrafelhasználás. (Software reuse) Irodalom

Szoftver-technológia II. Szoftver újrafelhasználás. (Software reuse) Irodalom Szoftver újrafelhasználás (Software reuse) Irodalom Ian Sommerville: Software Engineering, 7th e. chapter 18. Roger S. Pressman: Software Engineering, 5th e. chapter 27. 2 Szoftver újrafelhasználás Szoftver

Részletesebben

Komputeralgebra Rendszerek

Komputeralgebra Rendszerek Komputeralgebra Rendszerek A MAPLE és a SAGE felépítése Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék 2015. február 17. TARTALOMJEGYZÉK 1 of 1 TARTALOMJEGYZÉK TARTALOMJEGYZÉK 2 of 1 A MAPLE 3 of 1 ÖSSZETEVŐK

Részletesebben

Transzformációk integrált alkalmazása a modellvezérelt szoftverfejlesztésben. Ráth István

Transzformációk integrált alkalmazása a modellvezérelt szoftverfejlesztésben. Ráth István Transzformációk integrált alkalmazása a modellvezérelt szoftverfejlesztésben Ráth István rath@mit.bme.hu A grafikus nyelvek... mindenhol ott vannak: Grafikus felületek (Visual Studio) Relációs sémák (dbdesign)

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

Kommunikációs rendszerek teljesítőképesség-vizsgálata

Kommunikációs rendszerek teljesítőképesség-vizsgálata Kommunikációs rendszerek teljesítőképesség-vizsgálata (3. előadás) Dr. Lencse Gábor lencse@sze.hu https://www.tilb.sze.hu/cgi-bin/tilb.cgi?0=m&1=targyak&2=krtv 1 Miről lesz szó? Az OMNeT++ diszkrét idejű

Részletesebben

PÁRHUZAMOS IGEI SZERKEZETEK

PÁRHUZAMOS IGEI SZERKEZETEK PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK

Részletesebben

Cafeteria - KIRA interfész

Cafeteria - KIRA interfész Cafeteria - KIRA interfész Előfeltételek a KIRA interfészen történő feladáshoz: A következő adatokat kell feltölteni, ill. interfészen átemelni a Wintiszt rendszerből, ahhoz, hogy a KIRA feladást el lehessen

Részletesebben

Genetikus algoritmusok

Genetikus algoritmusok Genetikus algoritmusok Zsolnai Károly - BME CS zsolnai@cs.bme.hu Keresőalgoritmusok osztályai Véletlent használó algoritmusok Keresőalgoritmusok Kimerítő algoritmusok Dinamikus programozás BFS DFS Tabu

Részletesebben

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS

Részletesebben

Tudásalapú információ integráció

Tudásalapú információ integráció Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás

Részletesebben