Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák
|
|
- Ferenc Szabó
- 8 évvel ezelőtt
- Látták:
Átírás
1 Egy pszicholingvisztikai indíttatású elemző programhoz kapcsolódó munkák A nyelvtechnológia eszközei 10. Indig Balázs április 28. Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar
2 Tartalom Kötegelt helyesírás-ellenőrzés YAX (Yet Another XML parser) (Móréh Tamás munkája) Mozaikgramok ami a múltkori előadásból kimaradt VerbIndex (a.k.a. linked resources) GIT (reprezentáció) + GraphViz (vizualizáció) 2/64
3 Kötegelt helyesírás-ellenőrzés
4 Tipikus helyesírás-ellenőrző 4/64
5 A jelenlegi helyesírás-ellenőrző rendszerek Szó alapon működnek (lokális döntések) egybeírást lehet javítani, különírást nem Fix lexikon alapján szólista + morfológia nyílt szóosztályok az ismeretlen szavak hibásnak vannak jelölve Perspektívák az összeakadt ujjakon túl doménre adaptálhatóság nyelvhelyesség-ellenőrzés Cél: az egész szöveg egységként kezelése 5/64
6 Mi az ami... van? Nagy korpuszok Hagyományos helyesírás-ellenőrző program Szófaji egyértelműsítő (POS-tagger) Lemmatizáló Guesser szükséges? Globális információk alapján döntő eszköz Gépi tanuló algoritmus Jellemzők, amiket figyelnünk kell 6/64
7 Ötlet Fogunk sok szöveget (pl. könyvet, szakdolgozatot) Leelemezzük a meglevő eszközökkel Többször átolvassuk, kiemeljük az eltérő részeket megjelöljük a hibákat javítjuk automatikusan, amit tudunk Kérdés: honnan tudja a gép, hogy mi a helyes? 7/64
8 Hogyan javítunk? Az a posteriori információk alapján! a legtöbb ismeretlen szó alanyesetű a többi formájukat egyértelműsíteni kell Így csoportosíthatók lemma alapján és így... kitalálható a ragozási paradigma javítható a szótövesítés javíthatók az elgépelt variánsok a ritka, helyes alakok helyesnek minősíthetők (kevesebb zavaró elem) És ezek csak az ismeretlen szavak! 8/64
9 Példa Szóalak Frek. stem Obama 40 Obama Obamaáról 1 Obamaá Obamáék 1 Obamá Obamának 3 Obam Obamáról 3 Obam Obamáról 3 Obamá Obamát 5 Obam Obamát 5 Obamát Obamával 1 Obamával Obamához 3 Obamá 9/64
10 Készen vagyunk? Nem oldjuk meg továbbra sem... az egybeírást pl. az anyagnevekhez finomabb kategóriarendszer kellene a jóra változott alakokat (mellett mellet) a központozási hibákat a nyelvhelyességi hibákat 10/64
11 Más próbálkozások Szabály alapú nyelvhelyesség-ellenőrzés ritkán alkalmazható (a szabályok merevek) A magyar emberevés közben nem beszél. Tévesztési minták a gyakori elírásokból eddig nem volt hozzá erőforrás A string-távolság súlyozása túl sok hibás ajánlatot hoz be 11/64
12 Hogy csinálják az emberek? Hatalmas a priori tudással (tapasztalat) Ezt szimuláljuk statisztikával és szabályokkal Sokszori elolvasással Adaptálódnak (pl. új szavak, névelemek) ennek a szimulációját mutattam be Elemzik a szöveget az új ismeretek tükrében Dolgozunk az elemzőn És így is sok hiba marad! 12/64
13 Helyesírás-ellenőrző-elemző Minden tudásunkat felhasználva Gyakori struktúrák korpuszból kibányászva mozaikgramok Igei vonzatkeretek egyeztetése (MetaMorpho) Szavanként haladva előre próbálunk mintát illeszteni Jelentjük, ha nem találtunk értelmes struktúrát a statisztikai és a szimbolikus elemzés sem ment 13/64
14 YAX: hatékony, rekordorientált XML-elemzés
15 Yet Another XML parser Adott az XML mint metanyelv Javából jövő API-val, Pythonban A klasszikus DOM vs. SAX problémát tovább kellene gondolni Megoldás: ElementTree Xpath-ban lehet megszólítani, nem jól illeszkedik a Pythonba Példa: /users/user[login= user1 and (prof= admin or prof= op )] Problémák: futás közben nehéz szerkeszteni a kérést (SQL-re van megoldás) nehezen olvasható (regkif-jellegű, de nincs hibaellenőrzés) sok a hibalehetőség (pár elütéssel mást csinál, vagy hibát ad) (szubjektív álláspont:) nem intuitív 15/64
16 Yet Another XML parser Megoldás2: BeautifulSoup (TagSoup parser) Nem teljesen erre való: régi hibás XHTML-eket kezel Tagsoup (nem érvényes xml): <p>tag <em> soup </p></em> Manapság ilyenek nincsenek, de az API jó XML-re is Python-közelibb, mint az Xpath Problémák: DOM-alapú! Adott többféle házi formátum, amik között konvertálni kell Az XML jó köztes nyelv, kiterjedt eszközkészlettel rendelkezik Csináljunk olyan elemzőt, ami XML-en keresztül elemez! 16/64
17 Yet Another XML parser Specifikáció: Adott egy nem igazán konvencionális XML-fájl minden szó egy sor, elemzések TAB-bal vananak elválasztva mondatok, paragrafusok XML-taggel vannak jelölve metainformációk úgyszintén ja, és kb. 10 GB a mérete... Szeretnénk nem Xpath-szal dolgozni, hanem Pythonosan Lineáris feldolgozás után vissza akarjuk generálni az eredményt Lapos XML fájlról van szó, ami sok rekordot tartalmaz Egy rekord legyen egyszerre a memóriában, a többi eldobható A szülőket azért szeretnénk ismerni 17/64
18 Yet Another XML parser Megoldás (Önlab keretében): ElementTree, kis kiegészítéssel wrapper Pythonba jobban illő interfésszel XMLPullParser alapvetően SAX stratégiával chunkokat olvas be ami nem kell, törölhető a memóriából efölé kellett egy rendes API, ami megkímél a címkéktől... a részfa már legyen fában (DOM)! rekordokat és mezőket akarunk látni, nem címkéket Szép lekérdező nyelv, jól integrálódik a Pythonba Megeszi a nagy fájlokat is alapból... 18/64
19 Yet Another XML parser Példák: minden PLANT TAG, ha a text Rose reader.find_as_str("plant",, "Rose") minden TAG, ami "first" NAME-ű CATALOG-ban van reader.find_as_str(parent=("catalog", { NAME : "first"})) minden PLANT TAG, ha a PRICE gyermeke kisebb, mint 5.1 reader.find_as_str("plant", children=cond("price", text=lambda x: float(x[1:]) <5.1)) 19/64
20 Yet Another XML parser További érdekes kihívások: Tetszőleges XML-ből megállapítani, hogy... hány igazi rekordot tartalmaz? [1, 2] honnan érdemes DOM-szerűen kezelni (rekord szint)? hogyan néz ki egy rekord? A rekordok feldolgozása legyen áttetsző, függetlenül a fájl formátumától (XML-, vagy más formátum-előkonvertálással) méretétől (Big Data, vagy hagyományos módszerek) Dinamikusan fejlődő formátumok esetén is! nyelvtannal leírható (funkcionális) módon... 20/64
21 Mozaikgramok
22 Nyelvmodell a.k.a. korpuszminták A nyelvmodell válaszol arra a kérdésre, hogy... mi jöhet az adott (n darab) szó után? (n-gram modell) Ritka adattal van dolgunk... (nagy az állapottér) főleg ragozó és szabad szórendű nyelvek esetén A tradicionális nyelvmodellek homogének csak címkét vagy csak szóalakokat alkalmaznak faktoros nyelvmodellek erre több faktort használnak kis n-re csinálnak csak n-gramokat... Korpuszminták elég speciális esetekben léteznek rájuk algoritmusok (Mazsola) 22/64
23 Nyelvmodell a.k.a. korpuszminták Nekünk gyakori szókapcsolatok/korpuszminták kellenek n-gram, elemei állhatnak szóalakból, szótőből és címkéből később legyen bővíthető! Kombinatorikus robbanást eredményezhet! (Big data) Amit keresünk, az nemcsak az igei szerkezetek (Mazsola) félig kompozícionális szerkezetek nem-kompozícionális szerkezetek, többszavas kifejezések névelemek mintái... hanem minden egyszerre, ami gyakran előfordul! 23/64
24 Példák Többszavas kifejezések: A kisebbik kormánypárt, Ördög ügyvédje, Éjnek évadján, Hűlt helye volt Szólás-mondás: Hamarabb utolérik..., Itt van a kutya... Udvariassági formulák: Jó [napszak][acc]!, Szia [keresztnév]! Merev szerkezetek: Az országgyűlés a javaslatot [SZN DIGIT][NOM] igennel... elfogadta. Igei szerkezetek: lemma:esik szó [*][DEL] Név + titulus: Orbán Viktor magyar miniszterelnök Névelemek: Petőfi Sándor utcai Általános Iskola 24/64
25 Nyelvmodell a.k.a. korpuszminták Anélkül, hogy lelőném a poént... Számoljunk... kb szótő minden szótőhöz kb. 100 szóalak (főnév: kb. 1000): x 100 a címkék száma: kb. 200 egy elem: kb. 100 bájt = max(len(szóalak), len(szótő),len(címke)) 1-gram: x 100 x 200 x 100 = 8 x 10ˆ10 bájt = 80 GB 5-gram: túl sok a világ összes gépének És minket egyszerre érdekel a 2-5-gramig minden... 25/64
26 Nyelvmodell a.k.a. korpuszminták Anélkül, hogy lelőném a poént... Számoljunk... Hány elemet kellene tárolni az asszociatív tömbben? (8 x 10ˆ10)ˆn darab elemet az n-gram modelhez... Minden elem előfordulhat? Természetesen nem: ezt méri a perplexitás. Mit lehet tudni a görbéről? például érvényes rá a Zipf-eloszlás tehát a gyakori elemek kevesen lesznek! 26/64
27 Nyelvmodell a.k.a. korpuszminták Anélkül, hogy lelőném a poént..., néhány gondolat: Ha valaki megnézte a Zipf-görbét közelről, akkor láthatja, hogy az nem egy folytonos görbe, és nem lehet könnyen folytonossá tenni... Az asszociatív tömb O(1) elérési idejű, de mennyi a konstans? az elemek számával növekszik... átbukhat az O(n*log(n)) korláton is, amit a szófa ad, sőt még több memóriát is foglal... rosszul skálázódó, globális optimalizálás (lokális növekedéssel) tipikus többet ésszel, mint erővel feladat... (pl. állásinterjú) 27/64
28 Nyelvmodell a.k.a. korpuszminták Mi a cél? Már elhangzott előadáson... Olyan mondatvázakat keresünk, amik gyakoriak... Elemzéskor egészleges feldolgozás végezhető Olyan szerkezeteket keresünk, amik jól cache -elhetők Egy igeközpontú nyelvtanban ilyenek például az NP-k... Az igék argumentumai nem helyhez kötöttek, de az NP-k belseje igen! 28/64
29 Zipf-görbe 29/64
30 Zipf-görbe 30/64
31 Eszközök Gyors prototípus-építés + Big Data Memóriába nem fér bele, lemezre kell dolgozni Hátha van egy hatékony, használható adatbázis-kezelő Létező nagy n-gram-modell-építő programok Saját program Szempontok: UTF-8, RE, szótártípus, feladatorientált Scriptnyelvek: Perl, Python, Linux Coreutils + AWK Végül: MAWK (egy AWK variáns) a leggyorsabb GNU AWK-nál is, bár kevesebb dolgot tud... Később: C++ és OpenMP 31/64
32 Sketch Engine 32/64
33 Módszer Egyszerű generálás: gyors, sok a redundancia Az azonos frekvenciájú esetekből a legkonkrétabbat tartjuk csak meg (zajérzékeny) Manuálisan előszűrjük az unigramokat: a PUNCT címke törlése (különben túl gyakori lesz) ritka szóalakok, szótövek és címkék törlése Minden f frekvenciájú n-gram... legalább f frekvenciájú n k gramokból állhatnak inkrementálisan építhető n=1-től... 33/64
34 Előzetes eredmények (MNSZ2) Durva minőségbecslés: n-gram alapú nyelvfelismerő érzékeny a túl rövid mondatokra (nem kellenek) érzékeny az idegen szavakra (ritka névelemek) érzékeny a tokenizálási hibákra (erre van szükségünk) eszközök (langid.py, textcat): kb. 30%-on egyeztek meg A korpuszok összetétele nem megfelelő a hosszú, ismétlődő mondatok javarésze: Parlamenti Napló kicsi a korpusz a méréshez A címkézési hibákat felerősítjük Zajérzékeny a rendszerünk 34/64
35 Példák 35/64
36 Triviális vs. nem triviális minták Nagyon sok kimenet keletkezik, szűrni kell ezek nagy része érdektelen az ember számára a gépnek viszont minden információ új! Osztályozni kell a mintákat! ehhez szükséges a maximális mintákat megtalálni a részminták nem fontosak, eldobhatók... létező metrikák felhasználásával Nyelvészetileg érdekes ritka minták nincsenek. Talán még nagyobb korpuszban... 36/64
37 Alkalmazási lehetőségek Elemzőhöz: a szemantikai reprezentáció leírása Hogy dolgozná fel az ember az adott mintát? Nyelvmodellként, deformált szöveg zajszűrésére NP-k belsejének elemzésére Pontosan ismert, hogy mi az NP része és mi nem Egymás melleti NP-k határainak vizsgálatára Szófaji címkék finomításához Sketch Engine alapú keresésekhez ötletek 37/64
38 Hasonlósági metrikák: a frekvencián túl Tolerancia frekvenciaeltérések esetén (ablak) az alacsony gyakoriságú elemek sokan vannak! C-value: mennyire fontos a minta? a nagyobb egység fontosabb, vagy a részei külön? az eredeti ötletnek minden adatra szüksége van nem alkalmazható közvetlenül A metrikák nem ilyen esetekre lettek kitalálva Nem lehet közvetlenül felhasználni őket 38/64
39 Hasonlósági metrikák: a frekvencián túl Nagyobb, tisztább korpusz alkalmazása minőségbecsléssel kiszűrni a haszontalan mondatokat hamaraosan teljesen kész a Pázmány korpusz (1,2 milliárd token) Metrikák adaptálása a nagy állapottérhez Peter Hanks: Corpus Pattern Analysis kézzel generált szemantikai, nem lexikalizált minták géppel generálás az ismertetett módszerrel Integrálás az AnaGramma elemzőbe 39/64
40 VerbIndex a.k.a. Linked Data
41 VerbIndex a.k.a. Linked Data Adott egy egynyelvű erőforrás (VerbIndex), ami leírja az igéket... osztályhierarchiákba rendezve vonzatkeretek példákkal, szemantikai viszonyok bejelölve kézileg több erőforrással összekötve (FrameNet, PropBank, WordNet) Adott továbbá egy szabály-alapú fordítóprogram (MetaMorpho) amiben le vannak kódolva az igék vonzatkeretei kézzel a szabályoknak van forrásoldala (magyar) és céloldala (angol) Akkor miért ne kapcsoljuk össze őket szó szinten? így átemelhető az összes szemantikai információ magyarra! 41/64
42 Pattern Dictionary of English Verbs 42/64
43 MetaMorpho Egy tisztán szabály-alapú fordítórendszer(magyar-angol) a legalaposabb fordítórendszer magyarra több mint 30,000 igei vonzatkeret több mint 17,000 magyar ige Újraíró szabályokkal leírva (két oldaluk van) egy a forrás és egy a cél nyelven Különféle megszorításokkal morfológia, POS szemantika lexikálisan kötött 43/64
44 Példa: MetaMorpho Minden fiatal tudós ábrándozik a nagy tudományos áttörésről. HU.VP = SUBJ(human=YES) + TV(lex="ábrándozik") + COMPL#1(pos=N, case=del) EN.VP =SUBJ +TV(lex="dream") +COMPL#1(prep="about") Every young scientist dreams about the big scientific breakthrough. 27 bináris szemantikai tulajdonság További 54 morfológiai és egyéb nyelvtani jellemző 44/64
45 Verb Index 45/64
46 Módszer 1. Vettük egy egyszerű részhalmaz maximális leképezését Intranzitív, mono- és di-tranzitív igék (98%-os korpuszfedés) Minden lehetséges kombinációban (csak az igéknek kellett egyezni) Minden lehetséges jó leképezést tartalmaz, és jó sok rosszat is Egymást követő szűrők segítségével tartjuk meg a jó mintákat Leképezés a Magyar WordNet Princeton WordNet irányban A szelekciós megszorításokat ontológiával harmonizáltuk 3. Kézzel ellenőriztük az eredményt Véletlenül választott 200 mintán Három független annotátor segítségével 46/64
47 Ontológia: konkrét 47/64
48 VerbIndex a.k.a. Linked Data Problémák A MetaMorpho (MMO) szabályok oldalai aszimmetrikusak Forrásoldalon elemző, céloldalon generáló szabályok A céloldalon kicsi a fedés, mert nem volt cél... A szavak megszorításai eltérnek az erőforrásokban Más jellemzőkészlet írja le a világot: Harmonizálni kell őket! Teljesen más struktúra: VerbIndex-hierarchikus MMO-lista Eltérő jelentések tartozhatnak egy szóhoz (az angolban is) $ buys a house vs. Andy buys a house walk the dog v.s walk the forest 48/64
49 VerbIndex a.k.a. Linked Data Problémák (MMO) Változatos argumentumszerkezetek nem azonos az argumentumszám, szórend a két oldal között lexikálisan kötött argumentumok, amiknek nincs megfelelőjük legegyszerűbb: SUBJ V [OBJ] típus, a minták nagy részét fedi ezek könnyen megtalálhatók Néhány jellemző az angol, néhány a magyar oldalon van csak a default értékek nincsenek jelölve A prepozíciók jellemzőként vannak felvéve az elemek alá az angol erőforrásban külön elemet képeznek 49/64
50 Következtetések MetaMorpho Gépi fordítórendszer, nem általános erőforrás Angol oldalon kicsi a fedés (magyarra optimalizálták) Sok az idiomatikus keret, aminek nincs fordítása A jellemzők nem szigorúan formális alapon születtek Verbnet Rekurzív megszorírások valószínűleg CNF-ben Nincs dokumentáció (főleg a jellemzők leírásánál hiányzik) MetaMorpho WordNet leképezés Kevés a jó kapcsolat Nem elég precíz 50/64
51 Jövőbeli tervek Mindkét erőforrásban a megtalált hibák javítása További Gold Standard gyártása Új erőforrás készítése magyarra mindkettő jó tulajdonságainak felhasználásával ML-algoritmusok a Gold Standard alapján [3, 4] Párhuzamos korpuszokon keresztüli leképezés elemzők segítségével példa alapú leképezések 51/64
52 Vizualizáció
53 Hogyan elemezzünk? Függőségi viszonyokat keresünk (tér1) Balról jobbra egyesével haladva (mindenre emlékezve) (idő) Ige központú elemzés az ige előhozza a vonzatkereteit, és megpróbálja illeszteni őket A főnévi csoportok átláthatósága miatt, nem bináris fa (tér2) pedig egyesével jönnek az elemek! Igazából NP-ket keresünk, az igék argumentumainak Több elemzési ágat is szeretnénk egyszerre fejben tartani (tér3) Hogyan rajzoljuk le az közbülső és a végső eredményeket? 53/64
54 Vizualizáció Minden dimenziót szigorúan el kell különíteni Meg kell határozni, hogy... miket akarunk látni egyszerre? (és mit nem?) mi számít egy lépésnek? (elemzési lépés, változás a fában) mely objektumok változnak egy lépés során? milyen legyen a végső állapot formátuma? ( színes fák ) Oda-vissza lehessen lépegetni (a visszalépés miatt is!) Memória szempontjából hatékonynak kell maradni! Mély betekintés kell, de a szükségtelen részletek elrejtendők! 54/64
55 GIT mint adatstruktúra Objektumok Blob (token/frázis) Tree (szülő gyerek irányított kapcsolat) Commit (tranzakció a fában, ami visszaállítható) Tag (elemzési lépés) (Branch elemzési ág) Helytakarékos, irányított fa, mélységi kereséssel bejárható Ismerős lehet még: a Unix fájlrendszer struktúrájaként 55/64
56 GIT mint adatstruktúra 56/64
57 GIT mint adatstruktúra 57/64
58 GIT mint adatstruktúra 58/64
59 GIT mint adatstruktúra 59/64
60 GIT mint adatstruktúra Az elv már többszörösen bizonyított A GIT nem csak egy verziókezelő rendszer számtalan alkalmazási területe van, például adatbázisokban az ötlet fájlrendszerekből jön (lásd: Unix fájlrendszer) Ennek ellenére nincs funkcionális adattípus formája Implementálni kell, néhány kiegészítéssel együtt (önlab) A megjelenítés független komponens (GraphViz) A GUI szintén független komponens (Qt: fülekben a nézetek) 60/64
61 Függőségi változat Akár web alapú megjelenítés CSS-ben 61/64
62 Fizető-vendéglátás? 62/64
63 Kérdés, megjegyzés? 63/64
64 Választható cikkek V. Le and S. Gulwani, Flashextract: A framework for data extraction by examples, SIGPLAN Not., vol. 49, pp , June R. C. Miller and B. A. Myers, Outlier finding: Focusing user attention on possible errors, in Proceedings of the 14th Annual ACM Symposium on User Interface Software and Technology, UIST 01, (New York, NY, USA), pp , ACM, C. Bonial, O. Hargraves, and M. Palmer, Expanding verbnet with sketch engine, in 6th International Conference on Generative Approaches to the Lexicon, p. 44, J. Utt, A. Lenci, S. Padó, A. Zarcone, et al., The curious case of metonymic verbs: A distributional characterization, in Proceedings of the International Conference on Computational Semantics, /64
Lexikon és nyelvtechnológia Földesi András /
Lexikon és nyelvtechnológia 2011.11.13. Földesi András / A nyelvi anyag feldolgozásának célja és módszerei Célunk,hogy minden egyes eleme számára leírjuk paradigmatikus alakjainak automatikus szintézisét.
Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz
A nyelvtechnológia eszközei és nyersanyagai 2015/2016 2. félév 7. A statisztikai gépi fordítás és problémái valamint Mozaik nyelvmodell az AnaGramma elemzőhöz Laki László 2016.04.06. A GÉPI FORDÍTÁS FAJTÁI
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
Mozaik nyelvmodell az AnaGramma elemzőhöz
260 XII. Magyar Számítógépes Nyelvészeti Konferencia Mozaik nyelvmodell az AnaGramma elemzőhöz Indig Balázs 1,2, Laki László 1,2, Prószéky Gábor 1,2,3 1 MTA PPKE Magyar Nyelvtechnológiai Kutatócsoport
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
A Mazsola KORPUSZLEKÉRDEZŐ
A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
OpenCL alapú eszközök verifikációja és validációja a gyakorlatban
OpenCL alapú eszközök verifikációja és validációja a gyakorlatban Fekete Tamás 2015. December 3. Szoftver verifikáció és validáció tantárgy Áttekintés Miért és mennyire fontos a megfelelő validáció és
Az igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
A Hunglish Korpusz és szótár
A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu
Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint
MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori
Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu
VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK
Ismeretlen szavak helyes kezelése kötegelt
310 IX. Magyar Számítógépes Nyelvészeti Konferencia Ismeretlen szavak helyes kezelése kötegelt helyesírás-ellenőrző programmal Indig Balázs 1, Prószéky Gábor 1,2 1 Pázmány Péter Katolikus Egyetem, Információs
A szemantikus elemzés helye. A szemantikus elemzés feladatai. A szemantikus elemzés feladatai. Deklarációk és láthatósági szabályok
A szemantikus elemzés helye Forrásprogram Forrás-kezelő (source handler) Lexikális elemző (scanner) A szemantikus elemzés feladatai Fordítóprogramok előadás (A, C, T szakirány) Szintaktikus elemző (parser)
PurePos: hatékony morfológiai egyértelműsítő modul
PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás
Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.
Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek
Programozási nyelvek (ADA)
Programozási nyelvek (ADA) Kozsik Tamás előadása alapján Készítette: Nagy Krisztián 3. előadás Programozási nyelv felépítése szabályok megadása Lexika Milyen egységek építik fel? Szintaktikus szabályok
Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék
Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása
TSIMMIS egy lekérdezés centrikus megközelítés. TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek
TSIMMIS egy lekérdezés centrikus megközelítés TSIMMIS célok, technikák, megoldások TSIMMIS korlátai További lehetségek 1 Információk heterogén információs forrásokban érhetk el WWW Társalgás Jegyzet papírok
Különírás-egybeírás automatikusan
Különírás-egybeírás automatikusan Ludányi Zsófia ludanyi.zsofia@nytud.mta.hu Magyar Tudományos Akadémia, Nyelvtudományi Intézet Nyelvtechnológiai Osztály VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia
A szótárról. 1. Mi ez?
A szótárról 1. Mi ez? A szótár, amit az olvasó a kezében tart, a leggyakoribb magyar igei szerkezeteket tartalmazza. Egynyelvű szótár explicit szótári értelmezések nélkül; a szerkezeteket, azok jelentését
HÁZI FELADAT PROGRAMOZÁS I. évf. Fizikus BSc. 2009/2010. I. félév
1. feladat (nehézsége:*****). Készíts C programot, mely a felhasználó által megadott függvényt integrálja (numerikusan). Gondosan tervezd meg az adatstruktúrát! Tervezz egy megfelelő bemeneti nyelvet.
Intelligens elektronikus szótár és lexikai adatbázis
Intelligens elektronikus szótár és lexikai adatbázis IHM-ITEM 48/2002 Oravecz Csaba MTA Nyelvtudományi Intézet Korpusznyelvészeti osztály oravecz@nytud.hu Bevezetés a jelenlegi helyzet: nincs az informatikai
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
sallang avagy Fordítótervezés dióhéjban Sallai Gyula
sallang avagy Fordítótervezés dióhéjban Sallai Gyula Az előadás egy kis példaprogramon keresztül mutatja be fordítók belső lelki világát De mit is jelent, az hogy fordítóprogram? Mit csinál egy fordító?
2. Visszalépéses keresés
2. Visszalépéses keresés Visszalépéses keresés A visszalépéses keresés egy olyan KR, amely globális munkaterülete: egy út a startcsúcsból az aktuális csúcsba (az útról leágazó még ki nem próbált élekkel
Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged
Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt
Nyelvi tudásra épülő fordítómemória
Nyelvi tudásra épülő fordítómemória Hodász Gábor 1, Grőbler Tamás 2 1 Pázmány Péter Katolikus Egyetem Információs Technológiai Kar Budapest hodasz@morphologic.hu 2 MorphoLogic Kft. Budapest grobler@morphologic.hu
Igekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
Verifikáció és validáció Általános bevezető
Verifikáció és validáció Általános bevezető Általános Verifikáció és validáció verification and validation - V&V: ellenőrző és elemző folyamatok amelyek biztosítják, hogy a szoftver megfelel a specifikációjának
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems KOPI A fordítási plágiumok keresője Pataki Máté Kovács László MTA SZTAKI MTA SZTAKI Elosztott Rendszerek Osztály 1995. óta létezik 12 teljes állású munkatárs,
Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint
ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
C++ programozási nyelv
C++ programozási nyelv Gyakorlat - 13. hét Nyugat-Magyarországi Egyetem Faipari Mérnöki Kar Informatikai Intézet Soós Sándor 2004. december A C++ programozási nyelv Soós Sándor 1/10 Tartalomjegyzék Objektumok
Gépi tanulás a gyakorlatban. Lineáris regresszió
Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják
Marton József BME-TMIT. Adatbázisok VITMAB november 11.
Marton József BME-TMIT Gajdos Sándor diasorának felhasználásával Adatbázisok VITMAB00 2016. november 11. A lekérdezés-feldolgozás folyamata I. Cél: az adatok adatbázisból való kinyerése Mivel: egyértelmű,
Algoritmusok Tervezése. 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás
Algoritmusok Tervezése 6. Előadás Algoritmusok 101 Dr. Bécsi Tamás Mi az algoritmus? Lépések sorozata egy feladat elvégzéséhez (legáltalánosabban) Informálisan algoritmusnak nevezünk bármilyen jól definiált
Modellező eszközök, kódgenerálás
Modellező eszközök, kódgenerálás Budapesti Műszaki és Gazdaságtudományi Egyetem Hibatűrő Rendszerek Kutatócsoport Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek
KOMPUTER-ALGEBRA RENDSZEREK VERIFIKÁCIÓJA
KOMPUTER-ALGEBRA RENDSZEREK VERIFIKÁCIÓJA Szoftver Verifikáció és Validáció, 2015 Ősz Vaitkus Márton Tartalom Motiváció Maple MiniMaple MiniMaple típusellenőrzése MiniMaple formális specifikációja MiniMaple
YANG ZIJIAN GYŐZŐ 杨子剑
YANG ZIJIAN GYŐZŐ 杨子剑 Személyes adatok Mobil +36-20-535-7968 Cím Email 1091 Budapest Üllői út 109/C. Magyarország yang.zijian.gyozo@uni-eszterhazy.hu fragata8@gmail.com Neme férfi Születési hely Changchun,
A fordítóprogramok szerkezete. Kódoptimalizálás. A kódoptimalizálás célja. A szintézis menete valójában. Kódoptimalizálási lépések osztályozása
A fordítóprogramok szerkezete Forrásprogram Forrás-kezelő (source handler) Kódoptimalizálás Fordítóprogramok előadás (A,C,T szakirány) Lexikális elemző (scanner) Szintaktikus elemző (parser) Szemantikus
0. előadás Motiváció. Dr. Kallós Gábor
0. előadás Dr. Kallós Gábor 2017 2018 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás Sztringekkel
Operációs rendszerek gyak.
Operációs rendszerek gyak. AWK programozás Hirling Dominik Szegedi Tudományegyetem AWK AWK: a pattern scanning and processing language mintaelemző-és feldolgozó nyelv bármilyen szövegből minták alapján
KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL
KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban
Adatbázis rendszerek. dr. Siki Zoltán
Adatbázis rendszerek I. dr. Siki Zoltán Adatbázis fogalma adatok valamely célszerűen rendezett, szisztéma szerinti tárolása Az informatika elterjedése előtt is számos adatbázis létezett pl. Vállalati személyzeti
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem
Bevezetés a programozásba. 5. Előadás: Tömbök
Bevezetés a programozásba 5. Előadás: Tömbök ISMÉTLÉS Specifikáció Előfeltétel: milyen körülmények között követelünk helyes működést Utófeltétel: mit várunk a kimenettől, mi az összefüggés a kimenet és
file:///d:/okt/ad/jegyzet/ad1/b+fa.html
1 / 5 2016. 11. 30. 12:58 B+ fák CSci 340: Database & Web systems Home Syllabus Readings Assignments Tests Links Computer Science Hendrix College Az alábbiakban Dr. Carl Burch B+-trees című Internetes
Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.
Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció
Többfelhasználós és internetes térkép kezelés, megjelenítés
Többfelhasználós és internetes térkép kezelés, megjelenítés Többfelhasználós környezetek Egyszerű fájlszerveres megoldás, LAN (Novel, Windows hálózat) Egy fájl egyidejű módosítása több helyről nem lehetséges
Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.
Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing
Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED BASH recap, reguláris kifejezések Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ
EGY ÁLTALÁNOS MODELLNEK MEGFELELŐ SZERKEZETEK KINYERÉSE KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet Budapest, 2011. június 16. 1 / 33 1 MAGYAR IGEI SZERKEZETEK Alapmodell és
Algoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.
Algoritmuselmélet 2-3 fák Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 8. előadás Katona Gyula Y. (BME SZIT) Algoritmuselmélet 8. előadás
Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED Reguláris kifejezések - alapok, BASH Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.
Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok
Csima Judit október 24.
Adatbáziskezelés Funkcionális függőségek Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. október 24. Csima Judit Adatbáziskezelés Funkcionális függőségek 1 / 1 Relációs sémák
Multimédiás adatbázisok
Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás
Szövegbányászat és dokumentum kezelés
Szövegbányászat és dokumentum kezelés 1. Szöveg bányászat alapfogalmai Szövegbányászat Szövegbányászat = szöveg + bányászat Rövid történeti áttekintés: 1958 (Luhn): lényeges szavak kiemelése a szövegből
Modellinformációk szabványos cseréje. Papp Ágnes, Debreceni Egyetem EFK
Modellinformációk szabványos cseréje Papp Ágnes, agi@delfin.unideb.hu Debreceni Egyetem EFK Tartalom MOF, UML, XMI Az UML és az XML séma MDA - Model Driven Architecture Networkshop 2004 2 Az OMG metamodell
ABAP dictionary objektumok SAP adatmodell Táblák kezelése. Az SAP programozása 1. Tarcsi Ádám
ABAP dictionary objektumok SAP adatmodell Táblák kezelése Az SAP programozása 1. Tarcsi Ádám 1. Data dictionary Tarcsi Ádám, ELTE Informatikai Kar: Az SAP programozása 1. 2 Adat modellezés az SAP-ban Adatmodellezés
SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.
SZOFTVERES SZEMLÉLTETÉS A MESTERSÉGES INTELLIGENCIA OKTATÁSÁBAN _ Jeszenszky Péter Debreceni Egyetem, Informatikai Kar jeszenszky.peter@inf.unideb.hu Mesterséges intelligencia oktatás a DE Informatikai
0. előadás Motiváció
0. előadás Dr. Kallós Gábor 2015 2016 1 A reguláris kifejezések alkalmazása széleskörű Szövegek javítása, minták cseréje Érvényesség-ellenőrzés (beíráskor) Védett űrlapok Elektronikus oktatás, javítás
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
Adatszerkezetek 1. előadás
Adatszerkezetek 1. előadás Irodalom: Lipschutz: Adatszerkezetek Morvay, Sebők: Számítógépes adatkezelés Cormen, Leiserson, Rives, Stein: Új algoritmusok http://it.inf.unideb.hu/~halasz http://it.inf.unideb.hu/adatszerk
Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.
Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?
Számítógépes nyelvészet
Számítógépes nyelvészet Babarczy Anna A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból
Szoftverminőségbiztosítás
NGB_IN003_1 SZE 2017-18/2 (9) Szoftverminőségbiztosítás Specifikáció alapú (black-box) technikák A szoftver mint leképezés Szoftverhiba Hibát okozó bement Hibás kimenet Input Szoftver Output Funkcionális
2. Visszalépéses stratégia
2. Visszalépéses stratégia A visszalépéses keres rendszer olyan KR, amely globális munkaterülete: út a startcsúcsból az aktuális csúcsba (ezen kívül a még ki nem próbált élek nyilvántartása) keresés szabályai:
MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK
MŰSZAKI TESZTTERVEZÉSI TECHNIKÁK STRUKTÚRA ALAPÚ, VAGY FEHÉRDOBOZ TECHNIKÁK TAPASZTALAT ALAPÚ TECHNIKÁK MUNKAERŐ-PIACI IGÉNYEKNEK MEGFELELŐ, GYAKORLATORIENTÁLT KÉPZÉSEK, SZOLGÁLTATÁSOK A DEBRECENI EGYETEMEN
Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel
statisztikai és nyelvi eszközökkel Témalabor 2. beszámoló Témavezet : Vámos Gábor 2009. január 9. Mir l lesz szó? A cél: tesztelni és tanítani 1 A cél: tesztelni és tanítani Eszközök és célok Szókincs
Mesterséges Intelligencia MI
Mesterséges Intelligencia MI Valószínűségi hálók - következtetés Dobrowiecki Tadeusz Eredics Péter, és mások BME I.E. 437, 463-28-99 dobrowiecki@mit.bme.hu, http://www.mit.bme.hu/general/staff/tade Következtetés
A magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
Operációs rendszerek. UNIX fájlrendszer
Operációs rendszerek UNIX fájlrendszer UNIX fájlrendszer Alapegység: a file, amelyet byte-folyamként kezel. Soros (szekvenciális) elérés. Transzparens (átlátszó) file-szerkezet. Link-ek (kapcsolatok) létrehozásának
Petőfi Irodalmi Múzeum. megújuló rendszere technológiaváltás
Petőfi Irodalmi Múzeum A Digitális Irodalmi Akadémia megújuló rendszere technológiaváltás II. Partnerek, feladatok Petőfi Irodalmi Múzeum Megrendelő, szakmai vezetés, kontroll Konzorcium MTA SZTAKI Internet
Algoritmusok és adatszerkezetek 2.
Algoritmusok és adatszerkezetek 2. Varga Balázs gyakorlata alapján Készítette: Nagy Krisztián 1. gyakorlat Nyílt címzéses hash-elés A nyílt címzésű hash táblákban a láncolással ellentétben egy indexen
Számítógép és programozás 2
Számítógép és programozás 2 6. Előadás Problémaosztályok http://digitus.itk.ppke.hu/~flugi/ Emlékeztető A specifikáció egy előfeltételből és utófeltételből álló leírása a feladatnak Léteznek olyan feladatok,
5. SOR. Üres: S Sorba: S E S Sorból: S S E Első: S E
5. SOR A sor adatszerkezet is ismerős a mindennapokból, például a várakozási sornak számos előfordulásával van dolgunk, akár emberekről akár tárgyakról (pl. munkadarabokról) legyen szó. A sor adattípus
Üzleti architektúra menedzsment, a digitális integrált irányítási rendszer
Üzleti architektúra menedzsment, a digitális integrált irányítási rendszer XXII. MINŐSÉGSZAKEMBEREK TALÁLKOZÓJA A digitalizálás a napjaink sürgető kihívása Dr. Ányos Éva működésfejlesztési tanácsadó Magyar
Szoftver újrafelhasználás
Szoftver újrafelhasználás Szoftver újrafelhasználás Szoftver fejlesztésekor korábbi fejlesztésekkor létrehozott kód felhasználása architektúra felhasználása tudás felhasználása Nem azonos a portolással
6. évfolyam ANGOL nyelv. Javítási-értékelési útmutató
CÉLNYELVI MÉRÉS 2016. június 1. 6. évfolyam ANGOL nyelv Javítási-értékelési útmutató Általános tudnivalók a javításról Az egyértelműen javított (pl. áthúzott vagy kisatírozott) válaszokat a javításnál
Memóriagazdálkodás. Kódgenerálás. Kódoptimalizálás
Kódgenerálás Memóriagazdálkodás Kódgenerálás program prológus és epilógus értékadások fordítása kifejezések fordítása vezérlési szerkezetek fordítása Kódoptimalizálás L ATG E > TE' E' > + @StPushAX T @StPopBX
Szoftver-technológia II. Szoftver újrafelhasználás. (Software reuse) Irodalom
Szoftver újrafelhasználás (Software reuse) Irodalom Ian Sommerville: Software Engineering, 7th e. chapter 18. Roger S. Pressman: Software Engineering, 5th e. chapter 27. 2 Szoftver újrafelhasználás Szoftver
Komputeralgebra Rendszerek
Komputeralgebra Rendszerek A MAPLE és a SAGE felépítése Czirbusz Sándor ELTE IK, Komputeralgebra Tanszék 2015. február 17. TARTALOMJEGYZÉK 1 of 1 TARTALOMJEGYZÉK TARTALOMJEGYZÉK 2 of 1 A MAPLE 3 of 1 ÖSSZETEVŐK
Transzformációk integrált alkalmazása a modellvezérelt szoftverfejlesztésben. Ráth István
Transzformációk integrált alkalmazása a modellvezérelt szoftverfejlesztésben Ráth István rath@mit.bme.hu A grafikus nyelvek... mindenhol ott vannak: Grafikus felületek (Visual Studio) Relációs sémák (dbdesign)
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
Kommunikációs rendszerek teljesítőképesség-vizsgálata
Kommunikációs rendszerek teljesítőképesség-vizsgálata (3. előadás) Dr. Lencse Gábor lencse@sze.hu https://www.tilb.sze.hu/cgi-bin/tilb.cgi?0=m&1=targyak&2=krtv 1 Miről lesz szó? Az OMNeT++ diszkrét idejű
PÁRHUZAMOS IGEI SZERKEZETEK
PÁRHUZAMOS IGEI SZERKEZETEK KÖZVETLEN KINYERÉSE PÁRHUZAMOS KORPUSZBÓL Sass Bálint sass.balint@nytud.hu MTA Nyelvtudományi Intézet, Budapest MSZNY2010 Szeged, 2010. december 2-3. 1 EGYNYELVŰ IGEI SZERKEZETEK
Cafeteria - KIRA interfész
Cafeteria - KIRA interfész Előfeltételek a KIRA interfészen történő feladáshoz: A következő adatokat kell feltölteni, ill. interfészen átemelni a Wintiszt rendszerből, ahhoz, hogy a KIRA feladást el lehessen
Genetikus algoritmusok
Genetikus algoritmusok Zsolnai Károly - BME CS zsolnai@cs.bme.hu Keresőalgoritmusok osztályai Véletlent használó algoritmusok Keresőalgoritmusok Kimerítő algoritmusok Dinamikus programozás BFS DFS Tabu
Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint
ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS
Tudásalapú információ integráció
Tudásalapú információ integráció (A Szemantikus Web megközelítés és a másik irány) Tanszéki értekezlet, 2008. május 14. 1 Miért van szükségünk ilyesmire? WWW: (Alkalmazások) Keresés a weben (pl. összehasonlítás