5. Automatikus korpuszépítés és a benne való keresés
|
|
- Zita Soós
- 7 évvel ezelőtt
- Látták:
Átírás
1 5. Automatikus korpuszépítés és a benne való keresés Endrédy István A nyelvtechnológia eszközei és nyersanyagai
2 The big picture
3 Nyelvtechnológia Hatékonyabb megoldáshoz: több ismeret a nyelvről több ismeret a világról
4 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek
5 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek
6 Korpusz Korpusz-alapú módszerek: a szövegkorpusz segédeszköz, ami empirikus adataival támogatja az intuíciót, mérhetővé teszi a nyelvi jelenségeket, meglévő elméleteket bizonyít/cáfol Korpuszvezérelt módszerek: a korpusz maga szolgáltatja az elméletet, a nyelvész minden előzetes feltevés és elvárás nélkül fordul az adatokhoz, és minden következtetést kizárólag a korpusz megfigyeléseiből von le Serendipity Principle: jelentős dolog véletlen felfedezése, tipikusan akkor, amikor valami egész másra figyelünk
7 A korpuszannotáció szintjei Egyszerű szöveg Szófaji egyértelműsítés Névkifejezések kezelése Szintaktikai szerkezetek bejelölése Jelentés-egyértelműsítés Koreferencia-kezelés Egyéb
8 A korpusz méretének mérőszámai Hány token van benne? = Mekkora a korpusz? Mi egy token? $22.50 George W. Bush / George Bush / Bush Korpusznormalizálás The / the / THE Calif. / California MTA / Magyar Tudományos Akadémia Hány type van benne? = Hány különböző szó van benne?
9 A korpusz mérete Biblia ( token) egy 18milliárd tokenes korpusz elolvasása 85 év lenne kinyomtatva 900m vastag lenne gépi feldolgozás szükséges
10 Korpusz - miért? A nyelvtechnológia sok területén szükségesek a nagy korpuszok Minél nagyobb, annál jobb A nagy korpusz drága Cél: készítsünk korpuszt automatizáltan
11 Két nagy magyar szövegkorpusz BME MOKK Magyar Nemzeti Szövegtár 600 millió szó 2003-ban készült millió szó Válogatott tartalom POS-taggelt
12 Ötlet 1. A magyar web szövegeinek letöltése 2. A leggyakoribb szavak, szósorozatok elemzése (n-gramok) 3. Hogyan változnak időben?
13 Hogyan? Crawler, amelyik folyamatosan járja a webet: szövegkinyerőt tartalmaz, amelyik az értékes részt kinyeri a HTML-ből A gyakori szósorozatok azonosítása
14 Egy crawler sémája
15 A fő tartalom kinyerése Piros rész: boilerplate
16 Ugyanez HTML-ben
17 Boilerplate-eltávolító algoritmusok BTE (Body Text Extraction) Alapötlet: a boilerplate több címkét tartalmaz Megtalálja azt a leghosszabb részt, ahol a legkevesebb címke van Nem tud táblázatokból szöveget kinyerni Sok hiba a magyar oldalakon Statisztikai módszer Ha egy szöveg több oldalon szerepel: akkor az boilerplate Ha egy banner mindig más reklámot ad: része lesz a fő tartalomnak (pl. Bookline az index.hu-n)
18 Mit csinálnak a többiek? A JusText algoritmus Jan Pomikalek készítette (Masaryk University Faculty of Informatics, Brno, 2011) Ezek arányaiból dönt: Szöveg/címkék Stopword Linkek Szöveg hossza Python Nagyon jó eredmények és minőség
19 Egy probléma
20 Az Aranyásó algoritmus A lapok sok ismétlődést tartalmaznak Egy domain megtanulása: 1. Pár száz oldalt letöltünk 2. A több oldalon ismétlődő bekezdéseket megkeressük 3. Az egyedi bekezdések előtti, ill. mögötti azon HTML-minta a nyerő, amely a legtöbb lapon közös 4. Ezt a mintát megjegyezzük, és az összes lapra alkalmazzuk
21
22 Crawler-eredmények
23 Pázmány Korpusz sokféle tartalom több, mint domainről (1,5 milliárd token) url-, bekezdés- és mondat szinten duplikátummentes tokenizálás (Huntoken) szófajilag elemzett (Humor + PurePos) NP-annotáció (Huntag3) új, pontosabb annotáció: a Noémi-kód
24 Szétválogatás: Pázmány korpusz Cikkek kommentek hozzászólás minták keresése ( Hozzászólások 123, nickname , stb.) Smiley-sűrűség Összefüggő szöveg felsorolások Átlagos bekezdés szószáma > 15 és stopwordsűrűség Közös kódolás (utf-8)
25 Pázmány korpusz alkorpusz tokenszám fő korpusz egyéb tartalmak kommentek összesen
26 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek
27 Szósorozatok valódi gyakoriságának számolása Egyetlen szó könnyű eset Szósorozatok számos probléma A gyakori rövid minta (hibásan) gyakorinak mutathatja a körülötte lévő hosszúakat: szósorozatok Előfordulás a szövegben előfordulás Önálló előfordulás túl az Óperencián túl az =100 túl =500
28 Beágyazott minták Szósorozatok valódi gyakoriságának számolása Sebesség- és memóriakorlátok 13 GB méretű szöveggel Alkalmazása: Ha az input egy cikk, valószínűleg a fő szereplőjét vagy témáját adja Ha az input egy korpusz, a tipikus szókapcsolatokat adja Ha az input egy POS-taggelt korpusz, a leggyakoribb struktúráit adhatja az adott nyelvnek
29 Tervek Az egész magyar web letöltése (tárhely ) 2., 3., sokadik futtatás: csak a különbség tárolása Trendek megfigyelése a web tartalmában
30 Példák lexikai információra egy kis korpuszból Minta: [főnév] [főnév] [mn] [főnév] Matolcsy György nemzetgazdasági miniszter (694) Barack Obama amerikai elnök (664) Sólyom László köztársasági elnök (367) Angela Merkel német kancellár (345) Nicolas Sarkozy francia elnök (256) Schmitt Pál köztársasági elnök (229) Vlagyimir Putyin orosz elnök (186) Minta: [névelő] [főnév] [ige] A szóvivő elmondta (660) A szakember elmondta (480) A miniszter közölte (320) A bíróság megállapította (29) Minta: [főnév] [főnév] Orbán Viktor (8181) New York (4085) Wall Street (1358) Harry Potter (691) Johnny Depp (645) Angelina Jolie (627) Puskás Ferenc (380)
31 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek
32 Főnévi csoport felismerése Maximal NP Peter s brown dog is barking. Minimal NP
33 Főnévi csoport felismerése Sequential tagging: címkéket rendelünk a szavakhoz Szó címke Peter B-NP s B-NP brown I-NP dog I-NP is B-VP barking I-VP. O Címkék: B - begin I - inside E - end S - single
34 CoNLL-2000 format Főnévi csoport felismerése word POS label Peter NN B-NP s POS B-NP brown JJ I-NP dog NN I-NP is VBZ B-VP barkin g VBG.. O I-VP A chunkerek ugyanazon tanító- és tesztadaton összehasonlíthatóak Fejlesztés: szoftver adat
35 CoNLL-2000 format Főnévi csoport felismerése szó POS bármely jegy címke Peter NN B-NP s POS B-NP brown JJ I-NP dog NN I-NP is VBZ B-VP barkin g VBG.. O I-VP Tipikus jegy (=feature) hangolások: Új jegy hozzáadása pozíció, speciális eset, stb Címke módosítása B-NP peter-nn-b-np Szófaj módosítása trial-and-error kiértékelés: a fentiek tanítása és tesztelése egy chunkeren
36 Javaslatok új jegyekre noun prep num noun verb 一个人和一只狗跑步 human quantity animal motion,run (A man runs with a dog.)
37 WordNet - synsetek word pos synsets IOB labels Mr. NNP title.n.06/mister.n.01/name.n.01/ B-NP Terra NNP - I-NP said VBD indicate.v.03/tell.v.02/express.v.02/ he PRP he.n.02/helium.n.01/ B-NP sold VBD interact.v.01/deal.v.06/sell.v.07/ O First NNP rank.n.02/state.n.02/status.n.01/ B-NP Illinois NNP language.n.01/indian.n.01/ I-NP O
38 WordNet - új jegyek definiálásához WordNet synset gyakoriság hozzárendelt címke arány mister.n B:767 / I:18 B:98% / I:2% nation.n I:63 I:100% number.n B:1 / I:89 B:1% / I:98% day.n B:7 / I:179 B:4% / I:96% country.n B:1 / I:66 B:1% / I:99% A magas arányú synsetek új jegyként használhatóak az NP felismerésnél
39 WordNet - a javaslatok áttekintése
40 Eredmények method F-score with original tags F-score with modified tags by toolkit NLTK - unigram chunker 83.20% 83.80% NLTK - bigram chunker 84.50% 86.10% HunTag % 92.74% voting system between more chunkers (Shen and Sarkar, 2005) voting system between more chunkers + HunTag % 94.12% 93.13% 94.59%
41 Eredmények voting format with original POS modified POS by the toolkit IOB % 93.57% IOB % 92.04% IOE % 92.18% IOE % 89.96% O+C 90.52% 91.71% after voting 92.74% 94.12% after voting, HunTag3 added 93.13% 94.59%
42 A mondatok feldolgozása Főnévi csoportok felismerése és kiemelése Egyedi elbírálást kér a kormánytól a károk enyhítésénél az árvízsújtotta Felsőzsolca önkormányzata. (Egyedi elbírálást) kér (a kormánytól) (a károk enyhítésénél) (az árvízsújtotta Felsőzsolca önkormányzata). NP-t kér NP-től NP-nél NP.
43 A mondat NP-k nélkül A főnévicsoport-kereső és a mondatváz-kereső rendszer demonstrációja Játék (másféle) hiányos mondatokkal
44 Egy probléma #1 eset Aláírják a finanszírozási szerződést a Budapesti Közlekedési Központ igazgatósága és a Fővárosi Közgyűlés jóváhagyásával. Aláírják (a finanszírozási szerződést) (a Budapesti Közlekedési Központ igazgatósága) és (a Fővárosi Közgyűlés jóváhagyásával). Aláírják NP-t NP és NP-vel. Aláírják NP-t NP-vel.
45 Egy probléma #2 eset Ráütöttem a pecsétet és az oklevelet átadtam. Ráütöttem (a pecsétet) és (az oklevelet) átadtam. Ráütöttem NP-t és NP-t átadtam.
46 Hogyan lehetne megkülönböztetni Szemantikus információ kinyerése a korpuszból NP1 és NP2 NP1 valamint NP2 NP1 blabla1, NP2 pedig blabla2 => Ezen NP fejei azonos domainben vannak
47 Eredmények 75M text => 5,500 pár Kis világismeret NP felismeréshez IMF EU fagylalt jégkrém bér nyugdíj munka kenyér délután reggel növekedés foglalkoztatás...
48 NP chunking Szabályalapú reguláris kifejezésekkel 81% (magyar nyelvre) Statisztikai HunTag 90%
49 HunTag: fejlesztési ötletek Más címkékkel (MSD, Humor, Noémi-kód) WordNet-tulajdonságokkal MMO-címkékkel Hibrid (szabályalapú + statisztikai) Tiltó szabályokkal HunTag újraírása, más matematikai modellek
50 Cikkek A Hungarian NP-chunker Gábor Recski, Dániel Varga Szófaji kódok és névelemek együttes osztályozása Móra György, Vincze Veronika, Zsibrita János nc_b5.pdf (139. oldaltól) More Effective Boilerplate Removal-the GoldMiner Alg. István Endrédy, Attila Novák te%20removal%20-%20the%20goldminer%20algorithm.pdf Motivációs videó
VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika
VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség
RészletesebbenFőnévi csoportok azonosítása szabályalapú és hibrid módszerekkel
Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A
RészletesebbenFőnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon
Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:
RészletesebbenKorpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29
Korpusznyelvészet 2016 április 18, ELTE Sass Bálint MTA Nyelvtudományi Intézet sassbalint@nytudmtahu 1/29 http://nsztnytudhu/nszthtml 2/29 Mi mindent kell csinálni ahhoz, hogy sima szövegből ilyen korpuszlekérdezőfelület
RészletesebbenA HUNGLISH PÁRHUZAMOS KORPUSZ
A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április
RészletesebbenReklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint
ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program
RészletesebbenAz igekötők gépi annotálásának problémái Kalivoda Ágnes
Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás
RészletesebbenA magyar létige problémái a számítógépes nyelvi elemzésben
A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:
RészletesebbenMotiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu
VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK
RészletesebbenNYELVTECHNOLÓGIAI ALGORITMUSOK
NYELVTECHNOLÓGIAI ALGORITMUSOK KORPUSZOK AUTOMATIKUS ÉPÍTÉSÉHEZ ÉS PONTOSABB FELDOLGOZÁSUKHOZ DOKTORI (PH.D.) DISSZERTÁCIÓ Endrédy István Témavezető: Dr. Prószéky Gábor, az MTA doktora PÁZMÁNY PÉTER KATOLIKUS
RészletesebbenDoktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint
MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori
RészletesebbenA Magyar Nemzeti Szövegtár új változatáról Váradi Tamás
A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény
RészletesebbenSass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola
IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.
RészletesebbenA Mazsola KORPUSZLEKÉRDEZŐ
A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1
RészletesebbenIgekötős szerkezetek a magyarban
Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek
RészletesebbenSZÁMÍTÓGÉPES NYELVI ADATBÁZISOK
SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.
RészletesebbenNyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu
Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők
RészletesebbenI. Internetes keresési feladatok (ajánlott idő: 20 perc)
I. Internetes keresési feladatok (ajánlott idő: 20 perc) A talált oldalak internet címét (URL) másold ki egy szöveges dokumentumba és mentsd Csapatnev_internet néven! A konkrét válaszokat ide a papírra
RészletesebbenJanuár 7. hétfő. I. Beszédtechnológia, fonológia
Január 7. hétfő 09:15-10:45 Regisztráció, kávé 10:45-11:00 Megnyitó 11:00-12:00 Plenáris előadás Gósy Mária: Spontán beszéd: szabályok és szabálytalanságok I. Beszédtechnológia, fonológia 12:00-12:20 Grósz
RészletesebbenHibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György
Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink
RészletesebbenKOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems
KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás
RészletesebbenBevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai 2015. november 25.
Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi
RészletesebbenDodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17
Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott
RészletesebbenA számítógépes nyelvészet elmélete és gyakorlata. Korpuszok
A számítógépes nyelvészet elmélete és gyakorlata Korpuszok Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint
RészletesebbenA Hunglish Korpusz és szótár
A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu
RészletesebbenEnterprise Content Governance
ECM Consulting Kft. 1119 Budapest, Puskás Tivadar u. 33. Fax: +36 (1) 999 7496 Enterprise Content Governance 2013.03.29. Bemutató tartalma 1. Kiinduló állapot 2. Megoldás bemutatása 3. Elért eredmények
RészletesebbenGépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
RészletesebbenTrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)
TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata) Miháltz Márton Hungarian Natural Language Processing Meetup, 2014. szeptember 25. www.trendminer-project.eu TrendMiner Projekt
RészletesebbenSzámítógépes nyelvészet
Számítógépes nyelvészet Babarczy Anna A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból
RészletesebbenA kibővített Magyar történeti szövegtár új keresőfelülete
A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged Nszt
RészletesebbenAz MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI
Az MTA Cloud a tudományos alkalmazások támogatására Kacsuk Péter MTA SZTAKI Kacsuk.Peter@sztaki.mta.hu Tudományos alkalmazások és skálázhatóság Kétféle skálázhatóság: o Vertikális: dinamikusan változik
RészletesebbenBevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...)
Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...) A korpusznyelvészet alapgondolata Korpusz: meghatározott szempontok alapján kiválasztott szövegmennyiség, amelyen
RészletesebbenEsemények detektálása természetes nyelvű szövegekben
Események detektálása természetes nyelvű szövegekben Subecz Zoltán, Nagyné Csák Éva Összefoglalás Az események detektálásának a feladata az esemény-előfordulások azonosítása a szövegekben. Esemény előfordulásnak
RészletesebbenCsináld magad naplóelemzés syslog-ng-vel
Csináld magad naplóelemzés syslog-ng-vel Höltzl Péter, CISA holtzl.peter@balabit.com http:/// Miről lesz szó? Hogyan lesz az adatból információ? Hogyan elemez a syslog-ng futásidőben? Mire tudjuk használni
RészletesebbenIdegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel
statisztikai és nyelvi eszközökkel Témalabor 2. beszámoló Témavezet : Vámos Gábor 2009. január 9. Mir l lesz szó? A cél: tesztelni és tanítani 1 A cél: tesztelni és tanítani Eszközök és célok Szókincs
RészletesebbenTipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján
Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Schrádi Tamás schraditamas@aut.bme.hu Automatizálási és Alkalmazott Informatikai Tanszék BME A feladat A webszerverek naplóállományainak
RészletesebbenOperációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED BASH recap, reguláris kifejezések Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
RészletesebbenGépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)
Gépi tanulás Hány tanítómintára van szükség? VKH Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Induktív tanulás A tanítás folyamata: Kiinduló
RészletesebbenIsmeretlen kifejezések és a szófaji egyértelm sítés
Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,
RészletesebbenBevezetés az e-magyar programcsomag használatába
Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések
RészletesebbenTermészetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.
Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing
RészletesebbenKorpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.
Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció
Részletesebben1. gyakorlat. Mesterséges Intelligencia 2.
1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott
RészletesebbenMultimédiás adatbázisok
Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás
RészletesebbenA HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága
A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?
RészletesebbenH N S A d a t K a p c s o l a t
HNS AdatKapcsolat HNS AdatKapcsolat 2009 március 31 HNS SPC Statisztikai folyamatszabályozó és minőségellenőrző program Copyright 1995-2009 HNS Műszaki Fejlesztő Kft. 9027 Győr, Gesztenyefa u. 4. Tel.:
RészletesebbenKORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL
KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban
RészletesebbenThe nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
RészletesebbenMi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.
NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17. 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS BEVEZETŐ Language makes us human. Turing teszt
RészletesebbenSzintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.
Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek
RészletesebbenKérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint
ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS
RészletesebbenKorpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.
Korpuszok létrehozása Korpuszok a nyelvészeti kutatásban 2014. szeptember 22. Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis szöveggyűjtemény Annotáció: a szövegek nyelvi
RészletesebbenSzámítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk
Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Középiskolás szakkör előadás fóliák http://www.inf.u-szeged.hu/hlt 2008.12.04. 1 Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok
RészletesebbenAlkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.
Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának
RészletesebbenTeljesítménymodellezés
Teljesítménymodellezés Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems
RészletesebbenRegionális hulladékgazdálkodási rendszerek értékelése
Regionális hulladékgazdálkodási rendszerek értékelése Magyar Tudomány Ünnepe XII. Környezettudományi Tanácskozás 2015. november 13. Tartalom 1. Témafelvezetés 2. Történeti áttekintés 1. A hulladékgazdálkodás
RészletesebbenAlapszintű formalizmusok
Alapszintű formalizmusok dr. Majzik István BME Méréstechnika és Információs Rendszerek Tanszék 1 Mit szeretnénk elérni? Informális tervek Informális követelmények Formális modell Formalizált követelmények
RészletesebbenMorfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.
Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok
RészletesebbenOperációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED Reguláris kifejezések - alapok, BASH Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor
RészletesebbenIKT megoldások az ipar szolgálatában
IKT megoldások az ipar szolgálatában Charaf Hassan, egyetemi tanár, tanszékvezető 1 IKT Trendek A mobileszközök és szenzorok erősödése A felhőszolgáltatások elterjedése Hálózati megoldások robusztussága
RészletesebbenPurePos: hatékony morfológiai egyértelműsítő modul
PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás
RészletesebbenA gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek
A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek Varjú Zoltán 2018.05.22. HWSW Meetup ML Engineering Rules of Machine Learning #1 Don t be afraid to launch
RészletesebbenKözéleti témák Online- és közösségi média elemzés és interakció analitika lyzr Reports
Közéleti témák Online- és közösségi média elemzés és interakció analitika lyzr Reports Összegzés Megjelenések cikkek, posztok, tweetek Összes interakció like-ok, megosztások, retweetek és +1-ek 342 686
RészletesebbenKomplex feliratok készítése Maplex-el. Beke Dániel
Komplex feliratok készítése Maplex-el Beke Dániel Áttekintés Milyen típusú feliratok vannak az ArcGIS-ben? - Labeling - Maplex Label Engine vs. Annotation Felirat pozíciója Felirat elhelyezési stratégiák
RészletesebbenMazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged
Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt
RészletesebbenEMLÉKEZTETŐ. az MTA Közlekedéstudományi Bizottság 2012. november 14-i üléséről
Magyar Tudományos Akadémia Műszaki Tudományok Osztálya Közlekedéstudományi Bizottság Elnök: Dr. Tánczos Lászlóné az MTA doktora tel.: +36-1-463-3265 fax: +36-1-463-3267 e-mail: ktanczos@kgazd.bme.hu Titkár:
RészletesebbenBig Data az adattárházban
Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi
RészletesebbenSzöveg címe: Nagy karácsonyi örökbefogadás Forrás: Kép forrása: az alapítványi szórólap
Szöveg címe: Nagy karácsonyi örökbefogadás Forrás: http://www.allatkertialapitvany.hu/ Kép forrása: az alapítványi szórólap Szövegtípus: dokumentum (hirdetés, poszter) Szöveg olvashatósága: közepes nehézségű
RészletesebbenGyakorlatok. VITMMA09 Okos város MSc mellékspecializáció
Gyakorlatok VITMMA09 Okos város MSc mellékspecializáció ITS gyakorlatok Cél Gyakorlati tudással kiegészíteni az elméleti ismereteket Példák a való világból, korlátozott de valósághű környezetben Tervezés,
RészletesebbenHogyan többszörözd meg weboldalaid látogatottságát?
Hogyan többszörözd meg weboldalaid látogatottságát? 1 Nagyobb látogatottság jobb ajánlatok több pénz 2 Amit helyettünk csinálnak kész rendszert működtetnek újabb ajánlatok hírlevél kiküldés ügyfélszolgálat
RészletesebbenSzövegbányászat és dokumentum kezelés
Szövegbányászat és dokumentum kezelés 1. Szöveg bányászat alapfogalmai Szövegbányászat Szövegbányászat = szöveg + bányászat Rövid történeti áttekintés: 1958 (Luhn): lényeges szavak kiemelése a szövegből
RészletesebbenPoloniaPress hírcsokor
PoloniaPress hírcsokor 2014. június Lengyelország és az EU Komorowski a D-Day emlékünnepségén 2014. június 6. Bronisław Komorowski köztársasági elnök részt vett a normandiai partraszállás 70. évfordulójának
RészletesebbenGoogle App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com
Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,
RészletesebbenEgy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba
Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba Témavezető: Horváth Zoltán és Simon Thompson OTDK 2007, Miskolc Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba OTDK
RészletesebbenPublish date 1/7/2012 4:09 AM. Change date 1/7/2012 4:09 AM
X-ray devices Info Version 2 Url http://com.mercell.com/permalink/30400850.aspx External tender id 5260-2012 Tender type Contract Award Document type Contract award Procurement procedure Open procedure
RészletesebbenPrepositions Előljárószavak, prepozíciók
Előljárószavak, prepozíciók Az utánuk lévő főnevek és névmások mindig tárgyesetben állnak, pl me, him, her, us, then Idő kifejezése in hónapok in January (januárban) in évszámok in 2009 (2009-ben) in évszakok
RészletesebbenSzámítógépes Nyelvészet nyelvi adatbázisok és használatuk
Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt 5/3/2011 1 Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok
RészletesebbenOlvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály)
Olvasás-szövegértés fejlesztése Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály) Feladataink szókincs gyarapítása a használt szavak jelentésrétegeinek, stílusértékének
RészletesebbenSZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN
SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN Almási Béla, almasi@math.klte.hu Sztrik János, jsztrik@math.klte.hu KLTE Matematikai és Informatikai Intézet Abstract This paper gives a short review on software
RészletesebbenKÉPI INFORMÁCIÓK KEZELHETŐSÉGE. Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet. Összefoglaló
KÉPI INFORMÁCIÓK KEZELHETŐSÉGE Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet Összefoglaló Tanórákon és az önálló tanulás részeként is, az informatika világában a rendelkezésünkre álló óriási mennyiségű
RészletesebbenMagyar nyelvű néprajzi keresőrendszer
Szeged, 2013. január 7 8. 361 Magyar nyelvű néprajzi keresőrendszer Zsibrita János 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport zsibrita@inf.u-szeged.hu 2 MTA-SZTE Mesterséges
RészletesebbenReguláris kifejezések 1.
Reguláris kifejezések 1. A nyelvtechnológia eszközei és nyersanyagai 1. gyakorlat A beadandó feladatok be vannak keretezve! 1.1. Miért hívják reguláris kifejezésnek? (!) Az elméleti és a gyakorlati reguláris
RészletesebbenA PhysioBank adatmegjelenítő szoftvereinek hatékonysága
A PhysioBank adatmegjelenítő szoftvereinek hatékonysága Kaczur Sándor kaczur@gdf.hu GDF Informatikai Intézet 2012. november 14. Célok, kutatási terv Szabályos EKG-felvétel: P, Q, R, S, T csúcs Anatómiai
RészletesebbenMiről lesz szó? Videó tartalom elemzés (VCA) leegyszerűsített működése Kültéri védelem Közúthálózat megfigyelés Emberszámlálás
Videóanalitikát mindenhova! Princz Adorján Miről lesz szó? Videó tartalom elemzés (VCA) leegyszerűsített működése Kültéri védelem Közúthálózat megfigyelés Emberszámlálás VCA alapú detektorok Videótartalom
RészletesebbenHarry Potter versus Harry herceg
2. szint Március-április Harry Potter versus Harry herceg A Harry Pottert alakító Daniel Radcliffe három év alatt 6 millió fontot (2,2 milliárd forintot) "varázsolt össze" magának(1), és ezzel Harry herceg
RészletesebbenInformáció és kommunikáció
Információ és kommunikáció Tanmenet Információ és kommunikáció TANMENET- Információ és kommunikáció Témakörök Javasolt óraszám 1. Hálózati alapismeretek 20 perc 2. Az internet jellemzői 25 perc 3. Szolgáltatások
RészletesebbenA felhőről általában. Kacsuk Péter MTA SZTAKI
A felhőről általában Kacsuk Péter MTA SZTAKI Miért fontos a felhő? (I) Problémák, ha az infrastruktúra még nem létezik Az ötletek megvalósításához szükséges idő Kutatás a felhők előtt 1. Van egy jó ötlet
RészletesebbenBIG DATA ELEMZÉSEK LEHETŐSÉGEI
BIG DATA ELEMZÉSEK LEHETŐSÉGEI A KÖRNYEZETVÉDELMI MODELLEZÉSBEN Dr. Torma A. 2015.11.13. 2015/11/13 Dr. TORMA A. >> Széchenyi István Egyetem 2 Tartalom 1. A Big Data fogalma 2. Pár érdekes adat a Big Data
Részletesebbenw w w. h a n s a g i i s k. h u
Weblapkészítés weblap: hypertext kódolású dokumentumok, melyek szöveget képet linkeket, könyvjelzőket/horgonyokat táblázatokat / szövegdobozokat és más objektumokat tartalmaznak. Kódolásuk HTML (Hypertext
RészletesebbenAz Ómagyar Korpusz bemutatása
Az Ómagyar Korpusz bemutatása Simon Eszter 2017. január 13. 29. Finnugor Szeminárium Simon Eszter Az Ómagyar Korpusz bemutatása Az előadás vázlata 1 A projektek 2 A korpusz anyaga 3 A feldolgozás lépései
RészletesebbenOperációs rendszerek. 10. gyakorlat. AWK - bevezetés UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED
UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED AWK - bevezetés Operációs rendszerek 10. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor 1 / 15 Reguláris
RészletesebbenAzonosító jel: INFORMATIKA EMELT SZINTŰ GYAKORLATI VIZSGA. 2013. május 13. 8:00. A gyakorlati vizsga időtartama: 240 perc
ÉRETTSÉGI VIZSGA 2013. május 13. INFORMATIKA EMELT SZINTŰ GYAKORLATI VIZSGA 2013. május 13. 8:00 A gyakorlati vizsga időtartama: 240 perc Beadott dokumentumok Piszkozati pótlapok száma Beadott fájlok száma
RészletesebbenSzemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.
Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?
RészletesebbenAngelina Jolie a legnépszerűbb(1) az Egyesült Államokban
1. szint December Angelina Jolie a legnépszerűbb(1) az Egyesült Államokban Angelina Jolie-val szilveszterezne(2) a legtöbb(3) amerikai férfi. A 28 éves Angelina Jolie a Tomb Rider hősnőjét(4), Lara Croftot
RészletesebbenStatisztikai eljárások a mintafelismerésben és a gépi tanulásban
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási
RészletesebbenA MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA
Magyar Tudomány 2014/9 A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA Váradi Tamás Oravecz Csaba tudományos főmunkatárs, osztályvezető, tudományos munkatárs, MTA Nyelvtudományi Intézet Nyelvtechnológiai
RészletesebbenA terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop 2014 2014. Április 24-25-26, Pécs
A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben Networkshop 2014 2014. Április 24-25-26, Pécs Fordító- tolmácsképzés Magyarországon Mesterszakok: Elte (angol,
RészletesebbenGépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
RészletesebbenSzövegbányászat Információ Visszakeresés és egyéb alkalmazások
Szövegbányászat Információ Visszakeresés és egyéb alkalmazások A diák nagyban támaszkodnak a Stanford Egyetem Information Retrieval and Web-mining kurzusának anyagára: http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html
Részletesebben