5. Automatikus korpuszépítés és a benne való keresés

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "5. Automatikus korpuszépítés és a benne való keresés"

Átírás

1 5. Automatikus korpuszépítés és a benne való keresés Endrédy István A nyelvtechnológia eszközei és nyersanyagai

2 The big picture

3 Nyelvtechnológia Hatékonyabb megoldáshoz: több ismeret a nyelvről több ismeret a világról

4 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek

5 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek

6 Korpusz Korpusz-alapú módszerek: a szövegkorpusz segédeszköz, ami empirikus adataival támogatja az intuíciót, mérhetővé teszi a nyelvi jelenségeket, meglévő elméleteket bizonyít/cáfol Korpuszvezérelt módszerek: a korpusz maga szolgáltatja az elméletet, a nyelvész minden előzetes feltevés és elvárás nélkül fordul az adatokhoz, és minden következtetést kizárólag a korpusz megfigyeléseiből von le Serendipity Principle: jelentős dolog véletlen felfedezése, tipikusan akkor, amikor valami egész másra figyelünk

7 A korpuszannotáció szintjei Egyszerű szöveg Szófaji egyértelműsítés Névkifejezések kezelése Szintaktikai szerkezetek bejelölése Jelentés-egyértelműsítés Koreferencia-kezelés Egyéb

8 A korpusz méretének mérőszámai Hány token van benne? = Mekkora a korpusz? Mi egy token? $22.50 George W. Bush / George Bush / Bush Korpusznormalizálás The / the / THE Calif. / California MTA / Magyar Tudományos Akadémia Hány type van benne? = Hány különböző szó van benne?

9 A korpusz mérete Biblia ( token) egy 18milliárd tokenes korpusz elolvasása 85 év lenne kinyomtatva 900m vastag lenne gépi feldolgozás szükséges

10 Korpusz - miért? A nyelvtechnológia sok területén szükségesek a nagy korpuszok Minél nagyobb, annál jobb A nagy korpusz drága Cél: készítsünk korpuszt automatizáltan

11 Két nagy magyar szövegkorpusz BME MOKK Magyar Nemzeti Szövegtár 600 millió szó 2003-ban készült millió szó Válogatott tartalom POS-taggelt

12 Ötlet 1. A magyar web szövegeinek letöltése 2. A leggyakoribb szavak, szósorozatok elemzése (n-gramok) 3. Hogyan változnak időben?

13 Hogyan? Crawler, amelyik folyamatosan járja a webet: szövegkinyerőt tartalmaz, amelyik az értékes részt kinyeri a HTML-ből A gyakori szósorozatok azonosítása

14 Egy crawler sémája

15 A fő tartalom kinyerése Piros rész: boilerplate

16 Ugyanez HTML-ben

17 Boilerplate-eltávolító algoritmusok BTE (Body Text Extraction) Alapötlet: a boilerplate több címkét tartalmaz Megtalálja azt a leghosszabb részt, ahol a legkevesebb címke van Nem tud táblázatokból szöveget kinyerni Sok hiba a magyar oldalakon Statisztikai módszer Ha egy szöveg több oldalon szerepel: akkor az boilerplate Ha egy banner mindig más reklámot ad: része lesz a fő tartalomnak (pl. Bookline az index.hu-n)

18 Mit csinálnak a többiek? A JusText algoritmus Jan Pomikalek készítette (Masaryk University Faculty of Informatics, Brno, 2011) Ezek arányaiból dönt: Szöveg/címkék Stopword Linkek Szöveg hossza Python Nagyon jó eredmények és minőség

19 Egy probléma

20 Az Aranyásó algoritmus A lapok sok ismétlődést tartalmaznak Egy domain megtanulása: 1. Pár száz oldalt letöltünk 2. A több oldalon ismétlődő bekezdéseket megkeressük 3. Az egyedi bekezdések előtti, ill. mögötti azon HTML-minta a nyerő, amely a legtöbb lapon közös 4. Ezt a mintát megjegyezzük, és az összes lapra alkalmazzuk

21

22 Crawler-eredmények

23 Pázmány Korpusz sokféle tartalom több, mint domainről (1,5 milliárd token) url-, bekezdés- és mondat szinten duplikátummentes tokenizálás (Huntoken) szófajilag elemzett (Humor + PurePos) NP-annotáció (Huntag3) új, pontosabb annotáció: a Noémi-kód

24 Szétválogatás: Pázmány korpusz Cikkek kommentek hozzászólás minták keresése ( Hozzászólások 123, nickname , stb.) Smiley-sűrűség Összefüggő szöveg felsorolások Átlagos bekezdés szószáma > 15 és stopwordsűrűség Közös kódolás (utf-8)

25 Pázmány korpusz alkorpusz tokenszám fő korpusz egyéb tartalmak kommentek összesen

26 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek

27 Szósorozatok valódi gyakoriságának számolása Egyetlen szó könnyű eset Szósorozatok számos probléma A gyakori rövid minta (hibásan) gyakorinak mutathatja a körülötte lévő hosszúakat: szósorozatok Előfordulás a szövegben előfordulás Önálló előfordulás túl az Óperencián túl az =100 túl =500

28 Beágyazott minták Szósorozatok valódi gyakoriságának számolása Sebesség- és memóriakorlátok 13 GB méretű szöveggel Alkalmazása: Ha az input egy cikk, valószínűleg a fő szereplőjét vagy témáját adja Ha az input egy korpusz, a tipikus szókapcsolatokat adja Ha az input egy POS-taggelt korpusz, a leggyakoribb struktúráit adhatja az adott nyelvnek

29 Tervek Az egész magyar web letöltése (tárhely ) 2., 3., sokadik futtatás: csak a különbség tárolása Trendek megfigyelése a web tartalmában

30 Példák lexikai információra egy kis korpuszból Minta: [főnév] [főnév] [mn] [főnév] Matolcsy György nemzetgazdasági miniszter (694) Barack Obama amerikai elnök (664) Sólyom László köztársasági elnök (367) Angela Merkel német kancellár (345) Nicolas Sarkozy francia elnök (256) Schmitt Pál köztársasági elnök (229) Vlagyimir Putyin orosz elnök (186) Minta: [névelő] [főnév] [ige] A szóvivő elmondta (660) A szakember elmondta (480) A miniszter közölte (320) A bíróság megállapította (29) Minta: [főnév] [főnév] Orbán Viktor (8181) New York (4085) Wall Street (1358) Harry Potter (691) Johnny Depp (645) Angelina Jolie (627) Puskás Ferenc (380)

31 Automatikus korpuszépítés és a benne való keresés Korpuszok és építésük Szógyakoriság Mondatszerkezetek

32 Főnévi csoport felismerése Maximal NP Peter s brown dog is barking. Minimal NP

33 Főnévi csoport felismerése Sequential tagging: címkéket rendelünk a szavakhoz Szó címke Peter B-NP s B-NP brown I-NP dog I-NP is B-VP barking I-VP. O Címkék: B - begin I - inside E - end S - single

34 CoNLL-2000 format Főnévi csoport felismerése word POS label Peter NN B-NP s POS B-NP brown JJ I-NP dog NN I-NP is VBZ B-VP barkin g VBG.. O I-VP A chunkerek ugyanazon tanító- és tesztadaton összehasonlíthatóak Fejlesztés: szoftver adat

35 CoNLL-2000 format Főnévi csoport felismerése szó POS bármely jegy címke Peter NN B-NP s POS B-NP brown JJ I-NP dog NN I-NP is VBZ B-VP barkin g VBG.. O I-VP Tipikus jegy (=feature) hangolások: Új jegy hozzáadása pozíció, speciális eset, stb Címke módosítása B-NP peter-nn-b-np Szófaj módosítása trial-and-error kiértékelés: a fentiek tanítása és tesztelése egy chunkeren

36 Javaslatok új jegyekre noun prep num noun verb 一个人和一只狗跑步 human quantity animal motion,run (A man runs with a dog.)

37 WordNet - synsetek word pos synsets IOB labels Mr. NNP title.n.06/mister.n.01/name.n.01/ B-NP Terra NNP - I-NP said VBD indicate.v.03/tell.v.02/express.v.02/ he PRP he.n.02/helium.n.01/ B-NP sold VBD interact.v.01/deal.v.06/sell.v.07/ O First NNP rank.n.02/state.n.02/status.n.01/ B-NP Illinois NNP language.n.01/indian.n.01/ I-NP O

38 WordNet - új jegyek definiálásához WordNet synset gyakoriság hozzárendelt címke arány mister.n B:767 / I:18 B:98% / I:2% nation.n I:63 I:100% number.n B:1 / I:89 B:1% / I:98% day.n B:7 / I:179 B:4% / I:96% country.n B:1 / I:66 B:1% / I:99% A magas arányú synsetek új jegyként használhatóak az NP felismerésnél

39 WordNet - a javaslatok áttekintése

40 Eredmények method F-score with original tags F-score with modified tags by toolkit NLTK - unigram chunker 83.20% 83.80% NLTK - bigram chunker 84.50% 86.10% HunTag % 92.74% voting system between more chunkers (Shen and Sarkar, 2005) voting system between more chunkers + HunTag % 94.12% 93.13% 94.59%

41 Eredmények voting format with original POS modified POS by the toolkit IOB % 93.57% IOB % 92.04% IOE % 92.18% IOE % 89.96% O+C 90.52% 91.71% after voting 92.74% 94.12% after voting, HunTag3 added 93.13% 94.59%

42 A mondatok feldolgozása Főnévi csoportok felismerése és kiemelése Egyedi elbírálást kér a kormánytól a károk enyhítésénél az árvízsújtotta Felsőzsolca önkormányzata. (Egyedi elbírálást) kér (a kormánytól) (a károk enyhítésénél) (az árvízsújtotta Felsőzsolca önkormányzata). NP-t kér NP-től NP-nél NP.

43 A mondat NP-k nélkül A főnévicsoport-kereső és a mondatváz-kereső rendszer demonstrációja Játék (másféle) hiányos mondatokkal

44 Egy probléma #1 eset Aláírják a finanszírozási szerződést a Budapesti Közlekedési Központ igazgatósága és a Fővárosi Közgyűlés jóváhagyásával. Aláírják (a finanszírozási szerződést) (a Budapesti Közlekedési Központ igazgatósága) és (a Fővárosi Közgyűlés jóváhagyásával). Aláírják NP-t NP és NP-vel. Aláírják NP-t NP-vel.

45 Egy probléma #2 eset Ráütöttem a pecsétet és az oklevelet átadtam. Ráütöttem (a pecsétet) és (az oklevelet) átadtam. Ráütöttem NP-t és NP-t átadtam.

46 Hogyan lehetne megkülönböztetni Szemantikus információ kinyerése a korpuszból NP1 és NP2 NP1 valamint NP2 NP1 blabla1, NP2 pedig blabla2 => Ezen NP fejei azonos domainben vannak

47 Eredmények 75M text => 5,500 pár Kis világismeret NP felismeréshez IMF EU fagylalt jégkrém bér nyugdíj munka kenyér délután reggel növekedés foglalkoztatás...

48 NP chunking Szabályalapú reguláris kifejezésekkel 81% (magyar nyelvre) Statisztikai HunTag 90%

49 HunTag: fejlesztési ötletek Más címkékkel (MSD, Humor, Noémi-kód) WordNet-tulajdonságokkal MMO-címkékkel Hibrid (szabályalapú + statisztikai) Tiltó szabályokkal HunTag újraírása, más matematikai modellek

50 Cikkek A Hungarian NP-chunker Gábor Recski, Dániel Varga Szófaji kódok és névelemek együttes osztályozása Móra György, Vincze Veronika, Zsibrita János nc_b5.pdf (139. oldaltól) More Effective Boilerplate Removal-the GoldMiner Alg. István Endrédy, Attila Novák te%20removal%20-%20the%20goldminer%20algorithm.pdf Motivációs videó

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika

VIII. Magyar Számítógépes. Nyelvészeti Konferencia MSZNY 2011. Szerkesztette: Tanács Attila. Vincze Veronika VIII. Magyar Számítógépes Nyelvészeti Konferencia MSZNY 2011 Szerkesztette: Tanács Attila Vincze Veronika Szeged, 2011. december 1-2. http://www.inf.u-szeged.hu/mszny2011 Tartalomjegyzék I. Többnyelvuség

Részletesebben

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel

Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel Főnévi csoportok azonosítása szabályalapú és hibrid módszerekkel MTA SZTAKI Nyelvtechnológiai Kutatócsoport recski@sztaki.hu TLP20 2010. november 25. Tartalom Előzmények A feladat A hunchunk rendszer A

Részletesebben

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon

Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Főnévi csoportok és mondatvázak elemzésének lehetősége magyar nyelvű korpuszokon Ligeti-Nagy Noémi Pázmány Doktori Konferencia Budapest, 2016. február 5. Háttér Performancia-alapú elemzés néhány kulcsmotívuma:

Részletesebben

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29 Korpusznyelvészet 2016 április 18, ELTE Sass Bálint MTA Nyelvtudományi Intézet sassbalint@nytudmtahu 1/29 http://nsztnytudhu/nszthtml 2/29 Mi mindent kell csinálni ahhoz, hogy sima szövegből ilyen korpuszlekérdezőfelület

Részletesebben

A HUNGLISH PÁRHUZAMOS KORPUSZ

A HUNGLISH PÁRHUZAMOS KORPUSZ A HUNGLISH PÁRHUZAMOS KORPUSZ MINT OKTATÁSI SEGÉDESZKÖZ Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április

Részletesebben

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori Program

Részletesebben

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

Az igekötők gépi annotálásának problémái Kalivoda Ágnes Az igekötők gépi annotálásának problémái Kalivoda Ágnes Budapest, 2017. február 3. PPKE BTK Bevezetés Mi a probléma? Homográf szóalakok hibás szófaji címkét kaphatnak Mi a megoldás? Szabály alapú javítás

Részletesebben

A magyar létige problémái a számítógépes nyelvi elemzésben

A magyar létige problémái a számítógépes nyelvi elemzésben A magyar létige problémái a számítógépes nyelvi elemzésben Dömötör Andrea PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor Komplex vizsga 2018. jún. 1. Létige:

Részletesebben

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu

Motiváció Eszközök és eljárások Eredmények Távlat. Sass Bálint joker@nytud.hu VONZATKERETEK A MAGYAR NEMZETI SZÖVEGTÁRBAN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály MSZNY2005 Szeged, 2005. december 8-9. 1 MOTIVÁCIÓ 2 ESZKÖZÖK

Részletesebben

NYELVTECHNOLÓGIAI ALGORITMUSOK

NYELVTECHNOLÓGIAI ALGORITMUSOK NYELVTECHNOLÓGIAI ALGORITMUSOK KORPUSZOK AUTOMATIKUS ÉPÍTÉSÉHEZ ÉS PONTOSABB FELDOLGOZÁSUKHOZ DOKTORI (PH.D.) DISSZERTÁCIÓ Endrédy István Témavezető: Dr. Prószéky Gábor, az MTA doktora PÁZMÁNY PÉTER KATOLIKUS

Részletesebben

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint MAZSOLA ESZKÖZ A MAGYAR IGÉK BŐVÍTMÉNYSZERKEZETÉNEK VIZSGÁLATÁRA Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE ITK, MMT Doktori Iskola, Nyelvtechnológia Doktori

Részletesebben

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás

A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás A Magyar Nemzeti Szövegtár új változatáról Váradi Tamás varadi@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály Tartalom Előzmény Motiváció Cél Fejlesztés Eredmény

Részletesebben

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola

Sass Bálint MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola IGEI VONZATKERETEK AZ MNSZ TAGMONDATAIBAN Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2006 Szeged, 2006.

Részletesebben

A Mazsola KORPUSZLEKÉRDEZŐ

A Mazsola KORPUSZLEKÉRDEZŐ A Mazsola KORPUSZLEKÉRDEZŐ Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet PPKE ITK Eötvös Collegium Budapest, 2012. április 27. 1 / 34 1 HÁTTÉR 2 HASZNÁLAT 3 MIRE JÓ? 4 PÉLDÁK 2 / 34 1

Részletesebben

Igekötős szerkezetek a magyarban

Igekötős szerkezetek a magyarban Igekötős szerkezetek a magyarban Kalivoda Ágnes 2018. június 26., Budapest PPKE BTK Nyelvtudományi Doktori Iskola Nyelvtechnológia Műhely Témavezető: Prószéky Gábor A kutatás célja az igekötős szerkezetek

Részletesebben

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK A MAGYARÓRÁN Sass Bálint joker@nytud.hu Magyar Tudományos Akadémia Nyelvtudományi Intézet Korpusznyelvészeti Osztály XVI. MANYE kongresszus Gödöllő, 2006. április 10-12.

Részletesebben

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu

Nyelvelemzés sajátkezűleg a magyar INTEX rendszer. Váradi Tamás varadi@nytud.hu Nyelvelemzés sajátkezűleg a magyar INTEX rendszer Váradi Tamás varadi@nytud.hu Vázlat A történet eddig Az INTEX rendszer A magyar modul Az INTEX korlátai premier előtt: NooJ konklúziók, további teendők

Részletesebben

I. Internetes keresési feladatok (ajánlott idő: 20 perc)

I. Internetes keresési feladatok (ajánlott idő: 20 perc) I. Internetes keresési feladatok (ajánlott idő: 20 perc) A talált oldalak internet címét (URL) másold ki egy szöveges dokumentumba és mentsd Csapatnev_internet néven! A konkrét válaszokat ide a papírra

Részletesebben

Január 7. hétfő. I. Beszédtechnológia, fonológia

Január 7. hétfő. I. Beszédtechnológia, fonológia Január 7. hétfő 09:15-10:45 Regisztráció, kávé 10:45-11:00 Megnyitó 11:00-12:00 Plenáris előadás Gósy Mária: Spontán beszéd: szabályok és szabálytalanságok I. Beszédtechnológia, fonológia 12:00-12:20 Grósz

Részletesebben

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György

Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Hibrid előfeldolgozó algoritmusok morfológiailag komplex nyelvek és erőforrásszegény domainek hatékony feldolgozására Orosz György Témavezető: Prószéky Gábor Bevezetés Előfeldolgozó algoritmusok Napjaink

Részletesebben

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY 2011. Department of Distributed Systems KOPI MTA SZTAKI Department of Distributed Systems Fordítási plágiumok keresése MSZNY 2011 Pataki Máté Probléma 1. Sok a diák 2. Hasznos anyagok az interneten 3. Digitális szakdolgozatok 4. Jó nyelvtudás

Részletesebben

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai 2015. november 25.

Bevezetés a nyelvtechnológiába 9. Gépi fordítás. Prószéky Gábor A nyelvtechnológia alapjai 2015. november 25. Bevezetés a nyelvtechnológiába 9. Gépi fordítás Ezt olvassuk a gépi fordításról A gépi fordítással foglalkozni kidobott idő, mert egy gép sosem fog Shakespeare-t fordítani Állítólag volt egyszer egy gépi

Részletesebben

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17 Doménspecifikus korpusz építése és validálása Dodé Réka ELTE BTK Nyelvtudomány Doktori Iskola Alkalmazott nyelvészet program 2017. február 3. Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott

Részletesebben

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok

A számítógépes nyelvészet elmélete és gyakorlata. Korpuszok A számítógépes nyelvészet elmélete és gyakorlata Korpuszok Mi a korpusz? A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint

Részletesebben

A Hunglish Korpusz és szótár

A Hunglish Korpusz és szótár A Hunglish Korpusz és szótár Halácsy Péter 1, Kornai András 1, Németh László 1, Sass Bálint 2 Varga Dániel 1, Váradi Tamás 1 BME Média Oktató és Kutató Központ 1111 Budapest, Stoczek u. 2 {hp,nemeth,daniel}@mokk.bme.hu

Részletesebben

Enterprise Content Governance

Enterprise Content Governance ECM Consulting Kft. 1119 Budapest, Puskás Tivadar u. 33. Fax: +36 (1) 999 7496 Enterprise Content Governance 2013.03.29. Bemutató tartalma 1. Kiinduló állapot 2. Megoldás bemutatása 3. Elért eredmények

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata)

TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata) TrendMiner (Politikai témájú SM üzenetek (szociál)pszichológiai vizsgálata) Miháltz Márton Hungarian Natural Language Processing Meetup, 2014. szeptember 25. www.trendminer-project.eu TrendMiner Projekt

Részletesebben

Számítógépes nyelvészet

Számítógépes nyelvészet Számítógépes nyelvészet Babarczy Anna A MESTERSÉGES INTELLIGENCIA KEZDETEI Az intelligens gép Az embert régóta foglalkoztatja az intelligenciával rendelkező gép ötlete. Érdekes, és filozófiai szempontból

Részletesebben

A kibővített Magyar történeti szövegtár új keresőfelülete

A kibővített Magyar történeti szövegtár új keresőfelülete A kibővített Magyar történeti szövegtár új keresőfelülete Sass Bálint MTA Nyelvtudományi Intézet sass.balint@nytud.mta.hu A nyelvtörténeti kutatások újabb eredményei IX. 2016. április 27., Szeged Nszt

Részletesebben

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI Az MTA Cloud a tudományos alkalmazások támogatására Kacsuk Péter MTA SZTAKI Kacsuk.Peter@sztaki.mta.hu Tudományos alkalmazások és skálázhatóság Kétféle skálázhatóság: o Vertikális: dinamikusan változik

Részletesebben

Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...)

Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...) Bevezetés a nyelvtechnológiába 10. Korpuszok (és még néhány dolog, ami eddig kimaradt...) A korpusznyelvészet alapgondolata Korpusz: meghatározott szempontok alapján kiválasztott szövegmennyiség, amelyen

Részletesebben

Események detektálása természetes nyelvű szövegekben

Események detektálása természetes nyelvű szövegekben Események detektálása természetes nyelvű szövegekben Subecz Zoltán, Nagyné Csák Éva Összefoglalás Az események detektálásának a feladata az esemény-előfordulások azonosítása a szövegekben. Esemény előfordulásnak

Részletesebben

Csináld magad naplóelemzés syslog-ng-vel

Csináld magad naplóelemzés syslog-ng-vel Csináld magad naplóelemzés syslog-ng-vel Höltzl Péter, CISA holtzl.peter@balabit.com http:/// Miről lesz szó? Hogyan lesz az adatból információ? Hogyan elemez a syslog-ng futásidőben? Mire tudjuk használni

Részletesebben

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel

Idegennyelv-tanulás támogatása statisztikai és nyelvi eszközökkel statisztikai és nyelvi eszközökkel Témalabor 2. beszámoló Témavezet : Vámos Gábor 2009. január 9. Mir l lesz szó? A cél: tesztelni és tanítani 1 A cél: tesztelni és tanítani Eszközök és célok Szókincs

Részletesebben

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján Schrádi Tamás schraditamas@aut.bme.hu Automatizálási és Alkalmazott Informatikai Tanszék BME A feladat A webszerverek naplóállományainak

Részletesebben

Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Operációs rendszerek. 9. gyakorlat. BASH recap, reguláris kifejezések UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED BASH recap, reguláris kifejezések Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor

Részletesebben

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence)

Gépi tanulás. Hány tanítómintára van szükség? VKH. Pataki Béla (Bolgár Bence) Gépi tanulás Hány tanítómintára van szükség? VKH Pataki Béla (Bolgár Bence) BME I.E. 414, 463-26-79 pataki@mit.bme.hu, http://www.mit.bme.hu/general/staff/pataki Induktív tanulás A tanítás folyamata: Kiinduló

Részletesebben

Ismeretlen kifejezések és a szófaji egyértelm sítés

Ismeretlen kifejezések és a szófaji egyértelm sítés Szeged, 2010. december 2 3. 275 Ismeretlen kifejezések és a szófaji egyértelm sítés Zsibrita János 1, Vincze Veronika 1, Farkas Richárd 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport Szeged,

Részletesebben

Bevezetés az e-magyar programcsomag használatába

Bevezetés az e-magyar programcsomag használatába Bevezetés az e-magyar programcsomag használatába Vadász Noémi 2019. február 7. MTA Nyelvtudományi Intézet vadasz.noemi@nytud.mta.hu Az előadás felépítése 1. szövegelemzés számítógéppel elemzési lépések

Részletesebben

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9.

Természetesnyelv-feldolgozás. Mesterséges intelligencia 2014. május 9. Természetesnyelv-feldolgozás Mesterséges intelligencia 2014. május 9. Bevezetés Nyelv- és beszédtechnológia: írott és a hangzó nyelv feldolgozása nyelvi produktumok előállítása Natural language processing

Részletesebben

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29.

Korpuszok és adatbázisok. Korpuszok a nyelvészeti kutatásban szeptember 29. Korpuszok és adatbázisok Korpuszok a nyelvészeti kutatásban 2014. szeptember 29. Angol nyelvű korpuszok British National Corpus (BNC) Brit angol ~100M szövegszó Írott és beszélt nyelv Automatikus annotáció

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

Multimédiás adatbázisok

Multimédiás adatbázisok Multimédiás adatbázisok Multimédiás adatbázis kezelő Olyan adatbázis kezelő, mely támogatja multimédiás adatok (dokumentum, kép, hang, videó) tárolását, módosítását és visszakeresését Minimális elvárás

Részletesebben

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága

A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága A HG-1 Treebank és keresőfelület fejlesztői munkái, használata és felhasználhatósága Az elemzésektől a keresőfelületig DELITE Angol Nyelvészeti Tanszék 2014. 03. 12. Csernyi Gábor 1 Célok, előzmények Mit?

Részletesebben

H N S A d a t K a p c s o l a t

H N S A d a t K a p c s o l a t HNS AdatKapcsolat HNS AdatKapcsolat 2009 március 31 HNS SPC Statisztikai folyamatszabályozó és minőségellenőrző program Copyright 1995-2009 HNS Műszaki Fejlesztő Kft. 9027 Győr, Gesztenyefa u. 4. Tel.:

Részletesebben

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL Sass Bálint sass.balint@nytud.mta.hu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály DHU2015 WS Számítógép az irodalomtudományban

Részletesebben

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17.

Mi az? Többértelműség Kutatás NYELVTECHNOLÓGIA. Sass Bálint Pázmány Nap október 17. NYELVTECHNOLÓGIA Sass Bálint sass@digitus.itk.ppke.hu Pázmány Nap 2007. október 17. 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS 1 MI AZ? 2 TÖBBÉRTELMŰSÉG 3 KUTATÁS BEVEZETŐ Language makes us human. Turing teszt

Részletesebben

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6.

Szintaxis: elemzések. Nyelvészet az informatikában informatika a nyelvészetben november 6. Szintaxis: elemzések Nyelvészet az informatikában informatika a nyelvészetben 2013. november 6. Bevezetés Múlt óra: mondatrészek Mai óra: Szintaktikai reprezentációs elméletek Ágrajzok Problémás jelenségek

Részletesebben

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint ÉLŐ VAGY ÉLETTELEN? Sass Bálint joker@nytud.hu MTA Nyelvtudományi Intézet, Nyelvtechnológiai Osztály PPKE, Információs Technológiai Kar, MMT Doktori Iskola MSZNY2007 Szeged, 2007. december 6 7. 1 KÉRDÉSFELVETÉS

Részletesebben

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22.

Korpuszok létrehozása. Korpuszok a nyelvészeti kutatásban szeptember 22. Korpuszok létrehozása Korpuszok a nyelvészeti kutatásban 2014. szeptember 22. Alapfogalmak Korpusz: speciális célokra létrehozott, (gyakran tematikus) adatbázis szöveggyűjtemény Annotáció: a szövegek nyelvi

Részletesebben

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Középiskolás szakkör előadás fóliák http://www.inf.u-szeged.hu/hlt 2008.12.04. 1 Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok

Részletesebben

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft.

Alkalmazásokban. Dezsényi Csaba Ovitas Magyarország kft. Tudásmodellezés Kereskedelmi Alkalmazásokban Dezsényi Csaba Ovitas Magyarország kft. Tudásmenedzsment Adat -> Információ -> Tudás Intézményi tudásvagyon hatékony kezelése az üzleti célok megvalósításának

Részletesebben

Teljesítménymodellezés

Teljesítménymodellezés Teljesítménymodellezés Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement and Information Systems

Részletesebben

Regionális hulladékgazdálkodási rendszerek értékelése

Regionális hulladékgazdálkodási rendszerek értékelése Regionális hulladékgazdálkodási rendszerek értékelése Magyar Tudomány Ünnepe XII. Környezettudományi Tanácskozás 2015. november 13. Tartalom 1. Témafelvezetés 2. Történeti áttekintés 1. A hulladékgazdálkodás

Részletesebben

Alapszintű formalizmusok

Alapszintű formalizmusok Alapszintű formalizmusok dr. Majzik István BME Méréstechnika és Információs Rendszerek Tanszék 1 Mit szeretnénk elérni? Informális tervek Informális követelmények Formális modell Formalizált követelmények

Részletesebben

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9.

Morfológia, szófaji egyértelműsítés. Nyelvészet az informatikában informatika a nyelvészetben október 9. Morfológia, szófaji egyértelműsítés Nyelvészet az informatikában informatika a nyelvészetben 2013. október 9. Előző órán Morfológiai alapfogalmak Szóelemzések Ismeretlen szavak elemzése Mai órán Szófajok

Részletesebben

Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Operációs rendszerek. 9. gyakorlat. Reguláris kifejezések - alapok, BASH UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED Reguláris kifejezések - alapok, BASH Operációs rendszerek 9. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor

Részletesebben

IKT megoldások az ipar szolgálatában

IKT megoldások az ipar szolgálatában IKT megoldások az ipar szolgálatában Charaf Hassan, egyetemi tanár, tanszékvezető 1 IKT Trendek A mobileszközök és szenzorok erősödése A felhőszolgáltatások elterjedése Hálózati megoldások robusztussága

Részletesebben

PurePos: hatékony morfológiai egyértelműsítő modul

PurePos: hatékony morfológiai egyértelműsítő modul PurePos: hatékony morfológiai egyértelműsítő modul Orosz György PPKE ITK Interdiszciplináris Műszaki Tudományok Doktori Iskola oroszgy@itk.ppke.hu Kivonat: A szófaji egyértelműsítés a számítógépes nyelvfeldolgozás

Részletesebben

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek Varjú Zoltán 2018.05.22. HWSW Meetup ML Engineering Rules of Machine Learning #1 Don t be afraid to launch

Részletesebben

Közéleti témák Online- és közösségi média elemzés és interakció analitika lyzr Reports

Közéleti témák Online- és közösségi média elemzés és interakció analitika lyzr Reports Közéleti témák Online- és közösségi média elemzés és interakció analitika lyzr Reports Összegzés Megjelenések cikkek, posztok, tweetek Összes interakció like-ok, megosztások, retweetek és +1-ek 342 686

Részletesebben

Komplex feliratok készítése Maplex-el. Beke Dániel

Komplex feliratok készítése Maplex-el. Beke Dániel Komplex feliratok készítése Maplex-el Beke Dániel Áttekintés Milyen típusú feliratok vannak az ArcGIS-ben? - Labeling - Maplex Label Engine vs. Annotation Felirat pozíciója Felirat elhelyezési stratégiák

Részletesebben

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged

Mazsola mindenkinek. Sass Bálint MTA Nyelvtudományi Intézet január 18. MSZNY 2018, Szeged Mazsola mindenkinek Sass Bálint MTA Nyelvtudományi Intézet 2018. január 18. MSZNY 2018, Szeged Példa http://corpus.nytud.hu/mazsola Lekérdezés: iszik + -t 2/15 Háttér adatbázis Ha a város a tárcáktól pénzt

Részletesebben

EMLÉKEZTETŐ. az MTA Közlekedéstudományi Bizottság 2012. november 14-i üléséről

EMLÉKEZTETŐ. az MTA Közlekedéstudományi Bizottság 2012. november 14-i üléséről Magyar Tudományos Akadémia Műszaki Tudományok Osztálya Közlekedéstudományi Bizottság Elnök: Dr. Tánczos Lászlóné az MTA doktora tel.: +36-1-463-3265 fax: +36-1-463-3267 e-mail: ktanczos@kgazd.bme.hu Titkár:

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

Szöveg címe: Nagy karácsonyi örökbefogadás Forrás: Kép forrása: az alapítványi szórólap

Szöveg címe: Nagy karácsonyi örökbefogadás Forrás:  Kép forrása: az alapítványi szórólap Szöveg címe: Nagy karácsonyi örökbefogadás Forrás: http://www.allatkertialapitvany.hu/ Kép forrása: az alapítványi szórólap Szövegtípus: dokumentum (hirdetés, poszter) Szöveg olvashatósága: közepes nehézségű

Részletesebben

Gyakorlatok. VITMMA09 Okos város MSc mellékspecializáció

Gyakorlatok. VITMMA09 Okos város MSc mellékspecializáció Gyakorlatok VITMMA09 Okos város MSc mellékspecializáció ITS gyakorlatok Cél Gyakorlati tudással kiegészíteni az elméleti ismereteket Példák a való világból, korlátozott de valósághű környezetben Tervezés,

Részletesebben

Hogyan többszörözd meg weboldalaid látogatottságát?

Hogyan többszörözd meg weboldalaid látogatottságát? Hogyan többszörözd meg weboldalaid látogatottságát? 1 Nagyobb látogatottság jobb ajánlatok több pénz 2 Amit helyettünk csinálnak kész rendszert működtetnek újabb ajánlatok hírlevél kiküldés ügyfélszolgálat

Részletesebben

Szövegbányászat és dokumentum kezelés

Szövegbányászat és dokumentum kezelés Szövegbányászat és dokumentum kezelés 1. Szöveg bányászat alapfogalmai Szövegbányászat Szövegbányászat = szöveg + bányászat Rövid történeti áttekintés: 1958 (Luhn): lényeges szavak kiemelése a szövegből

Részletesebben

PoloniaPress hírcsokor

PoloniaPress hírcsokor PoloniaPress hírcsokor 2014. június Lengyelország és az EU Komorowski a D-Day emlékünnepségén 2014. június 6. Bronisław Komorowski köztársasági elnök részt vett a normandiai partraszállás 70. évfordulójának

Részletesebben

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com

Google App Engine az Oktatásban 1.0. ügyvezető MattaKis Consulting http://www.mattakis.com Google App Engine az Oktatásban Kis 1.0 Gergely ügyvezető MattaKis Consulting http://www.mattakis.com Bemutatkozás 1998-2002 között LME aktivista 2004-2007 Siemens PSE mobiltelefon szoftverfejlesztés,

Részletesebben

Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba

Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba Témavezető: Horváth Zoltán és Simon Thompson OTDK 2007, Miskolc Egy Erlang refaktor lépés: Függvényparaméterek összevonása tuple-ba OTDK

Részletesebben

Publish date 1/7/2012 4:09 AM. Change date 1/7/2012 4:09 AM

Publish date 1/7/2012 4:09 AM. Change date 1/7/2012 4:09 AM X-ray devices Info Version 2 Url http://com.mercell.com/permalink/30400850.aspx External tender id 5260-2012 Tender type Contract Award Document type Contract award Procurement procedure Open procedure

Részletesebben

Prepositions Előljárószavak, prepozíciók

Prepositions Előljárószavak, prepozíciók Előljárószavak, prepozíciók Az utánuk lévő főnevek és névmások mindig tárgyesetben állnak, pl me, him, her, us, then Idő kifejezése in hónapok in January (januárban) in évszámok in 2009 (2009-ben) in évszakok

Részletesebben

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk

Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Számítógépes Nyelvészet nyelvi adatbázisok és használatuk Mesterséges Intelligencia előadás http://www.inf.u-szeged.hu/hlt 5/3/2011 1 Tartalom A számítógépes szövegfeldolgozás célja Nyelvi adatbázisok

Részletesebben

Olvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály)

Olvasás-szövegértés fejlesztése. Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály) Olvasás-szövegértés fejlesztése Ötletek saját gyakorlatból, az OFI újgenerációs olvasókönyvéhez kapcsolódva (1.osztály) Feladataink szókincs gyarapítása a használt szavak jelentésrétegeinek, stílusértékének

Részletesebben

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN

SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN SZOFTVEREK A SORBANÁLLÁSI ELMÉLET OKTATÁSÁBAN Almási Béla, almasi@math.klte.hu Sztrik János, jsztrik@math.klte.hu KLTE Matematikai és Informatikai Intézet Abstract This paper gives a short review on software

Részletesebben

KÉPI INFORMÁCIÓK KEZELHETŐSÉGE. Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet. Összefoglaló

KÉPI INFORMÁCIÓK KEZELHETŐSÉGE. Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet. Összefoglaló KÉPI INFORMÁCIÓK KEZELHETŐSÉGE Forczek Erzsébet SZTE ÁOK Orvosi Informatikai Intézet Összefoglaló Tanórákon és az önálló tanulás részeként is, az informatika világában a rendelkezésünkre álló óriási mennyiségű

Részletesebben

Magyar nyelvű néprajzi keresőrendszer

Magyar nyelvű néprajzi keresőrendszer Szeged, 2013. január 7 8. 361 Magyar nyelvű néprajzi keresőrendszer Zsibrita János 1, Vincze Veronika 2 1 Szegedi Tudományegyetem, Informatikai Tanszékcsoport zsibrita@inf.u-szeged.hu 2 MTA-SZTE Mesterséges

Részletesebben

Reguláris kifejezések 1.

Reguláris kifejezések 1. Reguláris kifejezések 1. A nyelvtechnológia eszközei és nyersanyagai 1. gyakorlat A beadandó feladatok be vannak keretezve! 1.1. Miért hívják reguláris kifejezésnek? (!) Az elméleti és a gyakorlati reguláris

Részletesebben

A PhysioBank adatmegjelenítő szoftvereinek hatékonysága

A PhysioBank adatmegjelenítő szoftvereinek hatékonysága A PhysioBank adatmegjelenítő szoftvereinek hatékonysága Kaczur Sándor kaczur@gdf.hu GDF Informatikai Intézet 2012. november 14. Célok, kutatási terv Szabályos EKG-felvétel: P, Q, R, S, T csúcs Anatómiai

Részletesebben

Miről lesz szó? Videó tartalom elemzés (VCA) leegyszerűsített működése Kültéri védelem Közúthálózat megfigyelés Emberszámlálás

Miről lesz szó? Videó tartalom elemzés (VCA) leegyszerűsített működése Kültéri védelem Közúthálózat megfigyelés Emberszámlálás Videóanalitikát mindenhova! Princz Adorján Miről lesz szó? Videó tartalom elemzés (VCA) leegyszerűsített működése Kültéri védelem Közúthálózat megfigyelés Emberszámlálás VCA alapú detektorok Videótartalom

Részletesebben

Harry Potter versus Harry herceg

Harry Potter versus Harry herceg 2. szint Március-április Harry Potter versus Harry herceg A Harry Pottert alakító Daniel Radcliffe három év alatt 6 millió fontot (2,2 milliárd forintot) "varázsolt össze" magának(1), és ezzel Harry herceg

Részletesebben

Információ és kommunikáció

Információ és kommunikáció Információ és kommunikáció Tanmenet Információ és kommunikáció TANMENET- Információ és kommunikáció Témakörök Javasolt óraszám 1. Hálózati alapismeretek 20 perc 2. Az internet jellemzői 25 perc 3. Szolgáltatások

Részletesebben

A felhőről általában. Kacsuk Péter MTA SZTAKI

A felhőről általában. Kacsuk Péter MTA SZTAKI A felhőről általában Kacsuk Péter MTA SZTAKI Miért fontos a felhő? (I) Problémák, ha az infrastruktúra még nem létezik Az ötletek megvalósításához szükséges idő Kutatás a felhők előtt 1. Van egy jó ötlet

Részletesebben

BIG DATA ELEMZÉSEK LEHETŐSÉGEI

BIG DATA ELEMZÉSEK LEHETŐSÉGEI BIG DATA ELEMZÉSEK LEHETŐSÉGEI A KÖRNYEZETVÉDELMI MODELLEZÉSBEN Dr. Torma A. 2015.11.13. 2015/11/13 Dr. TORMA A. >> Széchenyi István Egyetem 2 Tartalom 1. A Big Data fogalma 2. Pár érdekes adat a Big Data

Részletesebben

w w w. h a n s a g i i s k. h u

w w w. h a n s a g i i s k. h u Weblapkészítés weblap: hypertext kódolású dokumentumok, melyek szöveget képet linkeket, könyvjelzőket/horgonyokat táblázatokat / szövegdobozokat és más objektumokat tartalmaznak. Kódolásuk HTML (Hypertext

Részletesebben

Az Ómagyar Korpusz bemutatása

Az Ómagyar Korpusz bemutatása Az Ómagyar Korpusz bemutatása Simon Eszter 2017. január 13. 29. Finnugor Szeminárium Simon Eszter Az Ómagyar Korpusz bemutatása Az előadás vázlata 1 A projektek 2 A korpusz anyaga 3 A feldolgozás lépései

Részletesebben

Operációs rendszerek. 10. gyakorlat. AWK - bevezetés UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED

Operációs rendszerek. 10. gyakorlat. AWK - bevezetés UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED AWK - bevezetés Operációs rendszerek 10. gyakorlat Szegedi Tudományegyetem Természettudományi és Informatikai Kar Csuvik Viktor 1 / 15 Reguláris

Részletesebben

Azonosító jel: INFORMATIKA EMELT SZINTŰ GYAKORLATI VIZSGA. 2013. május 13. 8:00. A gyakorlati vizsga időtartama: 240 perc

Azonosító jel: INFORMATIKA EMELT SZINTŰ GYAKORLATI VIZSGA. 2013. május 13. 8:00. A gyakorlati vizsga időtartama: 240 perc ÉRETTSÉGI VIZSGA 2013. május 13. INFORMATIKA EMELT SZINTŰ GYAKORLATI VIZSGA 2013. május 13. 8:00 A gyakorlati vizsga időtartama: 240 perc Beadott dokumentumok Piszkozati pótlapok száma Beadott fájlok száma

Részletesebben

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13.

Szemantika: modalitás, kompozicionalitás. Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Szemantika: modalitás, kompozicionalitás Nyelvészet az informatikában informatika a nyelvészetben 2013. november 13. Bevezetés Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés?

Részletesebben

Angelina Jolie a legnépszerűbb(1) az Egyesült Államokban

Angelina Jolie a legnépszerűbb(1) az Egyesült Államokban 1. szint December Angelina Jolie a legnépszerűbb(1) az Egyesült Államokban Angelina Jolie-val szilveszterezne(2) a legtöbb(3) amerikai férfi. A 28 éves Angelina Jolie a Tomb Rider hősnőjét(4), Lara Croftot

Részletesebben

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási

Részletesebben

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA

A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA Magyar Tudomány 2014/9 A MAGYAR NEMZETI SZÖVEGTÁR EGYMILLIÁRD SZAVAS ÚJ VÁLTOZATA Váradi Tamás Oravecz Csaba tudományos főmunkatárs, osztályvezető, tudományos munkatárs, MTA Nyelvtudományi Intézet Nyelvtechnológiai

Részletesebben

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop 2014 2014. Április 24-25-26, Pécs

A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben. Networkshop 2014 2014. Április 24-25-26, Pécs A terminológiai adatbázisok gyakorlati haszna a terminológia és a fordító- tolmácsképzésben Networkshop 2014 2014. Április 24-25-26, Pécs Fordító- tolmácsképzés Magyarországon Mesterszakok: Elte (angol,

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

Szövegbányászat Információ Visszakeresés és egyéb alkalmazások

Szövegbányászat Információ Visszakeresés és egyéb alkalmazások Szövegbányászat Információ Visszakeresés és egyéb alkalmazások A diák nagyban támaszkodnak a Stanford Egyetem Information Retrieval and Web-mining kurzusának anyagára: http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html

Részletesebben