DSD. Hibatűrő keresés digitalizált magyar nyelvű szövegekben. Pataki Máté Füzessy Tamás Kovács László Tóth Zoltán MTA SZTAKI DSD

Hasonló dokumentumok
DSD. Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. Pataki Máté Tóth Zoltán MTA SZTAKI DSD

Department of Distributed Systems MTA SZTAKI DSD

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

KOPI. Plágiumkeresés különböző nyelvek között MTA SZTAKI DSD. Pataki Máté. Department of Distributed Systems

World Wide DSD Web. Csoportmunka

KOPI. KOPI Plágiumkereső A digitális tartalmak védelmében DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

MTA SZTAKI MTA SZTAKI

DRM megoldások áttekintése

KOPI. Többnyelvű dokumentum nyelvének megállapítása MTA SZTAKI DSD. Vajna Miklós Pataki Máté MSZNY Department of Distributed Systems

Osztályozó vizsga követelmények Informatika

Általános gimnáziumi képzés és német nemzetiségi nyelvoktató program 9. évfolyam

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

KOPI. KOPI Online Plágiumkereső és Információs Portál DSD. Pataki Máté MTA SZTAKI. Elosztott Rendszerek Osztály

az oktatásban tapasztalatok és lehetőségek. Márkus Zsolt László MTA SZTAKI elearning osztály












PÁLYÁZATI FELHÍVÁS a Környezet és Energia Operatív Program keretében

Binarit.KPKNY. Áttekintés. BINARIT Informatikai Kft Budapest, Váci út 95.

Hol hallod a sz hangot?

ELTE EGYETEMI HALLGATÓI ÖNKORMÁNYZAT

A csatlakozás érdekében a Csatlakozó adatkezelőnek az alábbi folyamat szerint kell informatikai rendszerének csatlakozását megvalósítani:

SZPONZORI KIAJÁNLÓ VIII. CORVIN JÓTÉKONYSÁGI BÁL JÓTÉKONYSÁGI KONCERT

MODERN VÁROSOK OKOS MEGOLDÁSOK

SZTAKIMemory A DIGITÁLIS INFORMÁCÓK HOSSZÚ TÁVÚ MEGŐRZÉSE ARCHÍVUMRENDSZER INTÉZETI KÖZÖS MEMÓRIA SZÁMÁRA

BUILD UP Skills II. Konferencia március 8. Budapesti Műszaki és Gazdaságtudományi Egyetem

PÁLYÁZATI FELHÍVÁS Gyermekvédelmi gyámi témájú alapképzésen való részvételre Kódszáma: T5410-Gy-4/2014

LOGO-VIR Oktatási terv. Pécs Megyei Jogú Város Önkormányzata Kontrolling (vezetői információs) rendszer oktatási terve

Hegedűs Károly mb. jegyző Mozsár Ágnes főépítész

Német vállalatok elvárásai a magyar beszállítókkal szemben

Éves beszámoló 1. számú Projekt Fenntartási Jelentés melléklete. Kedvezményezett címe 8500 Pápa, Képző u. 3. Postacím 8500 Pápa, Képző u. 3.

A VÁLLALKOZÁSBARÁT ÖNKORMÁNYZAT VÁLLALKOZÓI INFORMÁCIÓS KÖZPONT

Kommunikálható információk összefoglalója, az etanácsadók részére

Hivatalos név: BVK HOLDING Budapesti Városüzemeltetési Központ Zártkörűen Működő Részvénytársaság Postai cím: Városház u Város/Község: Budapest

ÚTMUTATÓ A PROJEKTMENEDZSMENT TÁMOGATÓ RENDSZER

A TÁMOP kiemelt projekt bemutatása

DSD DSD. Az új Nemzeti Rákregiszter előnyei kutatói szempontból. Kovács László Szentirmay Zoltán Surján György Gaudi István Pallinger Péter

Pályázati felhívás az EGT Finanszírozási Mechanizmus es időszakában a Megújuló Energia

2017. november 20. Nyílt napok a Budapesti Gazdasági Szakképzési Centrumban

Gyakorlati vizsgatevékenység B

LOGO-VIR Teszt terv. Pécs Megyei Jogú Város Önkormányzata Kontrolling (vezetői információs) rendszer teszt terve

Fülöp Csaba, Kovács László, Micsik András

A BRÓDY SÁNDOR MEGYEI ÉS VÁROSI KÖNYVTÁR MUZEÁLIS ÉRTÉKŰ HELYI SAJTÓTERMÉKEINEK DIGITALIZÁLÁSA ÉS INTERNETES KÖZZÉTÉTELE

MEGHÍVÓ Első Közép-kelet európai fogászati 3D találkozó június Hotel Ariston***** Dubrovnik, Horvátország

A képzés célja. A képzés jellemzői

MeRSZ-kutatás A MeRSZ-kutatásról. A MeRSZ számokban. Az Akadémiai Kiadó 2018-ban kutatást indított a hallgatók körében azzal a

Csökkentsük együtt a csomagolási hulladék mennyiségét!

Projektzárási használati útmutató

SmartGround projekt adatintegrációs platform a másodnyersanyagok hasznosításáért. 2. szekció: Smart City / Városi GIS

ÁLLÁSHIRDETÉS TARTALÉKLISTA LÉTREHOZÁSÁHOZ. IT szakértő (F/N)

ELŐTERJESZTÉS. Zirc Városi Önkormányzat Képviselő-testülete február 12- i ülésére

Elosztott könyvtári rendszerek megvalósítása a Z39.50 és az OAI protokoll használatával

Egyéni álláskeresési tanácsadás a Pro-Team Nonprofit Kft.-nél

Rámpát a honlapokra úton az akadálymentes honlapok felé Pataki Máté

2012. évi szakmai beszámoló

Hivatalos név: BVK HOLDING Budapesti Városüzemeltetési Központ Zártkörűen Működő Részvénytársaság Postai cím: Városház u Város/Község: Budapest

A megelőző-felvilágosító szolgáltatás végzésére kiírandó pályázat szakmai követelményrendszere

Szeptember 13. Kihívás napja

OmniTouch 8400 Instant Communications Suite One Number szolgáltatások, Webes hozzáférés

Recsk helye a magyar bányászat jövőjében

NYITOK Hálózat a Társadalmi befogadásért program bemutatása

WEBSHOP FELHASZNÁLÓI KÉZIKÖNYV

Logisztikai központok és szolgáltatások fejlesztése pályázati konstrukció

2015-ös Nemzetközi Személyzeti Tréning Hét Drezdai Műszaki Egyetem;

Betegbiztonság az EU országaiban (Nagy István Gottsegen György Országos Kardiológiai Intézet)



ÁLLÁSHIRDETÉS TARTALÉKLISTA LÉTREHOZÁSA CÉLJÁBÓL




Módosult a Széchenyi 2020 keretében megjelent Egészségügyi alapellátás infrastrukturális fejlesztése című (TOP kódszámú) felhívás



World Robot Olympiad2019. Advanced Robotics Kategória. Játékleírás, Szabályok és Pontozás. Okos Üvegház. Verzió: December 4.

K i v o n a t Biatorbágy Város Önkormányzat Képviselő-testületének január 18-án megtartott ülésének jegyzőkönyvéből

SZÜLŐI TÁJÉKOZTATÓ A TUTORÁLT BEVÁLOGATÁS FOLYAMATÁHOZ

Papírzúzás, hiteles archiválás felhők segítségével. (edox Archiver)

ReComp Informatika Zrt Budapest, Íves út 8. Tel.: +36 (1) ; Fax: +36 (1) H Í R L E V É L

IV. Fejléc. I. Térképek. V. Szűrőmező. III. Összesítő ablak. II. Áttekintő térkép

Önálló labor feladatkiírásaim tavasz

Vállalati komplex infokommunikációs és mobilfejlesztések, felhőalapú online üzleti szolgáltatások terjesztésének támogatása GINOP-3.2.


Tisztelt Kulturális, Oktatási és Sport Bizottság!

Alvin Kereskedőház Zrt.

B szekció - szekcióleírás


TERVEZETT PROGRAM március 18. (kedd) Érkezés, regisztráció Ebéd


Alvin Kereskedőház Zrt.

Átírás:

MTA SZTAKI Department f Distributed Systems Hibatűrő keresés digitalizált magyar nyelvű szövegekben Pataki Máté Füzessy Tamás Kvács László Tóth Zltán

Témakörök MTA SZTAKI META-CONTENTUM K+F Prjekt Tesztkörnyezet Tapasztalatk Javaslt algritmus Pataki Máté 2

MTA SZTAKI MTA SZTAKI Elszttt Rendszerek Osztály 1995. óta létezik 11 teljes állású munkatárs, és diákk Kutatás, fejlesztés, (nline) szlgáltatásk Munkák elszlása: 80% EU-s k+f pályázatk, ipari megrendelések 15% Hazai pályázatk 5% Belső prjektek és szlgáltatásk Hárm fő terület: Digitális könyvtárak és archívumk Csprtmunkát támgató technlógiák Webes rendszerek Pataki Máté 3

K+f prjektek Wrld Wide Web Gvernment Prtals Infrawebs Brein E-VOTING E-ADMINISTRATION Wrkflw Web4Grups Frum Prmóció Cllabrative Filtering Csprtmunka KOPI Digitális Könyvtárak GeneSyS StreamOnTheFly EUTIST-AMI Abilities CORES ORG Select Rating AQUA HEKTÁR DELOS NE 1 DELOS Meta-Cntentum DELOS NE 2 Pataki Máté 4

Tvábbi infrmációk http://dsd.sztaki.hu Pataki Máté 5

META-CONTENTUM K+F Prjekt GVOP 3.3.3 2006. június - 2007. któber A prjekt célja Szkennelés srán fellépő karakterhibákat tleráló keresőeljárás kifejlesztése Eredmények felhasználása A FreeSft Rt. Cntentum tartalmkezelési alkalmazáscsmagjában Pataki Máté 6

Tesztkörnyezet a digitalizálás srán fellépő hibák elemzéséhez Lehetséges hibafrrásk Pataki Máté 7

Tesztek - tesztrendszer Humán tesztek Gépi teszt Dkumentum nymtatása Mesterséges hibák generása Karakterfelismerés (Nuance, eimageocr v5.1b) Összehasnlítás Kinymtattt szöveg Szkennelés eredménye Eredmények összegyűjtése, kielemzése Pataki Máté 8

A karakterfelismerés hibái Ékezethibák veréb/véreb, alma/álma, hó/hő Írásjelek tévesztése (-,. ; : ) Betűcserék (M m, ée) Az i betű felismerési prblémái (í i I 1!) Számk és betűk keverése (g 9, J 3, O 0) Az és öbetű felismerési prblémái Pataki Máté 9

Department f Pataki Máté 10 Leggyakrabban előfrduló hibás karaktercserék 10251 - ` 10428-11401 w W 13975 " 13992 i í 15324 18301 ó 21321 õ 30378-40180, 40713 9 g 42109 v V 43263 55990-71436 a á 75882 e é 82358-124103 m M Cunt OCR Orig Cunt OCR Orig 5574 Í Í 5627 L i 5671 Z Z 5689 O õ 5831 Ö Ö 6268 6469 Û u 6531. 6744 ' 7438 Ó õ 7444 7617 3 J 7896 u ú 8108 B D 8412-9804 ú Ú 10048 u U 10130 i I Cunt OCR Orig 3105 " 3112 ó 3184, 3283 J j 3913 E É 3959 ü û 4198. 4248 á a 4503 é e 4619-4635, 5025-5091 t 5167 5270 l í 5337 -, 5442 " 5488 õ Õ

Öés Ő betűk felismerésének prblémája Orig ó õ Ö õ Õ ó OCR õ ó ö õ ó Ó ö Cunt 21321 18301 7438 5831 5689 5488 3112 1361 1213 Pataki Máté 11

Department f Pataki Máté 12 Leggyakribb szóhibák -5581 23842 18261 d -5542 20248 14706 4-5138 5906 768 mag 5197 88244 93441 jó 6001 117331 123332 És 7591 754575 762166 is 7914 11164 19078 Ő 9717 293412 303129 már 9872 14514 24386 Így 10392 695371 705763 egy 10728 278288 289016 még 11216 1080086 1091302 nem 14100 20643 34743 Úgy 14992 1965373 1980365 az 17282 461786 479068 de 17833 1153779 1171612 hgy 32925 5498 38423 s 38083 1281757 1319840 és 45722 5716296 5762018 a Különbség OCR Eredeti Szó Különbség OCR Eredeti Szó -12513 12991 478 ny -11522 13652 2130 rt -10976 20989 10013 c -8968 16220 7252 p -8500 12658 4158 ra -8023 145848 137825 úgy -7556 7825 269 lt -7548 7575 27 a -7510 9171 1661 st -7190 7194 4 h9y -7073 7688 615 mar -6942 9396 2454 val -6564 8305 1741 z -6244 19055 12811 ban -6186 8567 2381 nt -6095 7675 1580 gy -5813 10760 4947 11-5604 5606 2 e9y -5581 23842 18261 d

Szavak ragztt alakjainak száma Szó Ragztt alakk száma Szó Ragztt alakk száma Szó Ragztt alakk száma láb 173 tesz 140 álm 128 hív 169 mnd 139 nym 128 fg 162 beszél 139 dlg 128 él 157 talál 137 ad 128 vár 157 fej 137 hajó 126 ember 156 várs 137 ház 126 szív 156 tart 137 hely 126 áll 155 ruha 135 fal 125 szó 151 út 134 maga 123 kéz 150 hall 132 lvas 122 ér 146 apa 129 ismer 121 barát 145 néz 129 ír 120 úr 145 lát 129 Pataki Máté 13

Szavak ragztt alakjainak száma 1. lábak 2. lábam 3. lábadra 4. lábamat 5. lábáig 6. lábánál 7. lábacskáját 8. lábammal 9. lábukkal 10.lábakra Pataki Máté 14

Javaslt algritmus 1. Teljes szavas keresés 2. Bármilyen egyezés 3. Nagyn hasnló szavak keresése 4. Szótöves keresés 5. Hasnló szavak keresése Pataki Máté 15

Javaslt algritmus min_results = 10 query = input (" phrase " result = search(query, if cunt(result) < min_results { if cunt_wrds(query) > 1 { (" all " new_result = search(query, ( new_result result = append_results(result, } if cunt(result) < min_results { (" all " new_result = search_fuzzy(query, 70, ( new_result result = append_results(result, if cunt(result) < min_results { (" all " new_result = search_stemmed(query, ( new_result result = append_results(result, parameter = 60 while cunt(result) < min_results AND parameter > 30 { (" all " new_result = search_fuzzy(query, parameter, ( new_result result = append_results(result, parameter = parameter - 10 } } } } Pataki Máté 16

Köszönöm a figyelmüket! WEB: http://dsd.sztaki.hu Email: Mate.Pataki@sztaki.hu Pataki Máté 17