MTA SZTAKI Department f Distributed Systems Hibatűrő keresés digitalizált magyar nyelvű szövegekben Pataki Máté Füzessy Tamás Kvács László Tóth Zltán
Témakörök MTA SZTAKI META-CONTENTUM K+F Prjekt Tesztkörnyezet Tapasztalatk Javaslt algritmus Pataki Máté 2
MTA SZTAKI MTA SZTAKI Elszttt Rendszerek Osztály 1995. óta létezik 11 teljes állású munkatárs, és diákk Kutatás, fejlesztés, (nline) szlgáltatásk Munkák elszlása: 80% EU-s k+f pályázatk, ipari megrendelések 15% Hazai pályázatk 5% Belső prjektek és szlgáltatásk Hárm fő terület: Digitális könyvtárak és archívumk Csprtmunkát támgató technlógiák Webes rendszerek Pataki Máté 3
K+f prjektek Wrld Wide Web Gvernment Prtals Infrawebs Brein E-VOTING E-ADMINISTRATION Wrkflw Web4Grups Frum Prmóció Cllabrative Filtering Csprtmunka KOPI Digitális Könyvtárak GeneSyS StreamOnTheFly EUTIST-AMI Abilities CORES ORG Select Rating AQUA HEKTÁR DELOS NE 1 DELOS Meta-Cntentum DELOS NE 2 Pataki Máté 4
Tvábbi infrmációk http://dsd.sztaki.hu Pataki Máté 5
META-CONTENTUM K+F Prjekt GVOP 3.3.3 2006. június - 2007. któber A prjekt célja Szkennelés srán fellépő karakterhibákat tleráló keresőeljárás kifejlesztése Eredmények felhasználása A FreeSft Rt. Cntentum tartalmkezelési alkalmazáscsmagjában Pataki Máté 6
Tesztkörnyezet a digitalizálás srán fellépő hibák elemzéséhez Lehetséges hibafrrásk Pataki Máté 7
Tesztek - tesztrendszer Humán tesztek Gépi teszt Dkumentum nymtatása Mesterséges hibák generása Karakterfelismerés (Nuance, eimageocr v5.1b) Összehasnlítás Kinymtattt szöveg Szkennelés eredménye Eredmények összegyűjtése, kielemzése Pataki Máté 8
A karakterfelismerés hibái Ékezethibák veréb/véreb, alma/álma, hó/hő Írásjelek tévesztése (-,. ; : ) Betűcserék (M m, ée) Az i betű felismerési prblémái (í i I 1!) Számk és betűk keverése (g 9, J 3, O 0) Az és öbetű felismerési prblémái Pataki Máté 9
Department f Pataki Máté 10 Leggyakrabban előfrduló hibás karaktercserék 10251 - ` 10428-11401 w W 13975 " 13992 i í 15324 18301 ó 21321 õ 30378-40180, 40713 9 g 42109 v V 43263 55990-71436 a á 75882 e é 82358-124103 m M Cunt OCR Orig Cunt OCR Orig 5574 Í Í 5627 L i 5671 Z Z 5689 O õ 5831 Ö Ö 6268 6469 Û u 6531. 6744 ' 7438 Ó õ 7444 7617 3 J 7896 u ú 8108 B D 8412-9804 ú Ú 10048 u U 10130 i I Cunt OCR Orig 3105 " 3112 ó 3184, 3283 J j 3913 E É 3959 ü û 4198. 4248 á a 4503 é e 4619-4635, 5025-5091 t 5167 5270 l í 5337 -, 5442 " 5488 õ Õ
Öés Ő betűk felismerésének prblémája Orig ó õ Ö õ Õ ó OCR õ ó ö õ ó Ó ö Cunt 21321 18301 7438 5831 5689 5488 3112 1361 1213 Pataki Máté 11
Department f Pataki Máté 12 Leggyakribb szóhibák -5581 23842 18261 d -5542 20248 14706 4-5138 5906 768 mag 5197 88244 93441 jó 6001 117331 123332 És 7591 754575 762166 is 7914 11164 19078 Ő 9717 293412 303129 már 9872 14514 24386 Így 10392 695371 705763 egy 10728 278288 289016 még 11216 1080086 1091302 nem 14100 20643 34743 Úgy 14992 1965373 1980365 az 17282 461786 479068 de 17833 1153779 1171612 hgy 32925 5498 38423 s 38083 1281757 1319840 és 45722 5716296 5762018 a Különbség OCR Eredeti Szó Különbség OCR Eredeti Szó -12513 12991 478 ny -11522 13652 2130 rt -10976 20989 10013 c -8968 16220 7252 p -8500 12658 4158 ra -8023 145848 137825 úgy -7556 7825 269 lt -7548 7575 27 a -7510 9171 1661 st -7190 7194 4 h9y -7073 7688 615 mar -6942 9396 2454 val -6564 8305 1741 z -6244 19055 12811 ban -6186 8567 2381 nt -6095 7675 1580 gy -5813 10760 4947 11-5604 5606 2 e9y -5581 23842 18261 d
Szavak ragztt alakjainak száma Szó Ragztt alakk száma Szó Ragztt alakk száma Szó Ragztt alakk száma láb 173 tesz 140 álm 128 hív 169 mnd 139 nym 128 fg 162 beszél 139 dlg 128 él 157 talál 137 ad 128 vár 157 fej 137 hajó 126 ember 156 várs 137 ház 126 szív 156 tart 137 hely 126 áll 155 ruha 135 fal 125 szó 151 út 134 maga 123 kéz 150 hall 132 lvas 122 ér 146 apa 129 ismer 121 barát 145 néz 129 ír 120 úr 145 lát 129 Pataki Máté 13
Szavak ragztt alakjainak száma 1. lábak 2. lábam 3. lábadra 4. lábamat 5. lábáig 6. lábánál 7. lábacskáját 8. lábammal 9. lábukkal 10.lábakra Pataki Máté 14
Javaslt algritmus 1. Teljes szavas keresés 2. Bármilyen egyezés 3. Nagyn hasnló szavak keresése 4. Szótöves keresés 5. Hasnló szavak keresése Pataki Máté 15
Javaslt algritmus min_results = 10 query = input (" phrase " result = search(query, if cunt(result) < min_results { if cunt_wrds(query) > 1 { (" all " new_result = search(query, ( new_result result = append_results(result, } if cunt(result) < min_results { (" all " new_result = search_fuzzy(query, 70, ( new_result result = append_results(result, if cunt(result) < min_results { (" all " new_result = search_stemmed(query, ( new_result result = append_results(result, parameter = 60 while cunt(result) < min_results AND parameter > 30 { (" all " new_result = search_fuzzy(query, parameter, ( new_result result = append_results(result, parameter = parameter - 10 } } } } Pataki Máté 16
Köszönöm a figyelmüket! WEB: http://dsd.sztaki.hu Email: Mate.Pataki@sztaki.hu Pataki Máté 17