Context-Aware Correction of Spelling Errors in Hungarian Medical Documents

Hasonló dokumentumok
On The Number Of Slim Semimodular Lattices

Construction of a cube given with its centre and a sideline

Unit 10: In Context 55. In Context. What's the Exam Task? Mediation Task B 2: Translation of an informal letter from Hungarian to English.

Using the CW-Net in a user defined IP network

Technical Report Series on Corpus Building

Correlation & Linear Regression in SPSS

Genome 373: Hidden Markov Models I. Doug Fowler

Vakáció végi akció Ukrajnában

STUDENT LOGBOOK. 1 week general practice course for the 6 th year medical students SEMMELWEIS EGYETEM. Name of the student:

Proxer 7 Manager szoftver felhasználói leírás

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.


Rezgésdiagnosztika. Diagnosztika

CLUSTALW Multiple Sequence Alignment

Helyesírási hibák automatikus javítása orvosi szövegekben a szövegkörnyezet figyelembevételével

Széchenyi István Egyetem

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

Lecture 11: Genetic Algorithms

A modern e-learning lehetőségei a tűzoltók oktatásának fejlesztésében. Dicse Jenő üzletfejlesztési igazgató

Lopocsi Istvánné MINTA DOLGOZATOK FELTÉTELES MONDATOK. (1 st, 2 nd, 3 rd CONDITIONAL) + ANSWER KEY PRESENT PERFECT + ANSWER KEY

3. MINTAFELADATSOR KÖZÉPSZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

Statistical Inference

IES TM Evaluating Light Source Color Rendition

NYOMÁSOS ÖNTÉS KÖZBEN ÉBREDŐ NYOMÁSVISZONYOK MÉRÉTECHNOLÓGIAI TERVEZÉSE DEVELOPMENT OF CAVITY PRESSURE MEASUREMENT FOR HIGH PRESURE DIE CASTING

Relative Clauses Alárendelő mellékmondat

Can/be able to. Using Can in Present, Past, and Future. A Can jelen, múlt és jövő idejű használata

Decision where Process Based OpRisk Management. made the difference. Norbert Kozma Head of Operational Risk Control. Erste Bank Hungary

First experiences with Gd fuel assemblies in. Tamás Parkó, Botond Beliczai AER Symposium

VI. Az iskolában. Mit csinálsz az iskolában? Írok, olvasok, rajzolok, tornázom és énekelek. Mettől meddig vagy az iskolában? 7 óra 20 perctől egyig.

István Micsinai Csaba Molnár: Analysing Parliamentary Data in Hungarian

Supporting Information

USER MANUAL Guest user

Csima Judit április 9.

2. Local communities involved in landscape architecture in Óbuda

Excel vagy Given-When-Then? Vagy mindkettő?

Társasjáték az Instant Tanulókártya csomagokhoz

KÖZGAZDASÁGI ALAPISMERETEK (ELMÉLETI GAZDASÁGTAN) ANGOL NYELVEN BASIC PRINCIPLES OF ECONOMY (THEORETICAL ECONOMICS)

Correlation & Linear Regression in SPSS

Performance Modeling of Intelligent Car Parking Systems

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests

Mapping Sequencing Reads to a Reference Genome

A golyók felállítása a Pool-biliárd 8-as játékának felel meg. A golyók átmérıje 57.2 mm. 15 számozott és egy fehér golyó. Az elsı 7 egyszínő, 9-15-ig

Bevezetés a kvantum-informatikába és kommunikációba 2015/2016 tavasz

1 Itroduction. 2 Example: Close Ë in the Rudimenta? BAKONYI Gábor. (Hungary, Budapest, Csillaghegy) October 30, 2009

(NGB_TA024_1) MÉRÉSI JEGYZŐKÖNYV

Madonna novellái. 1. szint Július. Madonna képekkel illusztrált novelláskötetet(1) jelentet meg

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

Magyar - Angol Orvosi Szotar - Hungarian English Medical Dictionary (English And Hungarian Edition) READ ONLINE

DOAS változások, összefoglaló

FOSS4G-CEE Prágra, 2012 május. Márta Gergely Sándor Csaba

Supplementary Table 1. Cystometric parameters in sham-operated wild type and Trpv4 -/- rats during saline infusion and

Angol Középfokú Nyelvvizsgázók Bibliája: Nyelvtani összefoglalás, 30 kidolgozott szóbeli tétel, esszé és minta levelek + rendhagyó igék jelentéssel

Szoftver-technológia II. Tervezési minták. Irodalom. Szoftver-technológia II.

Judas 1 1 Judas 6. Judas

Utolsó frissítés / Last update: február Szerkesztő / Editor: Csatlós Árpádné

(Asking for permission) (-hatok/-hetek?; Szabad ni? Lehet ni?) Az engedélykérés kifejezésére a következő segédigéket használhatjuk: vagy vagy vagy

Gottsegen National Institute of Cardiology. Prof. A. JÁNOSI

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

2. Tavasz Kupa. Uszonyos és Búvárúszó Verseny Kiírása

Cloud computing Dr. Bakonyi Péter.

Longman Exams Dictionary egynyelvű angol szótár nyelvvizsgára készülőknek

Tavaszi Sporttábor / Spring Sports Camp május (péntek vasárnap) May 2016 (Friday Sunday)

ELEKTRONIKAI ALAPISMERETEK ANGOL NYELVEN

Word and Polygon List for Obtuse Triangular Billiards II

FÖLDRAJZ ANGOL NYELVEN GEOGRAPHY

A jövedelem alakulásának vizsgálata az észak-alföldi régióban az évi adatok alapján

Where are the parrots? (Hol vannak a papagájok?)

Tudományos Ismeretterjesztő Társulat

EEA, Eionet and Country visits. Bernt Röndell - SES


Néhány folyóiratkereső rendszer felsorolása és példa segítségével vázlatos bemutatása Sasvári Péter

Ister-Granum EGTC. Istvan FERENCSIK Project manager. The Local Action Plans to improve project partners crossborder

ANGOL NYELV KÖZÉPSZINT SZÓBELI VIZSGA I. VIZSGÁZTATÓI PÉLDÁNY

Ensemble Kalman Filters Part 1: The basics

Dependency preservation

Phenotype. Genotype. It is like any other experiment! What is a bioinformatics experiment? Remember the Goal. Infectious Disease Paradigm

TestLine - Angol teszt Minta feladatsor

Felhívás. érted is amit olvasol? (Apostolok Cselekedetei 8:30)

Cluster Analysis. Potyó László

3. MINTAFELADATSOR EMELT SZINT. Az írásbeli vizsga időtartama: 30 perc. III. Hallott szöveg értése

Felnőttképzés Európában

T Á J É K O Z T A T Ó. A 1108INT számú nyomtatvány a webcímen a Letöltések Nyomtatványkitöltő programok fülön érhető el.

Website review acci.hu

ANGOL NYELVI SZINTFELMÉRŐ 2013 A CSOPORT. on of for from in by with up to at

Statistical Dependence

Csatlakozás a BME eduroam hálózatához Setting up the BUTE eduroam network

ENROLLMENT FORM / BEIRATKOZÁSI ADATLAP

Utolsó frissítés / Last update: Szeptember / September Szerkesztő / Editor: Csatlós Árpádné

EURÓPAI PARLAMENT. Közlekedési és Idegenforgalmi Bizottság PE v01-00

Olimpiai Játékok, Athén 2004

Gyakorlati tudnivalók nyertes pályázó és bíráló szemszögéből Prof. Dr. Dinnyés András,

EN United in diversity EN A8-0206/419. Amendment

OLYMPICS! SUMMER CAMP

MATEMATIKA ANGOL NYELVEN MATHEMATICS

Abigail Norfleet James, Ph.D.

}w!"#$%&'()+,-./012345<ya

Kezdőlap > Termékek > Szabályozó rendszerek > EASYLAB és TCU-LON-II szabályozó rendszer LABCONTROL > Érzékelő rendszerek > Típus DS-TRD-01

FÖLDRAJZ ANGOL NYELVEN

Átírás:

Context-Aware Correction of Spelling Errors in Hungarian Medical Documents Borbála Siklósi 1, Attila Novák 1,2, Gábor Prószéky 1,2 Pázmány Péter Catholic University, Faculty of Information Technology 2 MTA-PPKE Language Technology Research Group {siklosi.borbala, novak.attila, proszeky}@itk.ppke.hu Ez a munka részben a TÁMOP 4.2.1.B 11/2/KMR-2011 0002 támogatásával készült.

Outline Spelling errors SMT applied to automatically correct errors Translation models Language model Decoding Results Problems

Spelling errors isspelling? Series of abbreviations Abbreviation? Abbreviation? Latin word? End of sentence? isspelling? End of sentence? Abbreviation or missing comma?

Spelling errors mistyping, accidentally swapping letters, inserting extra letters or just missing some; lack or improper use of punctuation (e.g. no sign of sentence boundaries, missing commas, no space between punctuation and the neighboring words); grammatical errors; sentence fragments; domain-specific and often ad hoc abbreviations, which usually do not correspond to any standard

Previous work Generating correction candidates: Word forms of one edit distance from the original Suggestions of the morphology Scores: Weighted language models Stopword list Automatically generated abbreviation list Judgement of the morphology Accepted form Non-accepted form if frequent, then correct General and domain specific word lists Weighted edit distance (neighbouring keys, etc) Features of the original form

Application of a machine translation system Ĉ = argmax P(C E) = argmax P(E C)P(C) / P(E) Erroneous sentence: E=e 1,e 2...e n, Correct sentence: C=c 1,c 2...c k Corrected sentence: Ĉ=c 1,c 2...c k Decoding translation (CORRECTION) model * language model

Translation models TM for general words TM for abbreviations TM for joining errors

Translation model for general words Instead of learning from parallel corpus, using the ranked suggestions of the correction candidate generator The first 20 suggestions based on the scores by transfering them to quasi-probability distribution hosszúságu hosszúsági 0.01649 hosszúságu hosszúságú 0.01560 hosszúságu hosszúsága 0.01353 hosszúságu hosszúságuk 0.01317 hosszúságu hosszúságul 0.01292 hosszúságu hosszúságé 0.01284 hosszúságu hosszúság 0.01034

Translation model for abbreviations Problems: the same word or phrase usually appears in several different abbreviated forms in the text the suggestion generator would prefer to transform the original abbreviation to a very frequent similar common word

Solution: Translation model for abbreviations Collecting abbreviations and integrating them to the morphological analyzer Collecting potential variations for each abbreviation and deriving a probability score based on their frequencies conj. conj. 0.6078 conj conj. 0.8696 conj conj 0.1303 mko mko 0.4891 mko mko. 0.9970 mko. mko. 0.9993

Translation model for joining errors Exploiting the possibilities of phrase-based translation When inserting a space, the scores are calculated for each word and their average is considered for the phrase soronkívül soron kívül 0.02074 soronkívül soronkívül 0.01459

Language model It is responsible for weighting the sequences of corrected words towards their real occurrence in the language Lexical context Problem: the language model can only be built from noisy texts, but 1-gram 2-gram 3-gram General text 873951 4794135 7886616 Clinical text 275609 1409290 2440636 Általános magyar nyelvű és orvosi szövegekben előforduló különböző n-gramok száma (800000 mondatos korpuszban)

Decoding Moses toolkit Parameters can be set in the configuration file: Weighting of translation models (independent, high) Weighting of the language model (lower) Distortion limit (not allowed) Penalty for difference in the length of the sentence

Results Manually corrected testset of 2000 sentences (hard to judge correctness) System Accuracy 1 st best suggestion 72.5% SMT-based contex-aware 88.28%

Examples csppent előírés szerint, 2000 mondatból álló kézzel javított teszthalmaz Original sentence: Baseline correction: SMT correction: Reference: Original sentence: Baseline correction: SMT correction: Reference: Original sentence: Baseline correction: SMT correction: Reference: Original sentence: Baseline correction: SMT correction: Reference: cseppent előír és szerint, cseppent előírás szerint, cseppent előírás szerint, th : mko tovább 1 x duotrav 3 ü-1 rec, íb : 2 x azoipt 3 ü-1 rec th : mko tovább 1 x duotrav 3 ü-1 sec, kb : 2 x azoipt 3 ü-1 sec th. : mko tovább 1 x duotrav 3 ü-1 rec, kb : 2 x azopt 3 ü-1 rec th. : mko tovább 1 x duotrav 3 ü-1 rec, kb : 2 x azopt 3 ü-1 rec /alsó m?fogsor. /alsó műfogsor. alsó műfogsor. alsó műfogsor. vértelt nyállkahártyák, kp erezett conjuctiva, fehér sclera. vértelt nyálkahártyák, kp erezett conjunctiva, fehér sclera. vértelt nyálkahártyák, kp. erezett conjunctiva, fehér sclera. vértelt nyálkahártyák, kp. erezett conjunctiva, fehér sclera.

Problematic cases Transforming a correct word to another correct one original sentence: homályos látást panaszol. (s/he complains about blurred vision) corrected sentence: homályos látás panaszok. (complaints of blurred vision) original sentence: panasz nem volt. corrected sentence: panasza nem volt. (there were no complaints) (s/he didn t have any complaints) Multiple errors in one word original sentence: corrected sentence: reference sentence: gyógyógyszerei : ld lázlap gyógyógyszerei : ld lázlap gyógyszerei : ld. lázlap

Conclusion In very noisy, Hungarian, domain specific, clinical texts that are full of abbreviations the automatic correction of spelling errors was performed with high accuracy

Conclusion Further plans: integrating more information to the translation models, such as part-of-speech tags iterative creation of the language model, after correcting the corpus correcting multiple errors

Thank you! siklosi.borbala@itk.ppke.hu