Az új magyar Braille-rövidírás kialakítása



Hasonló dokumentumok
A MAGYAR BRAILLE-RÖVIDÍRÁS MEGÚJÍTÁSA

félautomatikus módszerrel

Korpusznyelvészet április 18., ELTE. Sass Bálint MTA Nyelvtudományi Intézet 1/29

Kérdésfelvetés Alapmódszer Finomítás További lehetőségek. Sass Bálint


Beszédadatbázis irodai számítógép-felhasználói környezetben

Készült a Gazdasági Versenyhivatal Versenykultúra Központjának támogatásával november

KÖZÖS UTASÍTÁSA. A BELÜGYMINISZTÉRIUM I. ÉS IV. FŐCSOPORTFŐNÖKÉNEK 004. számú. Budapest, évi március hó 1-én BELÜGYMINISZTÉRIUM

E F O P

A beszéd. Segédlet a Kommunikáció-akusztika tanulásához

Ft 5000 Ft 5000 Ft Ft Ft 5000 Ft 5000 Ft 5000 Ft 5000 Ft Ft 5000 Ft Ft Ft 5000 Ft 5000 Ft 5000 Ft 5000 Ft






LEGYEN MÁS A SZENVEDÉLYED!

1. Írd le kis írott betűkkel a nyomtatott betűket! 10/ a b é f ly d ó zs g j. 2. Írd le nagy írott betűkkel a nyomtatott betűket!















PÁRHUZAMOS IGEI SZERKEZETEK

Az elemzés részletes összefoglalását táblázatban mellékeljük. Tapasztalataink alapján

NÖVÉNYTERMESZTÉSTAN. Az egyes növények termesztésének a részleteivel foglalkozik

A vezérlő alkalmas 1x16, 2x16, 2x20, 4x20 karakteres kijelzők meghajtására. Az 1. ábrán látható a modul bekötése.

2. Folytasd a betûk írását írott betûkkel! Figyelj az idôtartamra!

A Hunglish Korpusz és szótár

A Mazsola KORPUSZLEKÉRDEZŐ

Az Informatika Elméleti Alapjai

Lekérdezések az SQL SELECT utasítással

Doktori téma A lényegesség mérése Kutatóeszköz Alkalmazás Befejezés. Sass Bálint

Operációs rendszerek. 11. gyakorlat. AWK - szintaxis, vezérlési szerkezetek UNIVERSITAS SCIENTIARUM SZEGEDIENSIS UNIVERSITY OF SZEGED





A berendezkedés programja

1. Nagy betűk - először a magánhangzók: A E U Ú I Í O Ó É Á Ü Ű Ö Ő - utána a mássalhangzók: M L H T S K R N B Z G V D SZ P C GY J CS NY F TY ZS LY

Az igekötők gépi annotálásának problémái Kalivoda Ágnes

KockaKobak Országos Matematikaverseny 8. osztály

Felsőoktatási Erasmus koordinátorok (KA103) bevezető képzése

ÖSSZEFOGLALÓ JELENTÉS

Informatikai Rendszerek Alapjai

SZÁMÍTÓGÉPES NYELVI ADATBÁZISOK

P ÁRAD IFFÚ ZIÓ ÉP Ü LETFIZIKA


Visszatérítendő támogatások: lakáscélú, munkaeszközcélú kölcsönök (a kifizetések sorrendjében)

Írásjelek helyes szedése. Szabó Csaba. Mondatvégi írásjelek. Központozás. Kötőjelfélék. Szabó Csaba november 18.


VÁLASZLAP ..BF.. KockaKobak Országos Matematikaverseny MINTA Kezdő feladat: KockaKobak Országos Matematikaverseny MINTA 2012.

Együttműködési ajánlat Kulturális intézmények a köznevelés eredményességéért EFOP Véglegesített pályázat 3.0 (Forrás:

2. oldal egységes f A jogszabály A Miniszterelnök Kabinetfőnöke a nemzetközi fejlesztési együttműködésről és a nemzetközi huma-nitárius segítségnyújtá

JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN

AZ EGÉSZSÉGTUDATOS FOGYASZTÓVÁ VÁLÁS HELYI SZINTŰ ELŐSEGÍTÉSE EFOP

Előterjesztés. a Köznevelési, Kulturális és Sport Bizottsághoz


D r.u J J A n d r i s ő r n a g y, f ő i s k o l a i a d ju n k t u s A G O N D O L A T T O L A M E G V A L Ó S U L A S IG, A V A G Y. I I I.

Hangtan A MAGÁNHANGZÓK


1. FELADAT Mező neve Mező típusa Mező hossza TermékID Tényleges eladás Hónap Mező neve Mező típusa

A kibővített Magyar történeti szövegtár új keresőfelülete

Mielıtt használná termékünket Az eltérı környezeti körülmény elektromos áramütést, tüzet, hibás mőködést vagy. okozhat.

CYEB Energiakereskedő Kft. H-2000 Szentendre, Szmolnyica sétány 6/5. Tel: +36 (26) Fax: +36 (26)


A számviteli törvény szerinti egyéb szervezetek közhasznú egyszerűsített éves beszámolója. CZAtéO UTcA g Jj:f. címe

Ember: Állat: Növény:

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

Eötvös Loránd Tudományegyetem Tanító- és Óvóképző Kar. Útmutató a szakdolgozat szerkesztéséhez

Herman Ottó Általános Iskola / Herman Ottó Tudásközpont

65{:. szám ú előterjesztés

E L Ő T E R J E S Z T É S

JEGYZŐKÖNYV. Távolmaradás oka: Élő Norbert, a bizottság képviselő tagja. közfeladat ellátása Tóth Balázs ~~~~~~~~~~~~~~~

Korpuszlekérdezők evolúciója

Reklám CL & LT Modell Mazsola Alkalmazás Példák Befejezés. Sass Bálint



A szemantikus elemzés elmélete. Szemantikus elemzés (attribútum fordítási grammatikák) A szemantikus elemzés elmélete. A szemantikus elemzés elmélete

SZABÁLYSÉRTÉSI IRATOK ÜGYKEZELÉSI SZABÁLYZATA

A WORDPRESS TESTRESZABÁSA (MEGJELENÉS MENÜ ELEMEI)

KORPUSZOK, LEKÉRDEZŐK, NEMZETI KORPUSZPORTÁL

Diszkrét matematika 2. estis képzés

Az egyszer keres felületen sz kíthetjük a keresést adott mez re a legördül lista segítségével.

Java alapú hordozható kliens vakok számára, hálózati szolgáltatások elérésére

Az Európai Unió Tanácsa Brüsszel, július 4. (OR. en)

Földművek gyakorlat. Vasalt talajtámfal tervezése Eurocode szerint

NYILVÁNOS ULÉS napirendje



Elektromágneses szivattyú PMA -1

Átírás:

Az új magyar Braille-rövidírás kialakítása Sass Bálint sassbalint@nytudmtahu MTA Nyelvtudományi Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály 2013 november 11

Braille-írás A vakok által világszerte használt tapintáson alapuló írásmód 6 pont különböző elrendezéseiből 64 féle karakter 1 4 2 5 3 6 2 / 18

Braille-írás A vakok által világszerte használt tapintáson alapuló írásmód 6 pont különböző elrendezéseiből 64 féle karakter 1 a [1] 2 / 18

Braille-írás A vakok által világszerte használt tapintáson alapuló írásmód 6 pont különböző elrendezéseiből 64 féle karakter 1 1 b [1-2] 2 / 18

Braille-írás A vakok által világszerte használt tapintáson alapuló írásmód 6 pont különböző elrendezéseiből 64 féle karakter 1 1 c [1-4] 2 / 18

Braille-írás A vakok által világszerte használt tapintáson alapuló írásmód 6 pont különböző elrendezéseiből 64 féle karakter 1 1 1 d [1-2-5] 2 / 18

Braille-írás A vakok által világszerte használt tapintáson alapuló írásmód 6 pont különböző elrendezéseiből 64 féle karakter 1 1 e [1-5] 2 / 18

A magyar Braille-írás önálló jelek az ékezetes magánhangzóknak a á e é i í o ó ö ő u ú ü ű önálló jelek a kettős mássalhangzóknak c cs g gy l ly n ny s sz t ty z zs tükrözés kivéve: e, i, c, g ha Braille-írást sima szövegként ábrázolunk, a kettős mássalhangzókat egy karakterrel az első karakter nagybetűs változatával jelöljük: C, G, L, N, S, T, Z pl magar 3 / 18

Braille-rövidírás A különféle nyelvekre (pl angol, német, magyar) kidolgozott Braille-rövidírások az általános Braille-írást rövidítési, tömörítési szabályokkal egészítik ki Rövidírás használatával: a nyomtatott forma kevesebb helyet igényel; az írás, jegyzetelés gyorsul; az olvasás, felismerés gyorsul 4 / 18

A magyar Braille-rövidírás: az ún kis rövidírás Magyarországon használatos sztenderd rövidírás Elemei: 1 nagybetűjel törlése rk = 2% 2 vessző utáni szóköz törlése rk = 2% 3 határozott névelő utáni szóköz törlése, az rövidítése rk = 2% 4 44 szabály: rk = 4% 7 db szóvégi rövidítés: ban/ben b, ból/ból bl, hoz/hez/höz hz 16 db egyjelű szórövidítés: Cak C, de d, és é 21 db kétjelű szórövidítés: anni ai, boldog bg, gond gd a kis rövidírás mért rövidítési képessége: rk = 9,4% 5 / 18

Kezdeményezés + követelmények Kezdeményezés az MVGYOSZ Braille-bizottsága részéről: bővítsük a kis rövidírást új szabályokkal annak érdekében, hogy a rövidítési képessége jelentősen növekedjen Használhatósági követelmények: az ismert kis rövidírást egészítse ki; jó olvashatóság: a rövidítések emlékeztessenek az eredetire; jó felismerhetőség: tapintás útján könnyen felismerhető jelek alkalmazása; könnyű megtanulhatóság: kevés, egyszerű szabály Kompromisszumos javaslatot készül, mely törekszik a maximális rövidítési képesség elérésére, miközben megfelel a használhatósági feltételeknek is 6 / 18

Az új rövidírás létrehozása Mit rövidítsünk? A magyar nyelv gyakorisági adatai alapján a maximális rövidítési képességgel bíró ideális rövidírás automatikusan kialakítható Elv: a lehető leggyakoribb betűkapcsolatokat kell a lehető legrövidebbre rövidíteni Pl: ty et 20 -os különbség a gyakoriságban automatikus algoritmus Mire rövidítsünk? Szakértői döntések a gyakorisági adatok és a használhatósági megfontolások alapján Akár az automatikus eredményt felülbírálva manuális munka 7 / 18

Az algoritmus működése 1 Számba vesszük az összes rövidíthető nyelvi elemet: előállítjuk a karaktersorozatok gyakorisági listáját 2 Kiszámoljuk az elemek rövidítési képességét a következő módon: rk(w,r(w)) = [l(w) l(r(w))] fq(w) w az eredeti rövidítendő karaktersorozat, r(w) a rövidítés, l() a hossz (karakterszám), fq() a gyakoriság Pl: a sem és a magar gyakorisága nagyjából azonos érdemesebb az utóbbit két karakterre rövidíteni 3 Rendezzük a gyakorisági listát rövidítési képesség szerint 4 Az első elemhez (maximális rövidítési képesség) hozzárendelünk egy megfelelő rövidítést 5 Ez után alkalmazzuk a most kialakított rövidítő szabályt az egész listára 6 2 8 / 18

Működési példa 2 karakterre rövidítünk A gyakorisági lista eleje: w fq(w) l(w) l(r(w)) rk(w) Ser 10901 1 = 10901 Serint 2515 4 = 10060 magar 3326 3 = 9978 Az első elemet rövidítjük: Ser Sr 9 / 18

Működési példa 2 karakterre rövidítünk A gyakorisági lista eleje: w fq(w) l(w) l(r(w)) rk(w) Ser 10901 1 = 10901 Serint 2515 4 = 10060 magar 3326 3 = 9978 Az első elemet rövidítjük: Ser Sr w fq(w) l(w) l(r(w)) rk(w) magar 3326 3 = 9978 Srint 2515 3 = 7545 Sr 10901 0 = 0 9 / 18

Működési példa 2 karakterre rövidítünk A gyakorisági lista eleje: w fq(w) l(w) l(r(w)) rk(w) Ser 10901 1 = 10901 Serint 2515 4 = 10060 magar 3326 3 = 9978 Az első elemet rövidítjük: Ser Sr w fq(w) l(w) l(r(w)) rk(w) magar 3326 3 = 9978 Srint 2515 3 = 7545 Sr 10901 0 = 0 A következő rövidítendő elem a magar lesz A Serint az új szabály miatt sokkal lejjebb csúszott Ha mégis sorra kerül, tovább rövidíthetjük (így lesz) A Sr kétkarakteres rövidítéssel nyilván nem rövidíthető tovább 9 / 18

Rövidítések megválasztása és használhatóság 1/2 Több nagyon hatékony rövidítési ötletet a használhatósági követelmények miatt végül elvetettünk: szóközt elnyelő szabályok (pedig: rk(t,t) 1,2%!); különböző helyzetekben különböző jelentéssel bíró rövidítések (német példa: r(immer)=r(mm)=x); értelmetlen elemek (pl: et, en, er, ele, ala, tás, ter) rövidítése (pedig: rk(et,t) 0,8%!) Elv: értelmest értelmesre = csak értelmezhető szóelemet rövidítünk és olvasható rövidítésjelet rendelünk hozzá 10 / 18

Rövidítések megválasztása és használhatóság 2/2 A javaslatban csak kétkarakteres rövidítéseket használunk A legtöbb esetben könnyű kiválasztani egy olyan ritka kétkarakteres rövidítést, ami megfelelően illeszkedik a rövidítendőhöz, pl: r( [magar]) = [mg] A leghatékonyabb szabályok a nagyon gyakori betűkapcsolatok (pl: et, el ) egy karakterre való rövidítései lennének Van néhány nagyon ritka jel, ami itt rövidítésként alkalmazható lenne: pl:,, [@], [q], [=], [*], [ty], [w], de használatuk, főleg sok ilyen rövidítésé, nagyban rontja az olvashatóságot Bizonyos elemek egykarakteres rövidítése még megfontolás alatt van: el, tt, meg, Ser, ás/és, eg 11 / 18

A módszer összefoglalása Szigorúan automatikus úton történik a bemutatott algoritmussal az épp aktuális (következő) legjobban rövidíthető elem meghatározása Egy ajánlott, elég jó olvashatóságú rövidítést is automatikusan megad hozzá a rendszer A használhatósági feltételeknek nehéz teljesen automatizált módon megfelelni, ezért szükséges az automatikusan kialakított szabályrendszer interaktív módosítása, manuális véglegesítése: meghatározzuk a konkrét lehető legjobb rövidítésjelet, adott esetben megfelelő kinézetű jel létrehozásával; szükség esetén azt is kiköthetjük, hogy az adott elemet tudva, hogy ezzel veszítünk a rövidítési képességből mégsem rövidítjük; a gyakorisági adatok ismeretében megszoríthatjuk a rövidítés pozícióját (pl: csak szó végén) 12 / 18

A javaslat 1/3 1 2 3 4 5 6 7 8 rövidítendő rövidítés megjegyzés [meg] [mg] szó elején (98%) [ett] [et] = ott [Ser] [Sr] [ott] [ot] = ett [magar] [mg] [jelen] [jn] [ség] [sg] = ság [lehet] [lt] lh túl gyakori 13 / 18

A javaslat 2/3 9 10 11 12 13 14 15 16 rövidítendő rövidítés megjegyzés [vezet] [vz] [nek] [nx] = nak szó végén [köz] [kz] [nak] [nx] = nek szó végén [fel] [fl] szó elején (86%) [Serint] [St] szó elején (95%) [rend] [rh] csúsztatott d (rd, rn nem jó) [ember] [wr] jel kinézete 14 / 18

A javaslat 3/3 17 18 19 20 21 22 23 24 25 rövidítendő rövidítés megjegyzés [ellen] [oó] jel kinézete [elnök] [eö] [elő] [eő] [tart] [tt] szó elején [áll] [Ll] jel kinézete [mond] [mh] csúsztatott d [támogat] [tg] [ért] [ét] [ság] [sg] = ség 15 / 18

A javaslat kiértékelése 23 (25) szabály Rövidítendők listája: áll ellen elnök elő ember ért ett/ott fel- jelen köz lehet magar megmond -nak/-nek rend ság/ség Ser Serint(-) támogat tart(-) vezet Kis rövidírás rövidítési képessége: rk = 9, 4% A fenti szabályokkal kiegészített új rövidírás mért rövidítési képessége: rk = 12,3% A rövidítési képesség növekedése: +2,9 százalékpont (+30%) Kevés szabály, jelentős növekedés Szükség esetén egyszerűen tovább bővíthető a jövőben 16 / 18

Példa eredeti: Bill Gates szerint az internet nem menti meg a világot rövidítve: bill gates szt,internet n menti mg,vgot Kis rövidírás: nagybetűjel elhagyása; névelők összevonása; nem, világ Új rövidírás: szerint, meg Hossz: 55 karakter 17 / 18

Példa eredeti: Bill Gates szerint az internet nem menti meg a világot rövidítve: bill gates szt,internet n menti mg,vgot Kis rövidírás: nagybetűjel elhagyása; névelők összevonása; nem, világ Új rövidírás: szerint, meg Hossz: 55 53 karakter: rk() = 3,6% 17 / 18

Példa eredeti: Bill Gates szerint az internet nem menti meg a világot rövidítve: bill gates szt,internet n menti mg,vgot Kis rövidírás: nagybetűjel elhagyása; névelők összevonása; nem, világ Új rövidírás: szerint, meg Hossz: 55 50 karakter: rk() = 9,1% 17 / 18

Példa eredeti: Bill Gates szerint az internet nem menti meg a világot rövidítve: bill gates szt,internet n menti mg,vgot Kis rövidírás: nagybetűjel elhagyása; névelők összevonása; nem, világ Új rövidírás: szerint, meg Hossz: 55 45 karakter: rk() = 18,2% 17 / 18

Példa eredeti: Bill Gates szerint az internet nem menti meg a világot rövidítve: bill gates szt,internet n menti mg,vgot Kis rövidírás: nagybetűjel elhagyása; névelők összevonása; nem, világ Új rövidírás: szerint, meg Hossz: 55 40 karakter: rk() = 27,3% 17 / 18

= ö 18 / 18