Hasonló dokumentumok
A nyelvtechnológia alapjai. 2. A szövegek kódolása és rendezése (meg egy kis nyelvstatisztika) 2015/2016. tanév, I. félév

A MAGYAR NYELV ÍRÁSA ÉS A MAGYAR ÁBÉCÉ

KÖSZÖNTJÜK HALLGATÓINKAT!

INFORMATIKAI ALAPISMERETEK

Bináris egység: bit (binary unit) bit ~ b; byte ~ B (Gb Gigabit;GB Gigabyte) Gb;GB;Gib;GiB mind más. Elnevezés Jele Értéke Elnevezés Jele Értéke

4. óra: A népesség etnikai és vallási megosztottsága

Shannon és Huffman kód konstrukció tetszőleges. véges test felett

VIDÉKFEJLESZT KFEJLESZTÉSI SI. II. nap. Page 1 MOTTÓ. A A matematikában az ember a dolgokat nem megérti, hanem megszokja. Neumann JánosJ

Lexikon és nyelvtechnológia Földesi András /

Bevezetés a számítástechnikába

INFORMATIKAI ALAPISMERETEK

Multimédia szoftver szabványok

A magyar helyesírás főbb jellemzői

Tagolatlan mondat szavakra tagolása, helyes leírása Ellenőrzés

Magyar nyelvtan tanmenet 4. osztály

BESZÉD ÉS ANYANYELV. Nyelvtan-helyesírás 2. osztályosoknak TANMENET

A Eötvös Loránd-emlékérem. B Eötvös Loránd Emlékérem. C Eötvös Loránd emlékérem. A Gellért fürdő. B Gellért-fürdő. C Gellért Fürdő. A ELTÉ-s.

2011. évi teljesítés

Optikai illuziók - a látás kutatás

Webdesign II Oldaltervezés 3. Tipográfiai alapismeretek

Vizuális nyelv. Olvasás és írás. Ellis, W. (2004) Olvasás, írás és diszlexia október

Programozás alapjai. 5. előadás

A számítógépes nyelvészet elmélete és gyakorlata. Formális nyelvek elmélete

INFO1 Számok és karakterek

3. gyakorlat. Kettes számrendszer: {0, 1} Tízes számrendszer: {0, 1, 2,..., 9} 16-os (hexadecimális számrendszer): {0, 1, 2,..., 9, A, B, C, D, E, F}

Írásbeli összegezés az ajánlatok elbírálásáról

ELTE BTK FELSŐOKTATÁSI FELVÉTELI TÁJÉKOZTATÓ, ALAPKÉPZÉSBEN MEGHIRDETETT KÉPZÉSEK 2017.

Számok és karakterek ábrázolása

A nyelvtudomány rövid története: humanizmus & kora újkor

Újdonságok az OpenOffice.org Lingucomponent moduljában

A RÓMAI SZERZÕDÉSEK 50. ÉVFORDULÓJA ALKALMÁBÓL

Mondatkiegészítés adott. Az írásmódtól eltérô. Mondatalkotás. pótlása. Hosszú mássalhangzós. Másolás. Mondatvégi írásjelek

A BUDAPESTI METROPOLITAN EGYETEM ÁLTAL AZ EGYES ALAPKÉPZÉSI SZAKOKON ELFOGADHATÓ AKKREDITÁLT SZAKNYELVI VIZSGÁK

DÍJSZABÁS Érvényes: december 1-től ÁLTALÁNOS FORDÍTÁSI DÍJAK

Hogyan fogalmazzuk meg egyszerűen, egyértelműen a programozóknak, hogy milyen lekérdezésre, kimutatásra, jelentésre van szükségünk?

2. téma. Fonetika/fonológia. Leíró magyar hangtan. Fonéma:

X. PANGEA Matematika Verseny II. forduló 10. évfolyam. 1. Az b matematikai műveletet a következőképpen értelmezzük:

NYÍLT VERSENYVIZSGA-FELHÍVÁS (2011/C 198 A/02)

Adatábrázolás. Hogyan láttassuk eredményeinket hatékonyan

T/ számú. törvényjavaslat

Javítóvizsga követelmények 2. évfolyam. Magyar nyelv

10. Morfológia és statisztikai grammatika Morfémák és variációszámok

MAGYAR NYELVÉSZETI TÁRGYAK ISMERTETÉSE BA NYELVTECHNOLÓGIAI SZAKIRÁNY

matematikai statisztika

A magánhangzók fonológiai rendszere

Nyelvtan-helyesírás 2. tanmenet. Témák órákra bontása. Az óra témája (tankönyvi lecke) vagy funkciója

Írás 2. tanmenet. Az óra témája (tankönyvi lecke) vagy funkciója. Célok, feladatok Fejlesztési terület Ismeretanyag. Témák órákra bontása

Különírás-egybeírás automatikusan

Sémi összehasonlító nyelvészet

A programozó matematikus szak kredit alapú szakmai tanterve a 2003/2004. tanévtől, felmenő rendszerben

Földvári Erika NYELVTAN. Munkafüzet második osztályosoknak Elsõ félév

Megjegyzés: A programnak tartalmaznia kell legalább egy felhasználói alprogramot. Példa:

Intézményi jelentés. 10. évfolyam

Informatikai Rendszerek Alapjai

Írjon olyan programot a standard könyvtár alkalmazásával, amely konzolról megadott valós adatokból meghatározza és kiírja a minimális értékűt!

1. feladat: A decimális kódokat az ASCII kódtábla alapján kódold vissza karakterekké és megkapod a megoldást! Kitől van az idézet?

Antalné Szabó Ágnes A magyar helyesírás vizuális rendszere. Anyanyelv-pedagógia 4. Melléklet

Intézményi jelentés. 10. évfolyam. Bolyai János Gimnázium és Kereskedelmi Szakközépiskola 2364 Ócsa, Falu Tamás u. 35. OM azonosító:

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

A főnév élőlények, élettelen és gondolati dolgok neve. Fajtái a köznév és a tulajdonnév. tk

NYELVVIZSGA KÖVETELMÉNYEK AZ EGYES SZAKOKON

A továbbiakban Y = {0, 1}, azaz minden szóhoz egy bináris sorozatot rendelünk

Fonetika és fonológia

MELLÉKLET. a következőhöz: Javaslat A TANÁCS HATÁROZATA

ÉRTÉKELÉSI ÚTMUTATÓ AZ EMELT SZINTŰ SZÓBELI VIZSGÁHOZ

írás (szürkével elkülönítve)

MELLÉKLET JEGYZŐKÖNYV. a következőhöz: A Tanács határozata

FIT-jelentés :: Telephelyi jelentés. 8. évfolyam :: Általános iskola

Blaho Sylvia, Sass Bálint & Simon Eszter. MTA Nyelvtudományi Intézet február 4.

A zsidóság nyelvei. Biró Tamás március 24.

15410/17 GP/ar DGC 1A. Az Európai Unió Tanácsa. Brüsszel, május 14. (OR. en) 15410/17. Intézményközi referenciaszám: 2017/0319 (NLE)

Magánhangzóink: u ú. 1. Alkoss mondatokat a kettes és hármas ikrekkel (segítséggel)!

MagyarOK 1.: munkalapok 2

FIT-jelentés :: Tátra Téri Általános Iskola 1204 Budapest, Tátra tér 1. OM azonosító: Telephely kódja: 001. Telephelyi jelentés

Zsemlyei János A MAI MAGYAR NYELV SZÓKÉSZLETE ÉS SZÓTÁRAI

Intézményi jelentés. 8. évfolyam

A vezérlő alkalmas 1x16, 2x16, 2x20, 4x20 karakteres kijelzők meghajtására. Az 1. ábrán látható a modul bekötése.

Informatikai Rendszerek Alapjai

1. előadás. Lineáris algebra numerikus módszerei. Hibaszámítás Számábrázolás Kerekítés, levágás Klasszikus hibaanalízis Abszolút hiba Relatív hiba

FIT-jelentés :: Telephelyi jelentés. 10. évfolyam :: 4 évfolyamos gimnázium

A visegrádi országok vállalati információs rendszerek használati szokásainak elemzése és értékelése

Teljesítménymodellezés

ÉRTÉKELÉSI ÚTMUTATÓ AZ EMELT SZINTŰ SZÓBELI VIZSGÁHOZ. Általános útmutató

Leíró magyar hangtan. A magyar nyelvészetben használt fonetikus írások

Számítsuk ki a nyelvet! Matematika, fizika és algoritmusok a nyelvben

Intézményi jelentés. 10. évfolyam

Segédanyagok. Formális nyelvek a gyakorlatban. Szintaktikai helyesség. Fordítóprogramok. Formális nyelvek, 1. gyakorlat

Nagykövetségek March 13.

Nyelvészeti alapfogalmak. Nyelvészet az informatikában informatika a nyelvészetben szeptember 25.

FIT-jelentés :: Telephelyi jelentés. 6. évfolyam :: Általános iskola

Intézményi jelentés. 10. évfolyam. Szász Ferenc Kereskedelmi Szakközépiskola és Szakiskola 1087 Budapest, Szörény u OM azonosító:

M/74. közismereti informatika írásbeli (teszt) érettségi vizsgához

Intézményi jelentés. 10. évfolyam. Corvin Mátyás Gimnázium és Műszaki Szakközépiskola 1165 Budapest, Mátyás király tér 4. OM azonosító:

Bevezetés az elektronikába

FIT-jelentés :: Tomori Pál Tagiskola 1131 Budapest, Tomori u. 2. OM azonosító: Telephely kódja: 002. Telephelyi jelentés

Intézményi jelentés. 10. évfolyam. Révai Miklós Gimnázium és Kollégium 9021 Győr, Jókai u. 21. OM azonosító:

Intézményi jelentés. 10. évfolyam

OOP. Alapelvek Elek Tibor


Átírás:

Bevezetés a nyelvtechnológiába 2. A szövegek kódolása

Nyelvek százmillió anyanyelvi beszélővel (forrrás: Ethnologue: Languages of the World, 2005)

Kína fontosabb nyelvei (forrrás: Ethnologue: Languages of the World, 2009) Nyelv Az országok száma, ahol beszélik Beszélők száma milliókban Gan [gan] 1 20.6 Hakka [hak] 17 30.0 Huizhou [czh] 1 4.6 Jinyu [cjy] 1 45.0 Mandarin [cmn] 20 845,0 Min Bei [mnp] 2 10.3 Min Dong [cdo] 7 9.1 Min Nan [nan] 10 47.3 Min Zhong [czo] 1 3.1 Wu [wuu] 2 77.2 Xiang [hsn] 2 36.0 Yue [yue] 20 55.5 Összesen 31 1,213.0

A nyelvek területi megoszlása (forrrás: Ethnologue: Languages of the World, 2009) Földrész Élő nyelvek Beszélők száma % száma % ny.-kénti átlag medián Afrika 2,110 30.5 726,453,403 12.2 344,291 25,200 Amerika 993 14.4 50,496,321 0.8 50,852 2,300 Ázsia 2,322 33.6 3,622,771,264 60.8 1,560,194 11,100 Európa 234 3.4 1,553,360,941 26.1 6,638,295 201,500 Ausztrália/Óceánia 1,250 18.1 6,429,788 0.1 5,144 980 Összesen 6,909 100.0 5,959,511,717 100.0 862,572 7,560

A nyelvek anyanyelvi beszélők szerinti megoszlása (forrrás: Ethnologue: Languages of the World, 2009) Populáció Élő nyelvek Beszélők száma % Σ % száma % Σ % 100,000,000 to 999,999,999 8 0.1 0.1% 2,308,548,848 38.73 38.73% 10,000,000 to 99,999,999 77 1.1 1.2% 2,346,900,757 39.38 78.12% 1,000,000 to 9,999,999 304 4.4 5.6% 951,916,458 15.97 94.09% 100,000 to 999,999 895 13.0 18.6% 283,116,716 4.75 98.84% 10,000 to 99,999 1,824 26.4 45.0% 60,780,797 1.01 99.86% 1,000 to 9,999 2,014 29.2 74.1% 7,773,810 0.13 99.99% 100 to 999 1,038 15.0 89.2% 461,250 0.00 99.99% 10 to 99 339 4.9 94.1% 12,560 0.00 99.99% 1 to 9 133 1.9 96.0% 521 0.00 100.00% Ismeretlen 277 4.0 100.0% Összesen 6,909 100.0 5,959,511,717 100.0

Kódolás, betű, nyelv

Karakter, karakterkód, karakterkészlet Karakter: absztrakt objektum, a számítógépen tárolt szövegek legkisebb, tovább nem bontható egysége. Egy karakter egy betű, szám, írásjel, speciális jel, illetve egyetlen egyszerűbb szövegformázó parancs ábrázolására alkalmas. Karakterkód: a karakternek mint absztrakt objektumnak megfeleltetett számkód, amely számítógépen közvetlenül ábrázolható. Karakterkészlet: karaktereket és számkódjaikat összerendelő táblázat. Meghatározza, hogy milyen karakterek használhatók, és azt is, hogy az egyes karakterkódokat miképpen kell értelmezni. A karakterkészlet megjeleníthető karaktereket és speciális műveleteket előíró vezérlőkaraktereket tartalmaz. Kódlap: több karakterkészletet is kezelő számítógéprendszerben egy, saját számkódjával azonosított karakterkészlet. Betűkészlet: olyan táblázat, amely adott karakterkészlet(ek) megjeleníthető karaktereihez karakterképeket rendel, amelyek a számítógép képernyőjén vagy nyomtatásban jelennek meg. Az alkalmazott betűkészlet a szöveg számítógépbeli értelmezésére például a szöveget nyelvi szempontból feldolgozó programokra nincs befolyással, csak annak megjelenítésekor használatos.

Karakterkódolási módszerek Fonetikus(nak mondott) írások Fonémák, hangok, betűk Alapábécék: latin, angol Az extra kódolás igénye Diakritikus jelek Multigráfok

Betűk, hangok, fonémák Multigráfok és/vagy diakritikumok:

Európai ékezetes betűk 1.

Európai ékezetes betűk 2.

Diakritikumok multigráfos kódolásai e-mail: arvizturo tukorfurogep (fokabel???) távirati: aarviiztuuerooe tuekoerfuuroogeep repülő ékezetes: a rvi ztu ro tu:ko:rfu ro ge p számkódos: a1rvi1ztu3ro3 tu2ko2rfu1ro1ge1p TeX: \ arv\ izt\ ur\ o t\huk\horf\ ur\ og\ ep SGML/HTML: árvíztűrő

ASCII kódtábla: Kódlapok

Kódlapok Az ISO 8859-2 (Latin-2) kódtábla: magyar német horvát lengyel román szlovák szlovén szerb cseh albán

A Unicode és a UCS Minden beszélt, holt és egyéb nyelv (pl. Braille) karakterei (betűk, számok, írásjelek, stb.) Minden egyes karakternek egyedi száma és neve van Eredetileg 16 biten (2 bájton) tárolta az adatokat, de ez nem volt elég, ezért 4 bájtosra bővítették 2 16 = 65 536 Basic Multilingual Plane (BMP) 2 32 = 4 294 967 296

A Unicode és a UCS Az első 255 karakter megegyezik a Latin-1 (ISO 8859-1) karakterekkel Nemcsak szám, hanem név is: U+0041 Latin capital letter A U+0151 Latin small letter o with double acute UCS-2: 2 bájton UCS-4: 4 bájton UTF-8: Unicode Transformation Format

A Unicode és a UCS 1980-as évek: igény egy egységes, minden karaktert leíró kódtáblára ISO 10646 az ISO szervezet szabványa (UCS: Universal Character Set) Unicode amerikai cégek konzorciuma 1991: egyesítik a két projekt eredményeit, de megmarad a két szervezet Teljesen kompatibilisek azóta is! Különbségek is vannak: az ISO 10646 csak karakterkészlet, a Unicode-ban viszont léteznek további kiegészítések, pl. egyeztetési szabályok

Egészen pontosan ISO/IEC 10646-1:1993 Unicode 1.1 ISO/IEC 10646-1:2000 Unicode 3.0 ISO/IEC 10646-2:2001 Unicode 3.2 ISO/IEC 10646:2003 Unicode 4.0 ISO/IEC 10646:2003 és az 1. kiegészítés Unicode 4.1 ISO/IEC 10646:2003 és az 1.kiegészítés, a 2. kiegészítés, és részben a 3. kiegészítés Unicode 5.0 Ma már Unicode 5.1: http://www.unicode.org/versions/unicode5.1.0/ Unicode Character Database: http://www.unicode.org/public/unidata/

Ábécék és rendezési elvek

Az ábécék eleje 1. latin, 2. görög, 3. cirill, 4. héber, 5. arab, 6. örmény, 7. régi grúz, 8. mai grúz, 9. dévanagári, 10. bengáli, 11. gurmukhi, 12. gudzsaráti, 13. orijá, 14. tamil, 15. telugu, 16. kannada, 17. malajalám, 18. thai, 19. lao, 20. hiragana, 21. katakana, 22. bopomofo, 23. koreai, 24. kínai

Néhány érdekesség Leghosszabb ábécé: khmer (74 betű) Legrövidebb ábécé: rotokas (12 betű) (kb. 4300 beszélő, Kelet-Pápua, Bougainville tartomány) Legkevesebb fonéma: rotokas (11) Legtöbb fonéma:!xóõ (112) (kb. 4200 beszélő, Botswana) Legkevesebb mássalhagzó: rotokas (6) Legtöbb mássalhangzó: ubyx [észak-kaukázusi nyelv: kihalt (1992), Isztambul mellett beszélték] (81) Legkevesebb magánhangzó: ubyx és egyes abház dialektusok (2) [106.000 beszélő!] Legtöbb magánhangzó:!xóõ (31) A leggyakoribb hangok a világ nyelveiben: /p/, /t/, /k/, /m/, /n/

Ábécék és rendezés A kiejtés szerinti írás (?) Az ábécébe rendezés elvei Átjárás ábécék között: transzliterálási problémák A könyvtári rendezés Az olyan sajátos célú munkák (lexikonok, enciklopédiák, atlaszok és térképek névmutatói stb.), amelyekben magyar és idegen nyelvű szóanyag erősen keveredik egymással, rendszerint az úgynevezett általános latin betűs ábécét követik: a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z. Ebben a rendszerben mind a magyar, mind az idegen többjegyű betűknek minden egyes eleme külön, önálló egységnek számít, és a besorolás nincs tekintettel sem a magyar ékezetekre, sem az idegen betűk mellékjeleire. Az ilyenfajta munkák szavainak betűrendbe sorolása bonyolult feladat. Itt például a több szóból álló egységeket vagy az egész kapcsolat, vagy csak az első elem alapján szokás besorolni, ahogyan a könnyebben kezelhetőség érdeke vagy egyéb szempont kívánja. A követendő eljárást a könyvtárügy és a szakirodalmi tájékoztatás (dokumentáció) területén szabvány (MSZ 3401) írja elő, illetőleg belső szakmai útmutatók szabályozzák.

A magyar akadémiai rendezés (1) A különböző betűvel kezdődő szavakat az első betűk ábécébeli helye szerint állítjuk rendbe, illetőleg keressük meg. Példa: acél, cukor, csók, gép, hideg, kettes, olasz, öröm, remény, Nagy, nyúl, sokáig, szabad, Tamás, vásárol

A magyar akadémiai rendezés (2) Az egyjegyű betűt teljesen elkülönítjük az azonos írásjeggyel kezdődő, de külön mássalhangzót jelölő kétjegyű (ill. háromjegyű) betűtől. Mindig az egyjegyű betű van előbb. Példa: cudar, cukor, cuppant, csalit, csata, Csepel, dac, domb, duzzog, dzsem, dzsungel, Zoltán, zongora, zúdul, zsalu, zseni

A magyar akadémiai rendezés (3) A többjegyű betűk kettőzött változatait sohasem az egyszerűsített alakok szerint soroljuk be a betűrendbe, hanem a megkettőzött betűt mindig két külön betűre bontjuk, s így soroljuk a szót a megfelelő helyre. (ccs = cs + cs; ggy = gy + gy; ddzs = dzs + dzs;...) Példa: kas, Kassák, kastély, kaszinó, kassza, kaszt, mennek, menü, menza, Menyhért, mennyi, nagy, naggyá, nagygyakorlat, naggyal, nagyít

A magyar akadémiai rendezés (4) A magánhangzók rövid és hosszú változatát jelölő betűk (a á, e é, i í, o ó, ö ő, u ú, ü ű) a kialakult szokás szerint mind a szavak elején, mind pedig a szavak belsejében azonos értékűnek számítanak a betűrendbe sorolás szempontjából. A magánhangzó hosszú változatát tartalmazó szó tehát meg is előzheti a rövid változatút. Példa: ír, Irak, Irán, írandó, iránt, író, iroda, irónia

A magyar akadémiai rendezés (5) A rövid magánhangzós szó kerül viszont előbbre olyankor, ha két szó betűsora csak az azonos magánhangzók hosszúsága tekintetében különbözik Példa: égbolt, Eger, egér, éger, égés, egész, keres, kérés, koros, kóros, kórós, szel, szél, szelel, szeles, szelés, széles, szelet

A magyar akadémiai rendezés (6) A különírt elemekből álló szókapcsolatokat és az egybeírt vagy kötőjellel kapcsolt összetételeket minden tekintetben olyan szabályok szerint soroljuk betűrendbe, mint az egyszerű szavakat. A szóhatárokat tehát nem vesszük figyelembe. Ugyanez a szabály érvényes a közszavak közé besorolt tulajdonnevekre is. Példa: Kis részben, kissé, Kiss Ernő, kis sorozat, kissorozatgyártás, kis számban, kistányér, kis virág, tiszafa, Tiszahát, Tisza Kálmán, Tisza menti, Tiszántúl, Tisza-part, tiszavirág, tiszt

A magyar akadémiai rendezés (7) A betűrendbe soroláskor a szokásostól némiképp eltérően kezeljük a régies írású magyar családnevekben, valamint az idegen szavakban és tulajdonnevekben előforduló régi magyar, illetőleg idegen betűket. Példa: Czibere, Czuczor, Cházár, Császár, Cselényi

Régies és idegen hangjelölés aa = á: Gaal [e.: gál] ch = cs: Madách [e.: madács] eé = é: Veér [e.: vér] cz = c: Czuczor [e.: cucor] eő = ö: Eötvös [e.: ötvös] s = zs: Jósika [e.: józsika] ew = ö: Thewrewk [e.: török] th = t: Csáth [e.: csát] oó = ó: Soós [e.: sós] ts = cs: Takáts [e.: takács] y = i: Kölcsey [e.: kölcsei] stb. w = v: Wesselényi [e.: veselényi] stb. angol: Greenwich [e.: grinics], joule [e.: dzsúl] cseh: Dvořák [e.: dvorzsák], Škoda [e.: skoda] francia: Eugėne [e.: özsen], Nîmes [e.: nim] német: Schäfer [e.: séfer], Werther [e.: verter] olasz: Bologna [e.: bolonya], quattrocento [e.: kvatrocsentó] portugál: Guimarães [e.: gimarajs], piranha [e.: piránya] román: Tîrgovişte [e.: tirgoviste], piaţa [e.: piaca] szerbhorvát: Đurić [e.: gyúrity], Živogošće [e.: zsivogostye]

Továbbá 1-szer 1 az 1 II. János Pál 10 kérdés a személyi jövedelemadóról 11. Távhő-konferencia XIX. század 88 kérdés az AIDS-ről 8000 germanizmus ABALKIN, L. I. Aczél György ACÉLOK

Nyelvstatisztikai alapok

Betűstatisztikák Hangstatisztikák, betűstatisztikák Titkosírás-megfejtések Morse-ábécé, írógép-billentyűzet A nyelvek tipizálhatók n-gráfjaik alapján (pl. mássalhangzó-torlódással kezdődő szavaink régen egyáltalán nem voltak, és ma is csak bizonyosak vannak) Shannon (1951)

n-gráfok a gyakorlatban Küpfmüller (1954) szöveggenerálása 1-, 2-, 3- és 4-gráfokkal: 1. EME GKNEET ERS TITBL VTZEN 2. AUSZ KEINU WONDINGLIN DUFRN 3. PLANZEUNDGES PHIN INE UNDEN 4. ICH FOLGEMASZIG BIS STEHEN DISPONIN

n-gráfok a magyarban 1. nórmlgenytnaeőettesy sdrúk üze neée issgnis k, őentetnsmrdttca 2. Bégiz érj, ercszépot, ekalfönembenyett kmáb os alőrre 3. Ezenlapoltike lehátszökmég hog, aztradon két. Korcsant ván... 4. Hárone Az a léhez, meg, akarózsák hogy öregész egény látán, járnagyon kérdeket egy emberet. Tordárd sem tan. 5. Senki adsaadott, hogy egy ki tornak, a kapta a mielőtte szor ismerni most vele aótsap a eipővel. - Ó, biztosítás úr csak társallatság vele. Hallj ott 6. Történik. Telt év óta meglátta bevallott kissé lehajtott és mindig légéz erligyúneáenl eltűnt, Megfigyelhető: a 4. után itt nem javul igazán a minőség. Miért?

n-gráfok a magyarban 1. nórmlgenytnaeőettesy sdrúk üze neée issgnis k, őentetnsmrdttca 2. Bégiz érj, ercszépot, ekalfönembenyett kmáb os alőrre 3. Ezenlapoltike lehátszökmég hog, aztradon két. Korcsant ván... 4. Hárone Az a léhez, meg, akarózsák hogy öregész egény látán, járnagyon kérdeket egy emberet. Tordárd sem tan. 5. Senki adsaadott, hogy egy ki tornak, a kapta a mielőtte szor ismerni most vele aótsap a eipővel. - Ó, biztosítás úr csak társallatság vele. Hallj ott 6. Történik. Telt év óta meglátta bevallott kissé lehajtott és mindig légéz erligyúneáenl eltűnt, Megfigyelhető: a 4. után itt nem javul igazán a minőség. Miért? Mert kicsi tanítókorpusz esetén (esetünkben 8 Mbájt) a négyesnél nagyobb csoportok eloszlásának megbízhatósága már nem elegendő.

Magyar betűstatisztika

Zipf-törvény G. K. Zipf az 1930-as években vette észre azt, hogy ha egy szövegben összeszámoljuk az egyes szavak előfordulási gyakoriságát, majd sorba rendezzük a szavakat gyakoriságuk alapján, és ábrázoljuk a gyakoriságot rang szerint (azaz annak a függvényében, hogy hányadik a szó a sorban), akkor egy jó közelítéssel hatványfüggvény szerint lecsengő görbét kapunk, 1-hez közeli kitevővel. A jelenség az emberi nyelvek univerzális tulajdonságának bizonyult, sőt hasonló viselkedést kapunk, ha nem a szavakat, hanem az összefüggő szöveg egymás melletti karakter-neseit (ahol n = 3 8) vizsgáljuk

További statisztikai nyelvtörvények Mandelbrot: összefüggés van a szavak hosszúsága és rangja között, ui. a rövidebb szavak minden nyelvben sokkal nagyobb gyakorisággal fordulnak elő, mint a hosszabbak (rangjuk a hosszal fordítottan arányos) Ismeretes: ha a történelmi fejlődés során egy szó gyakorisága megnő, rendszerint meg is rövidül, aminek következménye: nyelveink legősibb rétegét (pl. a testrészek neveit) szinte kivétel nélkül egytagú, két három fonémából álló szavak alkotják Matematikai igazság, hogy kinek két szótagú neve van, fél annyi kortessel választathatik meg, mint az, kinél négy szótagot kell kiáltani." (Eötvös: A falu jegyzője)

Eyg éredkes jleneség Egy anlgaii etegyem ktuasátai szenirt nem szímát melyin serenrodbn vnanak a bteűk egy szbóan, az etegyeln ftonos dloog, hogy az eslő és az ultosó bteűk a hölyeükn lneegyek. A tböbi bteű lheet tljees összevabisszásagn, mgiés porbléma nlkéül oalvsahtó a szveög. Eennk oka, hogy nem ovalusnk el mniedn bteűt eygenknét, hneam a szót ovlasusk a mgaa eszgébéen.

Szövegek és nyelvek a weben

Az internethasználók létszáma nyelvenként (millió főben) 1999 2002 2005 Beszélők Internetezők angol 85 165 231 500 46% kínai 10 75 220 885 25% japán 20 64 105 125 84% spanyol 13 49 80 332 24% német 14 44 71 98 72% koreai 5 30 50 75 67% francia 10 24 49 72 68% olasz 10 25 42 57 74% portugál 4 20 38 170 22% skandináv* 8 14 15 19 75% holland 6 13 15 20 73% egyéb 6 63 140 3500 4%

A weben található szövegek nyelvei Forrás: Global Reach 2000 2005 5% 8% 8% 9% 8% 52% angol 32% 6% 5% 5% 4% 4% 6% 3% 3% 2% 5% 5% 5% 2% 2% 2% 5% 2% 6% 2% spanyol japán német francia 3% kínai svéd olasz holland koreai portugál egyéb angol angol kínai 5% 3% 21%

Becslések az európai nyelveken írt internetes szövegek lehetséges méretéről

Következmények 1. Az internetes tartalom kétharmada angol 2. Az internethasználók kétharmadának az anyanyelve nem angol 3. 1+2 A nem-angol anyanyelvűek világában a web angol tartalmának egyre nagyobb része jelenik meg 4. 3 Aki a webet olvassa, az növekvő számban nem-angol anyanyelvű; aki pedig a webes tartalmat közzéteszi, az csökkenő részben angol anyanyelvű 5. 4 A nem-anyanyelvűek nagy része nem ismeri fel a nyelvi hibákat és pontatlanságokat (... és mi lesz a statisztikai alapú elemzőprogramokkal?)

A nyelvi feldolgozás szintjei

Nyelvészeti egységek Morfémák: a nyelv legkisebb jelentéssel bíró alkotórészei; nincs természetes határuk Szó: definíciója nincs - fonológiai szó (pl. a mgh-illeszkedéses ház+am, de az összetett szó nem ilyen) - lexikai szó (lexéma) (pl. a számítógépezés, mert az levezethető alkotóelemei jelentéséből) - morfológiai szó (pl. láttam volna) - szintaktikai szó (pl. szép+ség+e+im, de az igekötős ige nem ilyen, mert a szintaxis megváltoztatja az alakját)

Nyelvészeti egységek (2) Szószerkezet, frázis: nincs természetes határuk; egyrészt lexémák, másrészt mondat alatti egységek Megnyilvánulás v. mondat: írásban egyszerűbb (nem nehéz a formális definíció) Szöveg: mondatok sora, melyben az összefüggések túlmutatnak a mondatnyelvtanokon Megkülönböztetendők: type és token

A modellezési probléma A gépi nyelvmodelleknek minél teljesebben kell modellezniük az adott természetes nyelv nyelvtanát Mi az, hogy nyelvtan? Nyelvtani szintek: fonológia (ortográfia), morfológia, szintaxis, szemantika, pragmatika A gépi modelleknek a lehető leghatékonyabb módon lehetővé kell tenniük a konkrét nyelvleírás számítógépes megvalósítását Ez azt jelenti, hogy az eredményül kapott nyelvi elemző/generáló programnak a körülményekhez képest minimális tár- és időigénnyel kell működnie