Szövegbányászat és dokumentum kezelés



Hasonló dokumentumok
Szövegbányászat Információ Visszakeresés és egyéb alkalmazások

MATEMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI

Szövegbányászat és dokumentum kezelés

MATEMATIKA 5 8. ALAPELVEK, CÉLOK


COMENIUS ANGOL-MAGYAR KÉT TANÍTÁSI NYELVŰ ÁLTALÁNOS ISKOLA MATEMATIKA TANMENET

INFORMATIKA Emelt szint

A hierarchikus adatbázis struktúra jellemzői

Matematika tanmenet (A) az HHT-Arany János Tehetségfejleszt Program el készít -gazdagító évfolyama számára

MATEMATIKA I. RÉSZLETES ÉRETTSÉGI VIZSGAKÖVETELMÉNY A) KOMPETENCIÁK

MATEMATIKA TANTERV Bevezetés Összesen: 432 óra Célok és feladatok

MATEMATIKA ÉVFOLYAM

GAZDASÁGI STATISZTIKA

Halmazok. Halmazelméleti lapfogalmak, hatványhalmaz, halmazm veletek, halmazm veletek azonosságai.

INFORMATIKA 1-4. évfolyam

Tanári kézikönyv az Informatika az 1. és 2. évfolyam számára című munkafüzetekhez és a PC Peti oktatóprogramokhoz TANMENETJAVASLAT 2.

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Adóigazgatási szakügyintéző

ÚTMUTATÓ A MÓDSZERTANI SZIGORLAT LETÉTELÉHEZ

XML technikák II Kovács, László

Adatbázisok I. Jánosi-Rancz Katalin Tünde 327A 1-1

Matematikai és matematikai statisztikai alapismeretek

Mesterséges intelligencia 1 előadások

INFORMATIKA EMELT SZINTŰ PRÓBAÉRETTSÉGI

Az előállítási folyamat INPUTOKAT transzformál OUTPUTOKKÁ A transzformációs folyamat típusai: Fizikai természetű ( pl. szerelés, csavarozás, rögzítés

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

Tanmenetjavaslat 5. osztály

Optikai karakterfelismerés

II. év. Adatbázisok és számítógépek programozása

Bevezetés a vonalkódok elméletébe. Melis Zoltán BCS Hungary (C)

Az egyszer keres felületen sz kíthetjük a keresést adott mez re a legördül lista segítségével.

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Analízis 1. (BSc) vizsgakérdések Programtervez informatikus szak tanév 2. félév

Adatbázisok I Adatmodellek komponensei. Adatbázis modellek típusai. Adatbázisrendszer-specifikus tervezés

Az Összetett hálózatok vizsgálata elektronikus tantárgy részletes követeleményrendszere

Sztojka Miroszláv LINEÁRIS ALGEBRA Egyetemi jegyzet Ungvár 2013

Bevezetés a programozásba. 12. Előadás: 8 királynő

A számítógépes termeléstervezés alapjai. Fundamentals of Production Information Engineering. Felsőfokú műszaki végzettség

Ügyvitel ágazat Ügyvitel szakmacsoport Ügyviteli titkár Szakközépiskola 9-12.évfolyam Érettségire épülő szakképzés

Adatbázis-kezelés. Harmadik előadás

Integrált ügyviteli rendszer: Kettős könyvelés modul

INFORMATIKA 5. évfolyam

MATEMATIKA. Tildy Zoltán Általános Iskola és Alapfokú Művészeti Iskola Helyi tanterv 1-4. évfolyam 2013.

A digitális számítás elmélete

Informatika. Célok és feladatok. Helyi tantervünket az OM által kiadott átdolgozott kerettanterv alapján készítettük.

Bánhalmi Árpád * Bakos Viktor ** MIÉRT BUKNAK MEG STATISZTIKÁBÓL A JÓ MATEKOSOK?

FELHASZNÁLÓI LEÍRÁS a DIMSQL Integrált Számviteli Rendszer Készlet moduljának használatához

Helyi tanterv Német nyelvű matematika érettségi előkészítő. 11. évfolyam

MATEMATIKA évfolyam

Az SPC alapjai. Az SPC alapjai SPC Az SPC (Statistic Process Control) módszer. Dr. Illés Balázs

Minden az adatról. Csima Judit február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

A térinformatika t. Az informáci. ciós s rendszerek funkciói. Az adatok vizsgálata

21. szám 124. évfolyam július 3. TARTALOM. Utasítások 48/2009. (VII. 3. MÁV Ért. 21.) VIG számú

1. számú melléklet KÉPZÉSI PROGRAM (2010) Divat- és Stílustervező szakképesítés

BUSZI itemizált feladatok web felülete

Tantárgyi követelmény Szakiskola 9/E évfolyam

CIPŐKÉSZÍTŐ MESTERVIZSGA KÖVETELMÉNYEI

Felkészülést segítő kérdések Gépszerkesztés alapjai tárgyból

Települési szilárd hulladékok vizsgálata. Mintavétel.

INFORMATIKAI ALAPISMERETEK

Bevezetés. Párhuzamos vetítés és tulajdonságai

HELYI TANTERV MATEMATIKA tanításához Szakközépiskola évfolyam

Ismétlődő műveletek elvégzésének automatizálása

KETTŐS KÖNYVELÉS PROGRAM CIVIL SZERVEZETEK RÉSZÉRE

SAKK-LOGIKA 1 4. évfolyam

Széchenyi István Szakképző Iskola

Értelmezési szempontok

PILÓTA NÉLKÜLI REPÜLŐGÉPEK ÚTVONALTERVEZÉSE DIGITÁLIS DOMBORZAT MODELL ALKALMAZÁSÁVAL

GÉPBIZTONSÁG. A gépekre és a munkaeszközökre vonatkozó előírások. Jogszabályok és szabványok. Déri Miklós. munkabiztonsági szakértő

KOVÁCS BÉLA, MATEMATIKA I.

ODR használói elégedettségmérés 2009.

Adatszerkezetek és algoritmusok Geda, Gábor

Programozási módszertan. Dinamikus programozás: Nyomtatási feladat A leghosszabb közös részsorozat

PROGRAMOZÁS 1. kötet TERVEZÉS

TARTALOM AZ INFORMATIKA FOGALMA A fogalom kialakítása Az informatika tárgyköre és fogalma Az informatika kapcsolata egyéb

A számítógép bemutatása

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

Az animáció elve. Animáció. Képkockára ugrás. Képkockák és kockaszám. Megtekintés. Id szalag

117. AA Megoldó Alfréd AA 117.

{simplecaddy code=1005}

hogy a megismert fogalmakat és tételeket változatos területeken használhatjuk Az adatok, táblázatok, grafikonok értelmezésének megismerése nagyban

Dr. Göndöcs Balázs, BME Közlekedésmérnöki Kar. Tárgyszavak: szerelés; javíthatóság; cserélhetőség; karbantartás.

ADFOCS Corpus size for estimates

Egy emelt szintű érettségi feladat kapcsán Ábrahám Gábor, Szeged

Matematikai statisztikai elemzések 2.

Történeti áttekintés

Bannershop GIF Animator 5

JAVÍTÁSI-ÉRTÉKELÉSI ÚTMUTATÓ

MATEMATIKA A és B variáció

,17, MENU TRIPOD TIMER? max. min 7,8,9

XML adatkezelés. 11. témakör. Az XQuery nyelv alapjai. XQuery. XQuery célja egy imperatív lekérdező nyelv biztosítása. XQuery.

4. előadás. Vektorok

Átrendezések és leszámlálások ÚTMUTATÓ Hegedüs Pál június 30.

Tájékoztató és minősítő rendszerek

10. Villamos erőművek és energetikai összehasonlításuk

11. Matematikai statisztika

1. A VILLAMOSENERGIA-TERMELÉS ÉS ÁTVITEL JELENTŐSÉGE

Vezetői információs rendszerek

Számítástudomány matematikai alapjai segédlet táv és levelező

Objektum orientált alapelvek

Átírás:

Szövegbányászat és dokumentum kezelés 1. Szöveg bányászat alapfogalmai Szövegbányászat Szövegbányászat = szöveg + bányászat Rövid történeti áttekintés: 1958 (Luhn): lényeges szavak kiemelése a szövegből 1961 (Doyle): a szavak gyakoriság alapú elemzése 1980: információ kinyerés (IR) explicit megjelenése 1988 (Swanson): szövegbányászat megjelenése 1995: módszerek kiszélesedése 2000: ipari alkalmazások elterjedése, előkészítési módszerek finomodása 2005: szemantika alapú megközelítés erősödése 2010: hatékonyság javulás Felhasználása: - titkosszolgálat - kutatás - törvénykezés - marketing 1

Szövegbányászat Szerkesztés Dokumentum kezelés Természetes nyelvi feldolgozás Publikálás Szövegbányászati módszerek Megjelenítés Adatbányászat Ontológia Statisztika Metaadatok Mesterséges intelligencia Szövegbányászat Szövegbányászat fogalma Módszerek gyűjteménye a nagy mennyiségű szöveges formátumú Információkból a szabályszerűségek, minták feltárására. - cél a releváns, újszerű szabályok feltárása - nagy tanító halmazt igényel - rendszerint statisztikai alapú módszert alkalmaz - fontos a tanító halmaz megfelelő előkészítése - feldolgozási lépések: - megfelelő minta felépítése - dokumentum előfeldolgozás (transzformáció) - elemzések elvégzése it tries to discover or derive new information from the data (text) which was previously unknown (Hearst) 2

Szövegbányászat Szöveg értelmezése Szűkebb értelemben: természetes nyelvi dokumentum (regény, jelentés, levél,..) Tágabb értelemben: karakter sorozat (DNS, jelsorozat,..) A szöveg lehet strukturálatlan és szemi-strukturált A számítógépen tárolt információk döntő többsége ( 80%) strukturálatlan vagy szemi-strukturált dokumentumokban tárolódik PubMed dokumentum-bázis: - orvosi cikkek gyüjteménye - kb. 16 millió cikk - havonta 40000 új dokumentum Az elemzéshez jól kell ismerni a terület fogalmait (domain knowledge) Dokumentumok ábrázolása Cél a tartalmi elemzés A formátum is hordozhat tartalmi elemeket Dokumentum felépítési szintjei: - karakter (kódolás,..) unigram, bigram, n-gram - szó szóalak, alapszó, ragozás - kifejezés szó vagy szólánc - fogalom áttételes, absztrakt Az alapszint statisztikai alapú, a felső ontológia alapú 3

Dokumentumok ábrázolása Dokumentum modellek halmaz Lista Vektor Betű BOL LOL VOL Szó BOW LOW VOW Kifejezés BOT LOT VOT Fogalom BOC LOC VOC CDM: concept document model VS: vector-space model B: bag of L: list of Szövegbányászat A dokumentum feldolgozás tipikus műveleti: - fogalmak csatolt előfordulásainak megkeresése - fogalmak előfordulási gyakoriságai - fogalmak relevanciái - mintakeresés - kapott szabályok megjelenítése - trend elemezés - véleményelemzés - kivonatolás - eltérés kiemelés - hasonlóság mérése - fogalmak társítása - szótár készítés 4

Szövegfeldolgozó rendszerek architektúrája Modulok: - Előfeldolgozó - Alapműveletek - Megjelenítés - Visszacsatolás Előfeldolgozó: - konvertálás - tisztítás - redukálás Adatstruktúrák: - dokumentum forráskészlet - transzformált dokumentumok - indexek - szótárak - metaadatok (nyelv,..,) Megjelenítés: - GUI - 3D - lényegkiemelés Alapműveletek: - klaszterezés - osztályozás - mintakeresés Visszacsatolás: - módszer értékelése - paraméter korrekció - iteráció Szövegfeldolgozó rendszerek architektúrája séma adatbázisok dokumentum e-mail Dokumentumok begyűjtése Dokumentumok előfeldolgozása Dokumentumok archiválása szöveg Iteratív dialógus kezelés Dokumentumok lekérdezése Feldolgozó alap algoritmusok felhasználó Külső adatbázisok 5

A szöveg feldolgozási eljárások célja: hatékony információ lekérdezés, keresés Különböző szintű lekérdezések: Kérdés1: Keressük azon dokumentumokat, amelyben szerepel a labda szó, de nem szerepel a gól szó Kérdés2: Keressük azon dokumentumokat, amelyben szerepel a labda szó valamely alakja Kérdés3: Keressük azon dokumentumokat, amelyben együtt szerepel a labda és a gyártás szó Kérdés4: Keressük azon dokumentumokat, amely a fociról szól Kérdés5: Keressük azon dokumentumokat, amelyek hasznosak lehetnek a futbalistáknak Egység karakter n-gram szó kifejezés fogalom Szövegbányászat statisztika szemantika Lekérdezés egzakt pozíció alapú közelítő fogalmi Módszer mintakeresés klaszterezés osztályozás értelmezés kivonatolás 6

Term dokument mátrix (BOW) Hatékony indexelésre van szükség Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 0 0 0 1 Brutus 0 1 0 0 Caesar 0 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 worser 1 0 1 0 Megfelel egy bitmap indexnek Nagy tanító mintáknál kezelhetetlenné válhat - Csak az értékes adatok maradnak meg - Láncolt listás megoldás - pointerek tárolása extra helyigény Brutus Calpurnia Caesar Dictionary 2 4 8 16 32 64 128 1 2 3 5 8 13 21 34 13 16 Postings 7

Dokumentum készlet Friends, Romans, countrymen. Tokenizer Szöveg tokenizálás Tokenek normalizálása. Invertált index Linguistic modules Indexer Friends Romans Countrymen friend roman countryman friend roman countryman 2 4 1 2 13 16 Szövegből a kifejezések kigyűjtése : (term:document) Az kapott lista rendezése kifejezés szerint A kifejezések gyakoriság meghatározása 8

Term Doc # Freq ambitious be brutus brutus capitol caesar caesar 2 2 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the the told you was was with Term N docs Tot Freq ambitious be brutus 2 2 capitol caesar 2 3 did enact hath I 1 2 i' it julius killed 1 2 let me noble so the 2 2 told you was 2 2 with Doc # Freq 2 2 1 2 1 2 Az invertált lista alkalmazható összetett keresések meggyorsítására Kérdés: Keressük azon dokumentumokat, amelyben szerepel a labda szó és szerepel a gól szó 2 8 2 4 8 16 32 64 128 1 2 3 5 8 13 21 34 labda gól A két lista metszetét vesszük Műveletek megfeleltetése: A AND B List (A) metszet List(B) A OR B List (A) union List(B) NOT A komplemens List (A) 9

Összetett feltételek hatékonysági kérdései A AND B AND C AND D A megadott listák metszetét kell képezni. A sorrend meghatározza a költséget A legkisebb hosszúságú listával kell kezdeni Brutus Calpurnia Caesar 2 4 8 16 32 64 128 1 2 3 5 8 13 21 34 13 16 A javasolt sorrend: (Ceasar AND Brutus) AND Calpurnia Összetett feltételek hatékonysági kérdései Az OR művelet költsége - minden tagra a méret meghatározása (gyakoriság) - OR műveletnél a méretek összegét vesszük (tangerine OR trees) AND (marmalade OR skies) AND (kaleidoscope OR eyes) Term Freq eyes 213312 kaleidoscope 87009 marmalade 107913 skies 271658 tangerine 46653 trees 316812 10

Költség jellemzők: N: dokumentum db, M: szó db, L: dokumentum hossz, w: szóhossz, (M > L) Hely: dokumentumok: N*L*w index: M * (N* (L/ M))*w = N*L*w (25%) Idő: Keresés: N*L / M Metszet : 2 * N*L / M Amit nem támogat az alap invertált index: - kifejezések (szóláncok) keresése - pozíció alapú keresés - közelítő keresés - találatok rangsorolása A AND B*C 11

Hatékonyság javítása A szomszédokra lépés helyett nagyobb ugrás a keresénél 16 128 2 4 8 16 32 64 128 8 31 1 2 3 5 8 17 21 31 Skip-lista alkalmazása Skip lista előnye: Ha a szomszéd értéke nagyobb mint a távoli ugráshely értéke, akkor lehet ugorni. Hátránya: plussz vizsgálat + plussz helyköltség (pointer) 16 128 2 4 8 16 32 64 128 8 31 1 2 3 5 8 17 21 31 K listahossz esetén sqrt(k) hosszú ugrés 12

Kifejezésekre történő indexelés: az indexbe szópárok is kerülnek (szomszédos szavak) Tetszőleges szólánc felbontható szópárokra A kifejezés tangerine trees and marmalade skies felbontható az alábbi részekre tangerine trees AND trees and marmalade AND marmalade skies Nem elég rugalmas, költséges L L 2 Pozíciót is tároló indexelés A dokumentumhoz az előfordulási pozíciók is megadásra kerülnek <be: 993427; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367, > Megnövekedett költség (55%-az alap dokumentumnak) Alkalmas közelség alapú keresésre, sorrend alapú keresésre 13

Gyakorlati feladatok F1 : Készítsen gyakoriság számláló algoritmusokat: a: karakter gyakoriság b: 2-gram gyakoriság c: szó gyakoriság (j2am.zip) (00598doc.zip) F2: rajzolja fel a gyakoriság hisztogramot hasonlítsa össze az egyes nyelveket F3 : készítsen invertált index struktúrát a: index felépítése b: AND, OR alapú keresés F4 : készítsen invertált pozíció tároló index struktúrát a: index felépítése b: közelség alapú keresés Tokenizálás Értelmezési problémák: Finland s capital Finland? Finlands? Finland s? Hewlett-Packard Hewlett és Packard két token? San Francisco: egy vagy két token? Hogy lehet eldönteni? Japán, kínai nyelvekben nincs szóköz Az értékek alakjai, formátumai nemzet-függőek (12.11) Egy szó jelentése nyelvfüggő Hangzás alapú hibák kezelése Célszerű a szótövekre bontani a szöveget 14

Szótőkeresés Nyelvfüggő Angol: egyszerűbb szabályok Porter algoritmusa: fix átalakítások rendszere sses ss ies i ational ate tional tion http://facweb.cs.depaul.edu/mobasher/classes/csc575/porter.html Porter_stemer.txt 15