tanító-, ill. tesztdokumentumok átlagos vektormérete (ritka vektorként) L d, L t



Hasonló dokumentumok
Szövegbányászat. Tikk Domonkos (szerkesztő)

Tárgymutató. χ-négyzet statisztika 57, 160

Információ-visszakeresı módszerek egységes keretrendszere és alkalmazásai. Kiezer Tamás

ACTA CAROLUS ROBERTUS

Kódverifikáció gépi tanulással

Adatbányászati technikák (VISZM185) 2015 tavasz

Szepesvári Csaba ápr. 11

ADATBÁNYÁSZATI SZOFTVER HASZNÁLATA SZÖVEGOSZTÁLYOZÁSHOZ DATA MINING SOFTWARE FOR TEXT CLASSIFICATION

Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.

Visszacsatolt (mély) neurális hálózatok

Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011

Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék. Neurális hálók 2. Pataki Béla

1.BEVEZETÉS. Subecz Zoltán 1. Információkinyerés természetes nyelvű szövegekből

IBM SPSS Modeler 18.2 Újdonságok

Adatbányászati szemelvények MapReduce környezetben

Szinguláris értékek. Wettl Ferenc április 3. Wettl Ferenc Szinguláris értékek április 3. 1 / 28

Principal Component Analysis

Pletykaalapú gépi tanulás teljesen elosztott környezetben

EÖTVÖS LORÁND TUDOMÁNYEGYETEM KLASSZIFIKÁCIÓ AZ ADATBÁNYÁSZATBAN

Klaszterezés, 2. rész

A VEKTORTÉR MODEL HASZNÁLATA A SZÖVEGBÁNYÁSZATBAN THE USAGE OF THE VECTOR-SPACE MODEL IN TEXT MINING

szakmai önéletrajz Bánhalmi András Személyes információk: Végzettségek, képzések: Idegen nyelv: Oktatás:

Webes keres rendszerek. Webtechnológiák. Webes keres rendszerek. Webes keres rendszerek. Répási Tibor egyetemi tanársegéd

Dokumentum osztályozás rejtett Dirichlet-allokációval

Szinguláris értékek. Wettl Ferenc április 12. Wettl Ferenc Szinguláris értékek április / 35

Fodor Gábor március 17. Fodor Gábor Osztályozás március / 39

Standardizálás, transzformációk

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Szinguláris érték felbontás Singular Value Decomposition

Vektortér. A vektortér elemeit vektornak, a test elemeit skalárnak nevezzük. Ezért a függvény neve skalárral való szorzás (nem művelet).

Gépi tanulás a gyakorlatban. Bevezetés

Csima Judit április 9.

Teljesen elosztott adatbányászat alprojekt

Az adatelemzés alapfeladatai

Neurális hálózatok elméleti alapjai TULICS MIKLÓS GÁBRIEL

A DÖNTÉSELMÉLET ELEMEI

Bozóki Sándor. MTA SZTAKI, Budapesti Corvinus Egyetem. Vitaliy Tsyganok

BEKE ANDRÁS, FONETIKAI OSZTÁLY BESZÉDVIZSGÁLATOK GYAKORLATI ALKALMAZÁSA

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

A TANTÁRGY ADATLAPJA

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

KOPI. Fordítási plágiumok keresése MTA SZTAKI DSD. Pataki Máté MSZNY Department of Distributed Systems

Emlékeztető: a fordítás lépései. Szimbólumtábla-kezelés. Információáramlás. Információáramlás. Információáramlás.

Teljesen elosztott adatbányászat pletyka algoritmusokkal. Jelasity Márk Ormándi Róbert, Hegedűs István

IV.7 MÓDSZER KIDOLGOZÁSA FELHASZNÁLÓI ADATOK VÉDELMÉRE MOBIL ALKALMAZÁSOK ESETÉN

Probabilisztikus funkcionális modellek idegrendszeri adatok elemzésére

Debreceni Egyetem Informatikai Kar. Fazekas István. Neurális hálózatok

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Intelligens adatelemzés

Statisztikai alapú tulajdonnév-felismerő magyar nyelvre

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Nagyméretű adathalmazok kezelése Ajánló rendszerek

Blind Source Separation. Kiváltott agyi jelek informatikai feldolgozása

DIPLOMAMUNKA. Szilágyi Attila

Számítógépes Számítógépes Nyelvészet nyelvi nyelvi adatbázisok é s éés használatuk

Doktori (Ph.D.) értekezés tézisei. A magyar nyelv automatikus szintaktikai elemzése szabályalapú gépi tanulási technikák alkalmazásával.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

SEO és szövegírás. Szuhi Attila. ITE.hu ITE.HU

Random Forests - Véletlen erdők

Babeş Bolyai Tudományegyetem, Kolozsvár Matematika és Informatika Kar Magyar Matematika és Informatika Intézet

Mesterséges Intelligencia I. (I602, IB602)

Deep Learning a gyakorlatban Python és LUA alapon Felhasználói viselkedés modellezés

Információk rendszerezése a könyvtárban

Publikációs lista. Gódor Győző július 14. Cikk szerkesztett könyvben Külföldön megjelent idegen nyelvű folyóiratcikk...

Adatbázis-kezelés ODBC driverrel

Nagy adathalmazok labor

Szemantikus Web Semantic Web A szemantikus web alkalmas megközelítés, illetve megfelel nyelvekkel, eszközökkel támogatja az intelligens információs

Szövegbányászat Információ Visszakeresés és egyéb alkalmazások

Szövegbányászat és dokumentum kezelés

A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek

Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására

Lineáris leképezések. Wettl Ferenc március 9. Wettl Ferenc Lineáris leképezések március 9. 1 / 31

Megerősítéses tanulási módszerek és alkalmazásaik

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Ismeretlen kifejezések és a szófaji egyértelm sítés

ICT ÉS BP RENDSZEREK HATÉKONY TELJESÍTMÉNY SZIMULÁCIÓJA DR. MUKA LÁSZLÓ

Kétdimenziós mesterséges festési eljárások. Hatások és alkalmazások

Dodé Réka (ELTE BTK Nyelvtudomány Doktori IskolaAlkalmazott Alknyelvdok 2017 nyelvészet program) február 3. 1 / 17

Kollacionálás elvén alapuló gépi adatviss^anyerés

KOPI. KOPI A fordítási plágiumok keresője MTA SZTAKI DSD. Pataki Máté Kovács László. Department of Distributed Systems

éve fennálló diabétesz esetén 80% DR Tünetek az esetek 90%-ában kezelhetőek (visszafordítható v. stabilizálható) Jelentős betegségteher

Adatbázisok MSc. 12. téma. Ontológia és SPARQL

Drótposta: ; ; Honlapom:

Cluster Analysis. Potyó László

i1400 Image Processing Guide A-61623_zh-tw

PageRank algoritmus Hubs and Authorities. Adatbányászat. Webbányászat PageRank, Hubs and Authorities. Szegedi Tudományegyetem.

R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský

Modellkiválasztás és struktúrák tanulása

Regression games and applications TDK prezentáció

Kollektív tanulás milliós hálózatokban. Jelasity Márk

Lineáris algebra és mátrixok alkalmazása a numerikus analízisben

Web-fejlesztés NGM_IN002_1

20 éves a Térinformatika Tanszék

Hash-alapú keresések

Entity Resolution azonosságfeloldás

Brother eredeti színes nyomtatópatron A megadott oldalkapacitás számítási módja az ISO/IEC24711 szabvány alapján

Lineáris algebra gyakorlat

Gépi tanulás a gyakorlatban. Lineáris regresszió


Átírás:

Jelölésjegyzék Az alábbi táblázat tartalmazza a könyvben használt fontosabb jelöléseket. Amenynyiben ettől eltérünk, azt külön jelezzük. R a valós számok teste N természetes számok halmaza A R N M, a ij N M méretű valós mátrix, ill. i-edik sorának j-edik eleme v = v 1,...,v n R n n elemű (valós) vektor v R 1 n, w R n 1 sorvektor, illetve oszlopvektor (ha hangsúlyozni akarjuk a vektor alakját) u,v u és v vektorok skalárszorzata A A halmaz elemszáma c; c j C kategória; a kategóriarendszer egy eleme c a c kategória kategóriaprofilját megadó vektor C = {c 1,...,c C } kategóriák halmaza cf k a t k szó gyűjteménytámogatottsága d; d i D dokumentum; a dokumentumgyűjtemény egy eleme d a d dokumentum vektorreprezentációja D = {d 1,...,d N } dokumentumgyűjtemény (korpusz) és elemei d(, ) távolságfüggvény df k a t k szó dokumentumgyakorisága a korpuszban l d, l t tanító-, ill. tesztdokumentumok átlagos vektormérete (ritka vektorként) L d, L t tanító-, ill. tesztdokumentumok átlagos hossza (szavak száma) M, N egyedi szavak, ill. dokumentumok száma n k a korpusz t k szót tartalmazó dokumentumainak száma n ki a t k szó előfordulásainak száma d i dokumentumban Neg j a c j kategóriába nem tartozó tanítóadatok Pos j a c j kategóriába tartozó tanítóadatok s(, ) hasonlóságfüggvény S k (d i ) d i -hez legközelebbi k szomszéd halmaza t, t k szó (terminus); a vektortér k-adik dimenziójához 9

10 Jelölésjegyzék Fontosabb szakkifejezések rövidítésekkel magyarul és angolul adaptív szűrés adaptive filtering alulról-felfelé bottom-up alultövezési index under-stemming index UI anaforafeloldás anaphora resolution AR aratórobot harvester átlagos kapcsolódás group-average link balelemző top-down parser csomópont node dokumentumszűrés text filtering dokumentumvezérelt osztályozás document-pivoted categorization DPC döntési fa alapú osztályozó decision tree classifier DT-classifier döntési szabály alapú osztályozó decision rule classifier DR-classifier dzsókerkarakter wildcard egycímkés osztályozás single-label classification egyszerű kapcsolódás single-link eltolás bias erőforrás-leíró keretrendszer resource description framework RDF feldolgozási folyam stream feltételes valószínűségi mező conditional random fields CRF felügyelet nélküli tanulás unsupervised learning felügyelt tanulás supervised learning felülről-lefelé top-down fokozatos tanulás incremental learning fontossági forrás source of rank főkomponens-analízis principal components analysis PCA frázissablon phrasal template gyűjteménytámogatottság collection frequency CF hibavezérelt tanulás mistake driven learning hierarchikus (szöveg)osztályozás hierarchical text categorization HTC információkinyerés information extraction IE információnyereség information gain IG információ-visszakeresés information retrieval IR jellemzőkinyerés term extraction jellemzőkiválasztás term selection jobbelemző bottom-up parser k-átlag k-means kategóriavezérelt osztályozás category-pivoted categorization CPC kereszthivatkozás co-reference kereszthivatkozás-feloldás co-reference resolution

Jelölésjegyzék 11 keresztvalidáció, k-szoros cross-validation, k-fold keret frame kéretlen levelek szűrése spam filtering kifejezéssablon phrasal template kiterjesztett vagy bővített átmenetháló augmented transition network ATN kiválasztási elv selection policy kötegelt tanulás batch learning látens szemantikus indexelés latent semantic indexing LSI legközelebbi szomszéd osztályozó nearest neighbor classifier k-nn (k-nn osztályozó) lineáris legkisebb négyzetek módszere linear least-squares fit LLSF lusta tanuló lazy learner maximum entrópia Markov-modell maximum entropy Markov modell MEMM meredekségi faktor slope factor metszés (döntési fáé) pruning minta alapú osztályozó example-based classifier mintaillesztés pattern matching névelem-felismerés named entity recognition NER nyelő rank sink nyelvközi információkinyerés cross-language information extraction CLIE osztályozó bizottság classifier committee, ensemble classifier öregedési algoritmus aging algorithm összegzéskészítő eljárás text summarization method párhuzamos feldolgozási elv parallelization policy pillanatkép snapshot radiális bázisfüggvény radial basis function RBF rangsoroló eljárás ranking algorithm rejtett Markov-modell hidden Markov model HMM relevancia-visszacsatolás relevance feedback szekvencia alapú modell structured prediction SP szinguláris értékfelbontás singular value decomposition SVD szó-dokumentum mátrix term-document matrix TD matrix szógyakoriság alapú súlyozás (TFsúlyozás) term frequency TF szótövező stemmer szózsákmodell bag of words model

12 Jelölésjegyzék szövegosztályozás text categorization/classification TC szupportvektor gép support vektor machine SVM támogató osztályozás categorization assistance tanítóhalmaz training set teljes kapcsolódás complete-link természetes nyelvek megértése natural language understanding NLU természetes nyelvű adatbázis-interfésbases natural language interfaces to data- NLIDB természetes nyelvű mélyhálókereső-interfész natural language interface to deep NLIDW web searcher terminusfrekvencia és inverz dokumentumfrekvencia term frequency & inverse document tf-idf frequency teszthalmaz test set tisztaság purity többcímkés osztályozás multi-label classification többértelmű szavak egyértelműsítése word sense disambiguation többségi döntés majority voting többszintes osztályozás multi-level classification válaszkereső rendszerek question answering systems QAS udvariassági elv politeness policy ugró pointer skip pointer újralátogatási elv re-visit policy újraparametrizálás re-parametrization űrlap/nyomtatvány form

Jelölésjegyzék 13 Egyéb alkalmazott angol rövidítések, és az esetlegesen kapcsolódó honlapcímek rövidítés jelentés URL ACE Automatic Content Extraction www.itl.nist.gov/iad/ 894.01/tests/ace/ ANSI American National Standards Institute www.ansi.org CART Classification and Regression Trees www.salfordsystems.com/ cart.php CoNLL Conference on Computational Natural ifarm.nl/signll/conll/ Language Learning ETO Egyetemes Tizedes Osztályozás HITEC HIerarchical TExt Categorizer categorizer.tmit.bme.hu ID3 Interactive Dichotomizer 3 IPC Internatial Patent Classification (Nemzetközi Szabadalmi Osztályozás) www.wipo.int/ classifications/ipc/en/ ISO International Organization for Standardization www.iso.org KWIC Key Word in Context MUC Message Understanding Conferences www.itl.nist.gov/iaui/ 894.02/related_projects/ muc/ OPAC Open Public Access Catalog SMART Salton s Magical Automatic Retriever of Text SQL Structured Query Language www.ncb.ernet.in/ education/modules/dbms/ sql99index.html TREC Text REtrieval Conference trec.nist.gov WIPO World Intellectual Property Organization (Nemzetközi Szellemi Tulajdonok Szervezet) www.wipo.int