Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41

Hasonló dokumentumok

Adatbányászati technikák (VISZM185) 2015 tavasz

Paraméteres-, összesítı- és módosító lekérdezések

ELEMI BÁZISTRANSZFORMÁCIÓ LÉPÉSEI 2.NEHEZÍTETT VÁLTOZAT 2.a) Paramétert nem tartalmazó eset

Statisztika gyakorlat

Klaszterezés, 2. rész

A két csapatra osztás leggyakoribb megvalósításai: Lyukas teli (vagy sima vagy nem lyukas)

GAZDASÁGI STATISZTIKA

Ismétlődő műveletek elvégzésének automatizálása

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás Döntési fák [Concepts Chapter 11]

Matematikai statisztikai elemzések 2.

Cluster Analysis. Potyó László

Általános statisztika II. Kriszt, Éva Varga, Edit Kenyeres, Erika Korpás, Attiláné Csernyák, László

Bevezető Mi a statisztika? Mérés Feldolgozás Adatok rendezése Adatok jellemzése Időbeli elemzés Feladatok. Statisztika I.

Sztojka Miroszláv LINEÁRIS ALGEBRA Egyetemi jegyzet Ungvár 2013

KOVÁCS BÉLA, MATEMATIKA I.

DIÁKIGAZOLVÁNY. Felhasználói dokumentáció verzió 3.7. Budapest, 2015.

Érdekes informatika feladatok

S a t ti a s ti z s ti z k ti a k i a i soka k s a ág Megfigyelési egység Statisztikai ismérv

II. év. Adatbázisok és számítógépek programozása

Egyetemi Számítóközpont

8. előadás EGYÉNI KERESLET

GAZDASÁGMATEMATIKA KÖZÉPHALADÓ SZINTEN

Add meg az összeadásban szereplő számok elnevezéseit!

Mesterséges Intelligencia I. (I602, IB602)

Mátrixok február Feladat: Legyen ( ( B = A =

MATEMATIKA C 8. évfolyam 10. modul ÁTLAGOS?

A hierarchikus adatbázis struktúra jellemzői

Számelméleti feladatok az általános iskolai versenyek tükrében dr. Pintér Ferenc, Nagykanizsa

Tantárgyi útmutató. 1. A tantárgy helye a szaki hálóban. 2. A tantárgyi program általános célja. Statisztika 1.

Háztartás-formálódás a MIDAS modellben

Előfeldolgozás, exploratory analysis

Integrált ügyviteli rendszer: Kettős könyvelés modul

Lineáris programozás. Modellalkotás Grafikus megoldás Feladattípusok Szimplex módszer

5. modul - Adatbázis-kezelés

Önálló laboratórium beszámoló

MATEMATIKA évfolyam

Kisvállalkozások könyvelése. Infotéka Kft. programjaival

Bináris keres fák kiegyensúlyozásai. Egyed Boglárka

Matematikai statisztikai elemzések 1.

Elıírt lépésszámú ciklusok

KETTŐS KÖNYVELÉS PROGRAM CIVIL SZERVEZETEK RÉSZÉRE

Destour Outdoor 2.0 felhasználói kézikönyv

FELCSÚTI KÖZÖS ÖNKORMÁNYZATI HIVATAL

Matematika III. 8. A szórás és a szóródás egyéb mérőszámai Prof. Dr. Závoti, József

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

1 Rendszer alapok. 1.1 Alapfogalmak

Az SPC alapjai. Az SPC alapjai SPC Az SPC (Statistic Process Control) módszer. Dr. Illés Balázs

EÖTVÖS LORÁND TUDOMÁNYEGYETEM KLASSZIFIKÁCIÓ AZ ADATBÁNYÁSZATBAN

Dinamikus routing - alapismeretek -

Standardizálás, transzformációk

Szakdolgozat GYIK. Mi az a vázlat?

Adatbiztonság, Adatvédelem Dr. Leitold, Ferenc

Félévi időbeosztás (nagyjából) házi feladat beadási határidőkkel (pontosan) Valószínűségszámítás 2. matematikusoknak és fizikusoknak, 2009 tavasz

Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

Versenykiírás, Szervezeti Leírás

Vényírás. 1. ábra. 1. oldal

Csima Judit április 9.

Tartalomjegyzék. Typotex Kiadó III. Tartalomjegyzék

FOLYTONOS TESTEK. Folyadékok sztatikája. Térfogati erők, nyomás. Hidrosztatikai nyomás szeptember 19.

2) = 0 ahol x 1 és x 2 az ax 2 + bx + c = 0 ( a,b, c R és a 0 )

Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba

MATEMATIKA A és B variáció

Matematikai és matematikai statisztikai alapismeretek

Alkalmazott modul: Programozás

Ifjúsági, Családügyi, Szociális és Esélyegyenlőségi Minisztérium

Keresztmetszeti megmunkálás egyengető-, vastagoló-, és kombinált gyalugépekkel

OBJEKTUMORIENTÁLT TERVEZÉS ESETTANULMÁNYOK. 2.1 A feladat

EMLÉKEZTETŐ. Az OKA tizenkettedik üléséről (2007. szeptember :00, SZMM, Tükörterem)

A könyv tartalomjegyzéke

Vízteres, vízbetétes és társai

Óravázlat. az ECDL oktatócsomaghoz. 5. modul. Adatbáziskezelés. Krea Kft Budapest, Szőlő u 21. Tel/fax: / krea@krea.

ADATBÁZIS-KEZELÉS ALAPOK I.

1. Számoljuk meg egy számokat tartalmazó mátrixban a nulla elemeket!

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 6. MA3-6 modul. A statisztika alapfogalmai

Háromszögcsaládok Síkbeli és térbeli alakzatok 5. feladatcsomag

MATEMATIKA TANTERV Bevezetés Összesen: 432 óra Célok és feladatok

Jegyzıkönyv. Napirend: Készült Tatárszentgyörgy Község Képviselı-testülete május 27-én tartott ülésérıl.

Adatbázis használat I. 5. gyakorlat

4. előadás. Vektorok

KIEGÉSZÍTŽ FELADATOK. Készlet Bud. Kap. Pápa Sopr. Veszp. Kecsk Pécs Szomb Igény

end function Az A vektorban elõforduló legnagyobb és legkisebb értékek indexeinek különbségét.. (1.5 pont) Ha üres a vektor, akkor 0-t..

Számlakészítés a SPRINT programmal

MATEMATIKA I. RÉSZLETES ÉRETTSÉGI VIZSGAKÖVETELMÉNY A) KOMPETENCIÁK

JOGSZABÁLY. LI. ÉVFOLYAM, 15. SZÁM Ára: 693 Ft JÚNIUS 5. TARTALOM. 1. (1) A rendelet hatálya fenntartótól függetlenül

Számlázás-házipénztár. (SZAMLA) verzió. Kezelési leírás

MATEMATIKA ÉRETTSÉGI VIZSGA ÁLTALÁNOS KÖVETELMÉNYEI

matematikai statisztika október 24.

Ittfoglalomösszea legfontosabbtudnivalókat, részleteka honlapon, illetvea gyakorlatvezetőtől is kaptok információkat.

Újdonságok. Release 2

Lemezkezelés, állományrendszerek

Szállodák, éttermek és vendéglátóhelyek dolgozóinak védelme

A RENDHEZ CSAKIS A KÁOSZON ÁT VEZET ÚT!

A TÁRKI ADATFELVÉTELEINEK DOKUMENTUMAI. Háztartás Monitor. A kutatás dokumentációja

Novák Nándor. Készletezés. A követelménymodul megnevezése: A logisztikai ügyintéző speciális feladatai

Nyugat-magyarországi Egyetem Geoinformatikai Kara. Prof. Dr. Závoti József. Matematika III. 7. MA3-7 modul. Helyzetmutatók, átlagok, kvantilisek

Több mint egy változót jegyzünk fel a megfigyelési egységekről (objektumok).

Adatbázisok* tulajdonságai

Rendelkezésre állás Magas szintű rendelkezésre állás bemutatása

FIATAL MŰSZAKIAK TUDOMÁNYOS ÜLÉSSZAKA

Mesterséges intelligencia 1 előadások

Átírás:

Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41

Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt hordoz és amiből valamilyen összefüggéseket akarunk kinyerni leggyakrabban úgy gondolunk az adathalmazra, mint egy tábázatra (data frame) sorok (rekordok): az egyes megfigyelések, emberek, esetek oszlopok az attribútumok, ezek azok a jellemzők, amik valamilyen értéket felvesznek minden egyes sorban egy esetet jellemeznek a sorának az attribútum-értékei lehet az adat eredendőan másféle is, de arra törekszünk, hogy ilyen alakra hozzuk Csima Judit Minden az adatról 2 / 41

Adat: alapfogalmak Nyers adat (raw data) ahogy az adatot kapjuk, eredeti állapotában így nem lehet vele dolgozni, előfeldolgozás (preprocessing ) szükséges data munging: az adatok elfogadható, feldolgozható formára hozása, nincs mindig bevált recept, sok idő de csak egyszer kell megcsinálni Csima Judit Minden az adatról 3 / 41

Adat: alapfogalmak Feldolgozott adat (processed data) feldolgozásra alkalmas állapotba hozott adat sok lépésből állhat az előfeldolgozás (erről később részletesen) nagyon fontos, hogy az előfeldolgozás is dokumentáltan történjen (honnan töltöttem le az adatot, mit csináltam vele, használt kódok is) Csima Judit Minden az adatról 4 / 41

Adat: alapfogalmak Tidy data (szép, tiszta adat) Ez a minimumkövetelmény: egy táblában (egy sorhalmazban) azonos típusú sorok legyenek csak: pl. csak kórházak statisztikái vagy csak egyes emberekre vonatkozó sorok egy sor egy esetnek feleljen meg (pl. egy kórház vagy egy ember, egy eset) egy oszlop egy változónak feleljen meg, konzisztensen Csima Judit Minden az adatról 5 / 41

Adat: alapfogalmak További elvárások Jó lenne tudni, hogy melyik oszlop milyen típusú adatot tartalmaz: attribútum fajtája, jelentése vannak-e hiányzó értékek vannak-e kilógó értékek (outlier) attribútum-értékek eloszlása milyen az egyes oszlopokon belül: át kell-e skálázni valamit van-e redundancia, azaz vannak-e azonos információt hordozó oszlopok Ennek eléréséhez mindenféle technikák, erről majd az adatelemzés felépítésénél beszélünk részletesebben (data munging) Csima Judit Minden az adatról 6 / 41

Adat: alapfogalmak Attribútumok típusai: egy lehetséges felosztás folytonos: valós értékeket vesz fel (de néha azt is folytonosnak hívjuk, amikor megszámlálhatóan végtelen lehetséges érték van) pl. hőmérséklet, magasság, testsúly diszkrét: véges sok (vagy megszámlálhatóan végtelen sok érték) pl. irányítószám, életkor, nem, darabszám gyakran egész számokkal reprezentált, néha címkékkel (label) bináris: speciális diszkrét attribútum: 0 és 1 a lehetséges értékek gyakran asszimmetrikus jelentésű: a 0 azt jelenti, hogy valami nincs, nem igaz gyakran ritka adatmátrixokban szerepel: nagyon sok a 0 (például dokumnetum-szó mátrixok) speciális kezelés lehet néha szükséges Csima Judit Minden az adatról 7 / 41

Adat: alapfogalmak Attribútumok típusai: egy (hasonló) felosztás kvalitatív attribútumok (categorical attribute) címkék, például személy neme, családi állapota, kapott terápia, túlsúlyos-e? értelmes műveletek: gyakoriságok (hisztogramon ábrázolva) jó, hasznos, ha az attribútumok értékei kifejezőek (pl. férfi-nő és nem 1-2) R-ben ennek a factor típusú változók felelnek meg kvantitatív attribútumok életkor, testsúly, testmagasság, BMI index értelmes műveletek: medián, percentilisek, esetleg átlag, szórás kérdés, hogy csak a sorrend számít vagy a különbség illetve az arány is értelmes, pl. 20 C az nem kétszer olyan meleg, mint 10 C Csima Judit Minden az adatról 8 / 41

Adat: alapfogalmak Attribútumok felosztása: még egy felosztás Rekord típusú adatokból álló táblázat, mátrix számokból álló m soros, n oszlopos táblázat gyakran az n dimenziós tér pontjainak tekintjük a sorokat speciális eset: dokumentum-szó mátrix sorok a dokumentumok, oszlopok a kulcsszavak bináris attribútum mutatja, hogy szerepel-e az adott szó vagy diszkrét attribútum mutatja az előfordulás darabszámát általában rengeteg oszlop van, nagy a dimenzió speciális eset még: tranzakciós adatokból származtatott adatmátrix: eredetileg halmazok, de könnyen átalakítható a dokumentum-szó mátrixhoz hasonlóan Csima Judit Minden az adatról 9 / 41

Adat: alapfogalmak Attribútumok felosztása: még egy felosztás Nem rekord típusú adathalmaz, ilyeneket általában addig alakítjuk, amíg rekord típusúak lesznek grafikus adatok: molekulák közötti kapcsolatok: ki kivel kapcsolódik, kötések szögei képek: pixelsorozatra fordítható le vagy valami származtatott feature-lista alapján kap számszerűsíthető attribútumokat minden kép térbeli és/vagy időbeli kapcsolat is van a sorok között: pl. adott pillanatban meteorológiai mérések több helyen (ábrázolásnál jó ennek tudatában lenni) Csima Judit Minden az adatról 10 / 41

Adatminőség Adatminőséggel kapcsolatos kérdések Mik a lehetséges problémák az adattal? Hogy vesszük észre ezeket? Hogyan kezeljük a megtalált hibákat? Csima Judit Minden az adatról 11 / 41

Adatminőség Mik a lehetséges problémák az adattal? mérési hibák inkonzisztencia, pl. az adathalmaz egyik felében km, a másikban m-ben vannak az adatok hiányzó adatok duplikátumok: feleslegesen ismétlődő sorok, nem mindig teljesen egyformák, pl. adatbázisban ugyanaz az ember több hasonló lakcímmel furcsa, nehezen hihető adatok (mindenki túlsúlyos az adatbázis szerint vagy minden lakásban 100-nál több szoba van) outlier-ek: kilógó, furcsa. másmilyen sorok vagy attribútumértékek (lehet, hogy baj, lehet, hogy nem) Csima Judit Minden az adatról 12 / 41

Adatminőség Hogy vesszük észre ezeket? ez az előfeldolgozás és az exploratory elemzés része grafikus ábrázolás: eloszlások, hisztogramok összegző függvények futtatása az adatokra (mean, median, percentilisek, R-ben summary) Csima Judit Minden az adatról 13 / 41

Adatminőség Hogyan kezeljük a megtalált hibákat? az mindig jó, ha legalább tudjuk, hogy mivel állunk szemben van amivel nem lehet sokat tenni (pl. mérési hiba), de legalább tudatában vagyunk annak, hogy volt ilyen amúgy meg adattisztítás, erről később részletesen hiányzó értékek: lehet, hogy nem baj (nem minden sorban értelmes az adott attribútum) megoldás lehet az adott érték pótlása vagy a sor törlése az is lehet, hogy elég, ha tudunk a jelenségről duplikátumok: észrevenni őket és azonosítani a közel azonosakat (néha csak ezt a részt hívjuk adattisztításnak) outlier: lehet, hogy el kell hagyni, de lehet, hogy épp az ilyeneket akarom megtalálni Csima Judit Minden az adatról 14 / 41

Hasonlóság, különbözőség Sokszor fontos lehet annak mérése, számszerűsítése, hogy két sor (két pont) mennyire hasonĺıt Legfontosabb ilyen helyzet a klaszterezés, amikor a hasonlóakat akarjuk egybe gyűjteni A hasonlóság illetve különbözőség mérésére többféle lehetséges függvény van A használt függvény mindenképpen függ attól, hogy milyen típusú attribútumokból áll a sor (folytonos vagy sem illetve kvalitatív vagy kvantitatív) Alapmegközeĺıtés, hogy oszloponként (mezőnként) definiáljuk a távolságot és aztán a sorok távolsága ezekből adódik (erről később) Először azt kell tisztázni, hogy egy oszolopon belül mit jelent két érték távolsága Csima Judit Minden az adatról 15 / 41

Hasonlóság jellemzői (similarity) Azt méri, hogy ennyire hasonlóak, egyformák Minél nagyobb a szám, annál hasonlóbbak Szimmetrikus, azaz p és q hasonlósága ugyanaz, mint q és p hasonlósága Általában [0, 1] közötti értékek (ritkábban [0, ] közötti értékeket vesz fel Csima Judit Minden az adatról 16 / 41

Különbözőség (dissimilarity) Azt méri, hogy mennyire különböznek Minél kisebb az érték, annál egyformábbak Általában a 0 jelentése az, hogy egyformák Szimmetrikus, azaz p és q különbözősége ugyanaz, mint q és p különbözősége Csima Judit Minden az adatról 17 / 41

Mikor mit használunk? Kategorikus attribútumoknál hasonlóság: 1, ha egyformák és 0, ha nem egyformák különbözőség pont fordítva: 0, ha egyformák és 1, ha nem egyformák ha a címkék által kódolt dolgok között van valami csoportosítás, akkor lehet nem bináris is a függvény: aminosav szekveciák összevetésénél nem csak az számít, hogy egyformák-e, mert vannak nem egyforma, de hasonló aminosavak (hidrofób versus hidrofil, alakjuk, stb.) bioinformatikában rengeteg féle pontozómátrix van: egyforma aminosavakra az érték 0, különben meg minél különbözőbbek, annál nagyobb Csima Judit Minden az adatról 18 / 41

Mikor mit használunk? Ha az értékek egy adott intervallumból kerülhetnek ki Ha a lehetséges értékek 1, 2,..., n: különbözőség: p és q különbözősége p q n 1 ez 0 és 1 közé lövi be a különbözőséget 0, ha megegyeznek hasonlóság: p és q hasonlósága 1 p q n 1 ez 0 és 1 közé lövi be a hasonlóságot 1, ha megegyeznek Csima Judit Minden az adatról 19 / 41

Mikor mit használunk? Ha az értékek nem egy véges intervallumból valók különbözőség: p és q különbözősége d(p, q) = p q ez 0 és közé lövi be a különbözőséget 0, ha megegyeznek hasonlóság: sokféleképp származtatható a fenti különbözőségből hasonlóság ellentett, azaz -d(p,q): és 0 közötti értékeket vesz fel 1 1+d : 0 és 1 közötti értékek Csima Judit Minden az adatról 20 / 41

Több azonos típusú attribútummal rendelkező sor összehasonĺıtása Oszloponként képezzük a távolságot Aztán: vagy összegezzük az oszloponkénti távolságokat vagy az összeget elosztjuk az oszlopszámmal vagy súlyozott összeget számolunk (és utána osztunk az oszlopszámmal) oszloponkénti távolságképzés előtte szükség lehet átskálázásra (standardizálás): azonos nagyságrendűek legyenek az attribútumok értékei (szobaszám versus négyzetméter) Csima Judit Minden az adatról 21 / 41

Távolság fogalma Leggyakrabban egy speciális alakú különbözőség-fogalommal dolgozunk, ennek neve távolság. Jellemzői: d(p, q) 0 mindig igaz és d(p, q) = 0 csak akkor, ha p = q (reflexivitás) d(p, q) = d(q, p) (szimmetria) d(p, q) d(p, r) + d(r, q) minden p, q, r esetén (háromszög egyenlőtlenség) Más néven: metrika. Csima Judit Minden az adatról 22 / 41

Euklideszi távolság Leggyakrabban ezt használjuk, ha a sorok értelmezhetők n-dimenziós térben levő pontokként p = (p 1,..., p n ) és q = (q 1,..., q n ) két pont a térben n d(p, q) = (p k q k ) 2 k=1 itt is kellhet előbb a standardizálás: p mean(p), azaz kivonjuk az átlagot és osztunk a szórással vagy sd(p) p min(p) max(p) min(p) Csima Judit Minden az adatról 23 / 41

Euclidean Distance 3 2 p1 p3 p4 1 p2 0 0 1 2 3 4 5 6 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 Distance Matrix Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 50 Csima Judit Minden az adatról 24 / 41

Minkowski távolság, L r távolság Euklideszi távolság álatalánosítása p = (p 1,..., p n ) és q = (q 1,..., q n ) most is két pont a térben van egy paramétere, r, ez valami 1, 2,... egész szám n d(p, q) = r p k q k r k=1 r = 2 az Euklideszi távolság itt is kellhet előbb a standardizálás (minél nagyobb az r, annál inkább) ez minden r egész szám esetén metrika Csima Judit Minden az adatról 25 / 41

Minkowski távolság, speciális esetek r = 1: Manhattan távolság L 1 távolsága (1, 2) és (7, 0)-nak 8, ennyi blokkra/sarokra vannak egymástól r = 2 az Euklideszi távolság van olyan is, hogy r =, ez az L, néha hívják L max -nak is r egyik definíció: d(p, q) = lim n p k q k r r ami ugyanaz, mint d(p, q) = ez is metrika k=1 max p k q k k {1,2,...,n} Csima Judit Minden az adatról 26 / 41

Minkowski Distance point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0 L2 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 L p1 p2 p3 p4 p1 0 2 3 5 p2 2 0 1 3 p3 3 1 0 2 p4 5 3 2 0 Distance Matrix Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 53 Csima Judit Minden az adatról 27 / 41

Mahalanobis távolság az L r távolságok nem veszik figyelembe, hogy az adatmátrix oszlopai nem feltétlenül függetlenek szélsőséges esetben lehet két azonos oszlop, ennek eltérése így duplán számít erre megoldás lehet az, ha a mátrixot átalakítjuk az elemzés lőtt, új változók bevezetésével vagy a régiek közül néhány elhagyásával (erről később részletesen lesz szó) vagy megoldás az, ha olyan távolságfogalmat használunk, ami ellensúlyozza az oszlopok korreláltságából adódó torzítást Csima Judit Minden az adatról 28 / 41

Mahalanobis Distance 1 mahalanobi s( p, q) ( p q) ( p q) T is the covariance matrix of the input data X 1 n j, k ( X ij X j )( X ik X k ) n 1 i 1 For red points, the Euclidean distance is 14.7, Mahalanobis distance is 6. Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 54 Csima Judit Minden az adatról 29 / 41

Mahalanobis Distance C Covariance Matrix: 0.3 0.2 0.2 0.3 B A A: (0.5, 0.5) B: (0, 1) C: (1.5, 1.5) Mahal(A,B) = 5 Mahal(A,C) = 4 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 55 Csima Judit Minden az adatról 30 / 41

Bináris vektorok hasonlósága ha binárisak az adatok, akkor nagyon gyakran ritka adatmátrixról van szó: szinte minden bejegyzés 0 (dokumentum-szó mátrix, tranzakciós mátrix) ebben az esetben az eddigi távolságfogalmak nem informatívak: szinte mindenki egyformának látszik kéne valami speciálisabb távolság ezekre az esetekre p és q most is n hosszú vektorok, de minden komponens értéke 0 vagy 1 itt hasonlóságok vannak (azaz minél nagyobb az érték, annál egyformábbak) Csima Judit Minden az adatról 31 / 41

Simple matching coefficient (SMC) M 01 = hány helyen van p-ben 0 és q-ban 1 M 10 = hány helyen van p-ben 1 és q-ban 0 M 00 = hány helyen van p-ben és q-ban is 0 M 11 = hány helyen van p-ben és q-ban is 1 (M 00 + M 11 ) SMC = (M 00 + M 11 + M 01 + M 10 ) SMC tehát = ahol egyeznek osztva az attribútumok számával SMC tehát = ahol egyeznek osztva az attribútumok számával ez lényegében az L 1 távolságnak megfelelő hasonlóság Csima Judit Minden az adatról 32 / 41

Jaccard együttható SMC nem jól mér, ha ritka az adatmátrix mert nagyon befolyásolja a SMC szerinti hasonlóságot ha sok közös nulla van (pl. sok olyan szó, ami egyik dokumentumban sincs benne) megoldás: a közös nullák ne számítsanak: Jaccard együttható (M 11 ) Jaccard = (M 11 + M 01 + M 10 ) hány közös előfordulás van a valahol előforduló szavak számához képest Csima Judit Minden az adatról 33 / 41

SMC versus Jaccard: Example p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1 M 01 = 2 (the number of attributes where pwas 0 and qwas 1) M 10 = 1 (the number of attributes where pwas 1 and qwas 0) M 00 = 7 (the number of attributes where pwas 0 and qwas 0) M 11 = 0 (the number of attributes where pwas 1 and qwas 1) SMC = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) = (0+7) / (2+1+0+7) = 0.7 J = (M 11 ) / (M 01 + M 10 + M 11 ) = 0 / (2 + 1 + 0) = 0 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 59 Csima Judit Minden az adatról 34 / 41

Cosine hasonlóság dokumentum-szó mátrix esetén hasznos, ha a mátrix gyakoriságokat tartalmaz (nem bináris, hanem azt mutatja, hogy hányszor szerepelt egy kulcsszó) p és q két azonos hosszúságú, egész számokból álló vektor (továbbra is igaz, hogy sok bennük a nulla) cos(p, q) = p q p q azaz skalárisan összeszorozzuk a két vektort és osztunk a hosszuk szorzatával ismert közeépiskolából, hogy ez a síkon a két vektor szögének a cosinus-a hasonló igaz több dimenzióban is Csima Judit Minden az adatról 35 / 41

Cosine Similarity If d 1 and d 2 are two document vectors, then cos( d 1, d 2 ) = (d 1 d 2 ) / d 1 d 2, where indicates vector dot product and d is the length of vector d. Example: d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 0 0 0 1 0 2 d 1 d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481 d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d 1, d 2 ) =.3150 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 60 Csima Judit Minden az adatról 36 / 41

Különböző fajta attribútumokat sorok összehasonĺıtása az eddigi módszerek akkor jók, ha az összehasonĺıtandó vektorok azonos típusú értékeket tartalmaznak minden oszlopban ha nem így van: csoportosítsuk össze az egyformákat: binárisak, kategorikusak, folytonosak, stb. számoljuk ki az egyes csoportokra a hasonlóságot vagy távolságot arra figyeljünk, hogy azonos típusú dolgot számoljunk mindenhol (vagy távolság vagy hasonlóság) valahogyan (esetleg súlyozva az egyes részek nagysága vagy értéke szerint) eredő távolságot vagy hasonlóságot definiálunk Csima Judit Minden az adatról 37 / 41

Súlyozás általában akkor is akarhatunk súlyozni, ha egyszerűen csak vannak attribútumok, amik kevésbé fontosak r például L r normát is lehet súlyozni: n w k p k q k r k=1 Csima Judit Minden az adatról 38 / 41

Korreláció ezzel általában oszlopokat hasonĺıtunk össze nem az algoritmusokban használjuk, hanem az előfeldolgozásnál, amikor az algoritmusokban használt attribútumokat határozzuk meg két oszlop, azaz két attribútum közötti lineáris kapcsolatot méri arra lehet jó, hogy ha nagy a korreláció két oszlop között, akkor esetleg elg egyiket bevenni az elemzésbe vigyázat! nem minden kapcsolatot derít fel, csak a lineárisat! Csima Judit Minden az adatról 39 / 41

Korreláció: definíció előbb standardizáljuk az oszlopokat: p k helyett p k hasonlóan q correlation(p,q) = p q (skalárszorzat) ez ugyanaz, mint a szokásos definíció beépített függvénnyel számoljuk R-ben: cor = p k mean(p), sd(p) Csima Judit Minden az adatról 40 / 41

Visually Evaluating Correlation Scatter plots showing the similarity from 1 to 1. Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 63 Csima Judit Minden az adatról 41 / 41