Csima Judit február 26.
|
|
- Klára Bogdánné
- 5 évvel ezelőtt
- Látták:
Átírás
1 Osztályozás Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék február 26. Csima Judit Osztályozás 1 / 60
2 Osztályozás általában Osztályozás, classification adott egy rekordokból álló halmaz, a rekordoknak attribútumaik vannak az egyik attribútum a célváltozó, ez kategorikus attribútum, ez reprezentálja, hogy melyik osztályba tartozik az adott rekord cél, hogy egy olyan modellt építsünk fel, ami képes megjósolni a célváltozó értékét, ha a többi attribútum értéke adott Csima Judit Osztályozás 2 / 60
3 Osztályozás általában Példák egy beteg paraméterei alapján eldönteni, hogy jó- vagy rosszindulatú daganata van-e bankkártyás tranzakció adatait vizsgálva eldönteni, hogy van-e csalás vagy nincs (szabályos-e a tranzakció) fehérjék szerkezetét előre jelezni (alfa-hélix, béta-sheet, egyéb) az aminosav-sorrend alapján adóbevallásban szereplő értékek alapján megtippelni, hogy gyanús-e spam-szűrés Csima Judit Osztályozás 3 / 60
4 Osztályozás általában Általános módszer van egy csomó rekordunk, ahol minden érték (a célváltozó értéke is) ismert ez alapján egy modellt építünk, amit majd olyan új rekordokon használunk, amiknél a célváltozó értéke nem ismert, de minden más attribútumot tudunk az ismert rekordokat két részre osztjuk: training set és test set a training set-en betanítunk valami modellt a test set-en lemérjük, hogy mennyire jó ezután használhatjuk élesben Csima Judit Osztályozás 4 / 60
5 10 10 Osztályozás általában Illustrating Classification Task Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Induction Deduction Learning algorithm Learn Model Apply Model Model Test Set Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 5 / 60
6 Osztályozás általában Kérdések Milyen modellek vannak? Döntési fák Bayes-osztályozók Mesterséges neurális hálózatok (SVM: Support Vector Machine) hogyan álĺıtunk elő egy konkrét modellt? Pl. ha már tudjuk, hogy döntési fát csinálunk, akkor hogyan csináljuk meg; vagy egy ANN-nél hogyan álĺıtjuk be a paramétereket? Hogyan mérjük az előálĺıtott modell jóságát? accuracy: eltalált címkék száma osztva az összes sor számával error-rate: hibás predikciók száma osztva az összes sor számával Csima Judit Osztályozás 6 / 60
7 Döntési fák Döntési fa definíció gyökeres, lefelé irányított (legtöbbször) bináris fa belső csúcsok változókkal és ezekhez kapcsolódó feltételekkel címkézettek levelek a célváltozó valamely értékével címkézettek Csima Judit Osztályozás 7 / 60
8 10 Döntési fák Example of a Decision Tree categorical Tid Refund Marital Status categorical Taxable Income continuous Cheat class Splitting Attributes 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Data Refund Yes No NO MarSt Single, Divorced TaxInc < 80K > 80K NO YES Model: Decision Tree Married NO Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 8 / 60
9 10 Döntési fák Another Example of Decision Tree categorical Tid Refund Marital Status categorical Taxable Income continuous 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes class Married NO MarSt Yes NO Single, Divorced Refund NO No TaxInc < 80K > 80K YES There could be more than one tree that fits the same data! Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 9 / 60
10 Döntési fák 10 Apply Model to Test Data Start from the root of tree. Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 10 / 60
11 Döntési fák 10 Apply Model to Test Data Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 11 / 60
12 Döntési fák 10 Apply Model to Test Data Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 12 / 60
13 Döntési fák 10 Apply Model to Test Data Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 13 / 60
14 Döntési fák 10 Apply Model to Test Data Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married TaxInc < 80K > 80K NO NO YES Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 14 / 60
15 Döntési fák 10 Apply Model to Test Data Test Data Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? NO Single, Divorced MarSt Married Assign Cheat to No TaxInc NO < 80K > 80K NO YES Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 15 / 60
16 Döntési fák Algoritmus döntési fa készítésére egy általános algot nézünk, ennek különböző verziói futnak különböző programokban nem a legjobb fát akarjuk megtalálni (ez amúgy is aluldefiniált fogalom), hanem egy elég jót mohó módon, lokális döntéseket hozva, gyorsan Csima Judit Osztályozás 16 / 60
17 Döntési fák Hunt algoritmus, vázlat elején egy csúcs, ide tartozik minden rekord, címke a többségi címke később: választunk egy csúcsot, amit érdemes lenne szétvágni és valami attribútum mentén szétvágjuk egy vagy több részre vége: ha már nem érdemes vágni sehol Csima Judit Osztályozás 17 / 60
18 Döntési fák 10 Hunt s Algorithm Tid Refund Marital Status Taxable Income Cheat Don t Cheat Yes Don t Cheat Refund Single, Divorced Cheat Yes Don t Cheat No Marital Status Refund Married Don t Cheat No Don t Cheat Yes Don t Cheat Refund Single, Divorced Taxable Income No Marital Status < 80K >= 80K Married Don t Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Don t Cheat Cheat Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 18 / 60
19 Döntési fák Hunt algo, kérdések mikor érdemes vágni? melyik csúcsot vágjuk, ha több lehetőség is van? hogyan vágunk? az új csúcsokat hogyan címkézzük? mikor van vége? Csima Judit Osztályozás 19 / 60
20 Döntési fák Hunt algo, kérdések Mikor van vége? Ha már nincs olyan csúcs, amit vágni érdemes. Mikor nem érdemes vágni? Ha nem akarunk tovább osztani: minden rekord azonos cél-címkéjű Ha nem tudunk tovább osztani: olyan sorok vannak különböző címkével, amiknek minden más attribútuma megegyezik Melyik csúcsot vágjuk, ha több lehetőség is van? Valami bejárás szerint, pl. szélességi, mélységi. Hogyan vágunk? Erről mindárt, ez érdekes. Az új csúcsokat hogyan címkézzük? Többségi címkével. Csima Judit Osztályozás 20 / 60
21 Döntési fák Milyen attribútum mentén és hogyan vágjunk? Fő elv: sokféle vágást kipróbálunk és a legjobb szerint vágunk. Mik a lehetséges vágások? (Függ a szóba jövő attribútumok típusától.) Mi egy vágás jóságának a mértéke? Hogyan mérjük ezt? Csima Judit Osztályozás 21 / 60
22 Döntési fák Lehetséges vágások az attribútum fajtája szerint bináris attribútum: igen vagy nem, két gyerek csúcs lesz kategória típusú attribútum: multiway split: minden lehetséges értékhez egy gyerek, az üres csúcsok címkéja a szülő többségi címkéje lesz bináris split részhalmaz szerint: ebből van 2 t 1, ahol a t a lehetséges kimenetelek száma bináris vágás egy érték szerint: ebből van t darab (mint marital status az előző példában) folytonos attribútum bináris vágás, az attribútum értéke kisebb-e egy adott küszöbnél (mint income az előző példában) többes vágás: melyik sávba esik az érték Csima Judit Osztályozás 22 / 60
23 Döntési fák Vágás jósága, alapelvek többféle mérőszám van, mindegyik egy számértéket rendel a vágáshoz így a különböző vágások összehasonĺıthatóak nagyrészt konzisztensek egymással a különféle mérőszámok mindegyik azt méri, hogy mennyire lesz homogén a létrejövő gyerek poluláció a célváltozó címkézése szerint Csima Judit Osztályozás 23 / 60
24 Döntési fák How to determine the Best Split Before Splitting: 10 records of class 0, 10 records of class 1 Own Car? Car Type? Student ID? Yes No Family Luxury c 1 c 10 c 20 Sports c 11 C0: 6 C1: 4 C0: 4 C1: 6 C0: 1 C1: 3 C0: 8 C1: 0 C0: 1 C1: 7 C0: 1 C1: 0... C0: 1 C1: 0 C0: 0 C1: 1... C0: 0 C1: 1 Which test condition is the best? Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 24 / 60
25 Döntési fák Vágás jósága 3 fő mérőszámot nézünk fő elv ugyanaz mindegyiknél: egy rekordhalmazra definiálunk egy mérőszámot, ami az adott rekordhalmaz diverzitását mutatja (ebből lesz három féle mérőszám) egy vágás jóságát azzal mérjük, hogy a szülőcsúcs diverzitása és a létrejövő gyerekcsúcsok diverzitása mennyire tér (mennyit nyerünk azon, ha szétvágjuk a szülőt egy adott módon, mennyivel lesznek homogénebbek a gyerekek) először azt nézzük, hogy hogyan lehet mérni egy rekordhalmaz, azaz a döntési fa egy csúcsának imhomogenitását Csima Judit Osztályozás 25 / 60
26 Döntési fák Inhomogenitás mérése: Gini-index, entrópia, classification error van egy t csúcsunk (egy rekordhalmaz), aminek egy c darab lehetséges értéket felvevő célváltozó szerinti homogenitását akarjuk mérni p i jelöli a rekordhalmazban előforduló i értékű rekordok relatív gyakoriságát c 2 Gini = 1 p i i=1 entrópia = c p i log p i i=1 classification error = 1 max i 1,...,c p i Csima Judit Osztályozás 26 / 60
27 Döntési fák Comparison among Splitting Criteria For a 2-class problem: Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 27 / 60
28 Döntési fák Vágás jósága ha már eldöntöttük, hogy melyik csúcsnál vágunk az adott csúcsnál minden lehetséges attribútum alapján, minden (?) lehetséges módon vágunk k n i = I (szülő) n I (gyerek i) i=1 itt I () a három inhomogenitási mérték közül az egyik n i az i. gyerek rekordszáma, n a szülő rekordszáma arról van szó tehát, hogy a gyerekek inhomogenitását súlyozzuk a relatív nagyságukkal Csima Judit Osztályozás 28 / 60
29 Döntési fák ID alapján vágni? Azonosító alapján vágni (vagy más, nagyon kis elemszámú részhalmazra vágás) nem szerencsés: ID esetén ez nem valódi nyereség túl kicsi létrejövő halmazok esetén félő, hogy rosszul általánosít a modell (overfitting, erről mindjárt) de az algo ezt preferálja, mert itt lesz nagy a nyereség megoldások: csak bináris vágás lehetséges szűrjük ki a nyilvánvalóan felesleges attribútumokat (amik alapján enm akarunk úgyse vágni) info helyett valami mással mérni a vágás jóságát: gain ratio Csima Judit Osztályozás 29 / 60
30 Döntési fák Gain ratio cél: büntessük azt, ha egy vágás túl sok részre vág szét ha entrópia az inhomogenitás mértéke: gain ratio gain ratio = k i=1 info n i n log n i n ez bünteti a szétszabdalást kicsi részekre Csima Judit Osztályozás 30 / 60
31 Döntési fák Az általános faépítő algo jellemzői gyorsan jól értelmezhető fát készít gyors az elkészült fával az osztályozás nem kell paramétereket beálĺıtanunk előre (de...) Különböző programokban ennek verziói futnak: hogyan járjuk be a vágandó csúcsokat mi az inhomogenitás mértéke van-e multivágás vagy csak bináris Csima Judit Osztályozás 31 / 60
32 Döntési fák Leállási feltételek ha minden csúcs homogén ha nem tudunk tovább differenciálni valami globális leállási feltétel: levélszám, szintszámra korlát A legjobb fa keresése nem kivitelezhető és nem is célszerű általában. Csima Judit Osztályozás 32 / 60
33 Overfitting és modell választás Overfitting nem szerencsés, ha a modell (pl. az elkészült döntési fa) túlságosan passzol a training set-re azért, mert nincs rá garancia, hogy a későbbi halmazok, amiken a modellt használjuk, teljesen ugyanilyenek lesznek (sőt...) egy egyszerűbb modell, aminek a training error-ja nagyobb, néha jobban általánosítható: jobban viselkedik a későbbi (a modell építése során nem látott) esetekre ez nem csak döntési fáknál léztező jelenség, hanem mindenhol, ahol egy training set alapján modellt építek, amit aztán korábban nem látott eseteken akarok használni Csima Judit Osztályozás 33 / 60
34 Overfitting és modell választás Training és test error felépítünk egy modellt (pl. egy döntési fát) aszerint, hogy mekkora a training error training error: a felépített modell hogyan osztályozza a training set rekordjait: accuracy, misclassification error de nekünk az lesz az érdekes, hogy a nem látott eseteken hogy viselkedik, hogy jelez előre ez lemérhető a teszt halmazon, de mi van, ha az derül ki, hogy ott nagy a hiba? (erről később) most az a fontos, hogy lássuk, hogy a training error és a test error két külön dolog Csima Judit Osztályozás 34 / 60
35 Overfitting és modell választás Underfitting és overfitting underfitting: a modell nem elég árnyalt ahhoz, hogy jól előrejelezzen ekkor a training error és a test error is nagy segíthet, ha bonyolultabb modellt építünk, ehhez esetleg kellhet több tanító adat overfitting: túlságosan jól passzol a modell a training set-re csökkentsük a modell bonyolultságát valahogyan (erről mindjárt) Csima Judit Osztályozás 35 / 60
36 Overfitting és modell választás Underfitting and Overfitting Overfitting Underfitting: when model is too simple, both training and test errors are large Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 36 / 60
37 Overfitting és modell választás Overfitting oka közvetetten: túl erős, bonyolult modell, ami teljesen a training set-re szabható közvetlenül: az adathalmaz nem reprezentatív (speciális esetek jelentős számban) zaj ha túl sok modell közül válaszhatunk: a legjobb nagyon jó lesz a training set-en, de semmi garancia nincs rá, hogy máshol is Csima Judit Osztályozás 37 / 60
38 Overfitting és modell választás Overfitting due to Noise Decision boundary is distorted by noise point Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 38 / 60
39 Overfitting és modell választás Occam s razor Mindenképpen jó lenne elkerülni a túl bonyolult modellt elv: Occam s razor (Occam borotvája): ha van két modell, amik kábé ugyanazt tudják (hol?, hogyan?) akkor az egyszerűbbet, kisebbet válasszuk a modell építése során vegyük ezt az elvet figyelembe, építsük a modellt úgy, hogy az büntesse a túl bonyolultat Csima Judit Osztályozás 39 / 60
40 Overfitting és modell választás Kérdés Hogyan vegyük figyelembe a modell teljesítményét a modell építése során? Nehézség: eddig a modell értékelésére a teszt halmazt használtuk, de azt nem nézhetjük meg az építés alatt. Vezessünk be egy újfajta hibamérést, ami figyelembe veszi a modell bonyolultságát is a training error-on kívül: generalization error resubstitution error (optimista becslés) pesszimista becslés (modellfüggő) validation set Csima Judit Osztályozás 40 / 60
41 Overfitting és modell választás Resubstitution error feltételezzük, hogy a training set jól reprezentál optimistán azt gondoljuk, hogy az új adathalmazon is ugyanolyan jól fog osztályozni, mint a training set-en ekkor a modell hibája az, amit ennek addig hívtunk: misclassification error, azaz hány rekord lesz rosszul címkézve a training set rekordjai közül persze ha elég nagy fát (bonyolult modellt) építünk és kevés az adat, akkor ez simán lehet 0 Csima Judit Osztályozás 41 / 60
42 Overfitting és modell választás Pesszimista verzió a generalization error-ra mivel a training set-re van szabva a modell, a valóságban nem lesz ilyen jó, nagyobb lesz a hiba az, hogy mennyire lesz rosszabb, az függ a modell bonyolultságától a pesszimista hiba két tagból áll: a training errorból és egy másik tagból, ami a modell bonyolultságát bünteti döntési fáknál pl. levelenként egy plusz konstans taggal megnöveljük a hibásan osztályozott rekordok számát pl. levelenként 0.5: a training errorhoz hozzá kell adni l 0.5 n -t, ahol l a levelek száma, n pedig az összes rekord száma Csima Judit Osztályozás 42 / 60
43 Overfitting és modell választás Validation set a rendelkezésre álló adatokat nem két részre osztjuk (training és test), hanem háromra: training, validation és test ha két különböző modell (pl. két fa) között kell dönteni, akkor a validation set-en megnézzük az előrejelzésüket és a jobbat választjuk azért kell erre külön halmaz (nem a test set), mert a test set-et a végső modell tesztelésére tartogatjuk Csima Judit Osztályozás 43 / 60
44 Overfitting és modell választás Hogyan veszem figyelembe a modell becsült generalized error-ját a modell építése során? pre-pruning: a fa építése közben nézzük, hogy a generalized error nő-e és ha igen, akkor nem vágunk post-pruning (teljes fát építünk, az általános algoval, amíg lehet, addig vágunk), aztán alulról felfele haladva visszavágjuk, ha a visszavágott fa hibája kisebb (pesszimista hiba vagy validation error) Csima Judit Osztályozás 44 / 60
45 Overfitting és modell választás Example of Post-Pruning Class = Yes 20 Class = No 10 Error = 10/30 A? Training Error (Before splitting) = 10/30 Pessimistic error = ( )/30 = 10.5/30 Training Error (After splitting) = 9/30 Pessimistic error (After splitting) = ( )/30 = 11/30 PRUNE! A1 A2 A3 A4 Class = Yes Class = No 8 4 Class = Yes Class = No 3 4 Class = Yes Class = No 4 1 Class = Yes Class = No 5 1 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 45 / 60
46 Overfitting és modell választás Examples of Post-pruning Optimistic error? Case 1: Don t prune for both cases Pessimistic error? C0: 11 C1: 3 C0: 2 C1: 4 Don t prune case 1, prune case 2 Reduced error pruning? Case 2: Depends on validation set C0: 14 C1: 3 C0: 2 C1: 2 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 46 / 60
47 További kérdések döntési fákról Hiányzó értékek Hogyan kezeljük: a vágás jóságának kiszámításakor a hiányos rekord melyik gyerekbe kerül? hiányzó értéket tartalmazó sort hogyan lehet besorolni? Csima Judit Osztályozás 47 / 60
48 10 További kérdések döntési fákról Computing Impurity Measure Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Class 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10? Single 90K Yes Missing value Before Splitting: Entropy(Parent) = -0.3 log(0.3)-(0.7)log(0.7) = Split on Refund: Class = Yes Class = No Refund=Yes 0 3 Refund=No 2 4 Refund=? 1 0 Entropy(Refund=Yes) = 0 Entropy(Refund=No) = -(2/6)log(2/6) (4/6)log(4/6) = Entropy(Children) = 0.3 (0) (0.9183) = Gain = 0.9 ( ) = Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 48 / 60
49 10 További kérdések döntési fákról 10 Distribute Instances Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Class 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No Yes Class=Yes 0 Class=No 3 Refund No Cheat=Yes 2 Cheat=No 4 Tid Refund Marital Status Yes Refund Taxable Income Class 10? Single 90K Yes Class=Yes 0 + 3/9 Class=No 3 No Class=Yes 2 + 6/9 Class=No 4 Probability that Refund=Yes is 3/9 Probability that Refund=No is 6/9 Assign record to the left child with weight = 3/9 and to the right child with weight = 6/9 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 49 / 60
50 10 További kérdések döntési fákról Classify Instances New record: Tid Refund Marital Status Taxable Income Class Class=No Married 3 Single 1 Divorced 0 Total 4 11 No? 85K? Class=Yes 6/ Yes NO NO Refund Single, Divorced No TaxInc MarSt < 80K > 80K YES Married NO Total Probability that Marital Status = Married is 3.67/6.67 Probability that Marital Status ={Single,Divorced} is 3/ Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 50 / 60
51 További kérdések döntési fákról Decision boundary ha a rekordok pontok az n dimenziós térben: a döntési fa bináris vágásai félbe vágják az aktuális teret így tehát csak olyan elválasztást tudunk jól megvalósítani, aminél a különböző szeparálandó részek elválaszthatók síkokkal (egy dimenzióval kisebb alterekkel) megoldás lehet új változók bevezetése (régiek kombinálásával) lassú, nem világos, hogy hogyan lehet automatizálni Csima Judit Osztályozás 51 / 60
52 További kérdések döntési fákról Decision Boundary x < 0.43? 0.7 Yes No 0.6 y 0.5 y < 0.47? y < 0.33? Yes No Yes No : 4 : 0 : 0 : 4 : 0 : 3 : 4 : 0 0 x Border line between two neighboring regions of different classes is known as decision boundary Decision boundary is parallel to axes because test condition involves a single attribute at-a-time Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 52 / 60
53 További kérdések döntési fákról Oblique Decision Trees x + y < 1 Class = + Class = Test condition may involve multiple attributes More expressive representation Finding optimal test condition is computationally expensive Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 53 / 60
54 További kérdések döntési fákról Misclassification error, változatok eddig accuracy és misclassification error volt: hibás előrejelzések száma az összes közül ez nem mindig jó, pl. ha nagyon kevés rekord van az egyik kategóriában és az az algo, hogy mindenkit a gyakori címkével címkézünk ezért költség-mátrixot is használhatunk, ha a hibás pozitív vagy hibás negatív osztályozást akarjuk nagyon büntetni vagy használhatunk accuracy helyett mást (precision, recall, F-measure) Csima Judit Osztályozás 54 / 60
55 További kérdések döntési fákról Cost Matrix PREDICTED CLASS C(i j) Class=Yes Class=No ACTUAL CLASS Class=Yes Class=No C(Yes Yes) C(Yes No) C(No Yes) C(No No) C(i j): Cost of misclassifying class j example as class i Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 55 / 60
56 További kérdések döntési fákról Computing Cost of Classification Cost Matrix ACTUAL CLASS PREDICTED CLASS C(i j) Model M 1 PREDICTED CLASS Model M 2 PREDICTED CLASS ACTUAL CLASS ACTUAL CLASS Accuracy = 80% Cost = 3910 Accuracy = 90% Cost = 4255 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Osztályozás 56 / 60
57 További kérdések döntési fákról Másik lehetőség az osztályozó jóságának mérésére true positive (tp): hány olyan rekord van, ami pozitív címkét kap és a valóságban is pozitív true negative (tn): hány olyan rekord van, ami negatív címkét kap és a valóságban is negatív false positive (fp): hány olyan rekord van, ami pozitív címkét kap, de a valóságban negatív false negative (fn): hány olyan rekord van, ami negatív címkét kap, de a valóságban pozitív Ez a confusion matrix Csima Judit Osztályozás 57 / 60
58 További kérdések döntési fákról Másik lehetőség az osztályozó jóságának mérésére tp + tn accuracy ezzel a jelöléssel tp + tn + fp + fn precision (= p): hány eset valóban pozitív a pozitívnak mondottak közül, azaz tp tp + fp recall (=r): hány pozitív esetet találunk meg tényleg: F-measure = 2rp r + p = 2tp 2tp + fp + fn tp tp + fn Csima Judit Osztályozás 58 / 60
59 További kérdések döntési fákról R-ben mi van? sok minden :) több package döntési fa készítésre: tree, rpart, party alap-paranccsal létrehozok egy fa típusú objektumot: megadom, hogy milyen training set-en, milyen változókat vegyen figyelembe a létrehozott fát használhatom előrejelzésre, ábrázolhatom lehet egyszerűsíteni (prune) Csima Judit Osztályozás 59 / 60
60 További kérdések döntési fákról tree package > library(tree) > ir.tr <- tree(species., iris) > summary(ir.tr) Classification tree: tree(formula = Species., data = iris) Variables actually used in tree construction: [1] "Petal.Length" "Petal.Width" "Sepal.Length" Number of terminal nodes: 6 Misclassification error rate: = 4 / 150 > plot(ir.tr) > text(ir.tree) Csima Judit Osztályozás 60 / 60
Csima Judit február 19.
Osztályozás Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. február 19. Csima Judit Osztályozás 1 / 53 Osztályozás általában Osztályozás, classification adott egy rekordokból
RészletesebbenCsima Judit április 9.
Osztályozókról még pár dolog Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. április 9. Csima Judit Osztályozókról még pár dolog 1 / 19 SVM (support vector machine) ez is egy
RészletesebbenKlaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
RészletesebbenAdatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés
Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés 4. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Bevezetés az
RészletesebbenSzeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl sok szelet se legyen.
KEMOMETRIA VIII-1/27 /2013 ősz CART Classification and Regression Trees Osztályozó fák Szeleteljük fel úgy a tulajdonságteret, hogy az egyes szeletekbe lehetőleg egyfajta objektumok kerüljenek, de túl
RészletesebbenMinden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41
Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41 Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt
RészletesebbenAdatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés
Adatbányászat: Osztályozás Alapfogalmak, döntési fák, kiértékelés 4. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046
RészletesebbenAdatbányászati feladatgyűjtemény tehetséges hallgatók számára
Adatbányászati feladatgyűjtemény tehetséges hallgatók számára Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Tartalomjegyék Modellek kiértékelése...
RészletesebbenEredmények kiértékelése
Eredmények kiértékelése Nagyméretű adathalmazok kezelése (2010/2011/2) Katus Kristóf, hallgató Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék 2011. március
RészletesebbenÚj típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
RészletesebbenCsima Judit május 10.
Asszociációs-szabályok, 3. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. május 10. Csima Judit Asszociációs-szabályok, 3. rész 1 / 21 Eddig mi volt? Apriori-algoval gyakori
RészletesebbenAdatbányászati technikák (VISZM185) 2015 tavasz
Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27
RészletesebbenAlgoritmuselmélet. 2-3 fák. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem. 8.
Algoritmuselmélet 2-3 fák Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 8. előadás Katona Gyula Y. (BME SZIT) Algoritmuselmélet 8. előadás
RészletesebbenGépi tanulás a Rapidminer programmal. Stubendek Attila
Gépi tanulás a Rapidminer programmal Stubendek Attila Rapidminer letöltése Google: download rapidminer Rendszer kiválasztása (iskolai gépeken Other Systems java) Kicsomagolás lib/rapidminer.jar elindítása
Részletesebben1. gyakorlat. Mesterséges Intelligencia 2.
1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott
RészletesebbenDöntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Hypothesis Testing. Petra Petrovics.
Hypothesis Testing Petra Petrovics PhD Student Inference from the Sample to the Population Estimation Hypothesis Testing Estimation: how can we determine the value of an unknown parameter of a population
RészletesebbenGépi tanulás a gyakorlatban. Lineáris regresszió
Gépi tanulás a gyakorlatban Lineáris regresszió Lineáris Regresszió Legyen adott egy tanuló adatbázis: Rendelkezésünkre áll egy olyan előfeldolgozott adathalmaz, aminek sorai az egyes ingatlanokat írják
RészletesebbenNagy adathalmazok labor
1 Nagy adathalmazok labor 2015-2015 őszi félév 2015.09.09 1. Bevezetés, adminisztráció 2. Osztályozás és klaszterezés feladata 2 Elérhetőségek Daróczy Bálint daroczyb@ilab.sztaki.hu Személyesen: MTA SZTAKI,
RészletesebbenAdatbányászati, data science tevékenység projektmenedzsmentje
Adatbányászati, data science tevékenység projektmenedzsmentje IPE képzés II. félév Körmendi György, Hans Zoltán Clementine Consulting 2018.03.08. L Bemelegítés Adatbányászat célja Szegmentálás Leíró modellek
RészletesebbenAdatbányászati, data science tevékenység
Adatbányászati, data science tevékenység projektmenedzsmentje IPE képzés II. félév Körmendi György Clementine Consulting 2017. 03. 14. Bemelegítés Adatbányászat célja Szegmentálás Leíró modellek Előrejelző
RészletesebbenCsima Judit október 24.
Adatbáziskezelés Funkcionális függőségek Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. október 24. Csima Judit Adatbáziskezelés Funkcionális függőségek 1 / 1 Relációs sémák
RészletesebbenGépi tanulás Gregorics Tibor Mesterséges intelligencia
Gépi tanulás Tanulás fogalma Egy algoritmus akkor tanul, ha egy feladat megoldása során olyan változások következnek be a működésében, hogy később ugyanazt a feladatot vagy ahhoz hasonló más feladatokat
RészletesebbenIntelligens orvosi műszerek VIMIA023
Intelligens orvosi műszerek VIMIA023 Diagnózistámogatás = döntéstámogatás A döntések jellemzése (ROC, AUC) 2018 ősz http://www.mit.bme.hu/oktatas/targyak/vimia023 dr. Pataki Béla pataki@mit.bme.hu (463-)2679
RészletesebbenEgyenlőtlenségi mérőszámok alkalmazása az adatbányászatban. Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011
Egyenlőtlenségi mérőszámok alkalmazása az adatbányászatban Hajdu Ottó BCE: Statisztika Tanszék BME: Pénzügyek tanszék Budapest, 2011 Adatbányászati feladatok 1. Ismert mintákon, példákon való tanulás (extracting
RészletesebbenGépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
RészletesebbenLOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála
LOGIT-REGRESSZIÓ a függő változó: névleges vagy sorrendi skála a független változó: névleges vagy sorrendi vagy folytonos skála BIOMETRIA2_NEMPARAMÉTERES_5 1 Y: visszafizeti-e a hitelt x: fizetés (életkor)
RészletesebbenAdatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)
Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten) Fejezet 1. - Lecke 1 Bevezető Egy gyakorlati kurzus, hogyan használjuk a Weka-t adatbányászatra. Megmagyarázza az alapelveit egyes népszerű
Részletesebbendiscosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo
discosnp demo - Peterlongo Pierre 1 DISCOSNP++: Live demo Download and install discosnp demo - Peterlongo Pierre 3 Download web page: github.com/gatb/discosnp Chose latest release (2.2.10 today) discosnp
RészletesebbenGyakorló feladatok adatbányászati technikák tantárgyhoz
Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:
Részletesebben5. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton
Adatbányászat: Osztályozás További módszerek 5. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító:
RészletesebbenA gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek
A gép az ember tükre, avagy hogyan (ne) adjuk át saját előítéleteinket a mesterséges értelemnek Varjú Zoltán 2018.05.22. HWSW Meetup ML Engineering Rules of Machine Learning #1 Don t be afraid to launch
RészletesebbenRandom Forests - Véletlen erdők
Random Forests - Véletlen erdők Szabó Adrienn Adatbányászat és Webes Keresés Kutatócsoport 2010 Tartalom Fő forrás: Leo Breiman: Random Forests Machine Learning, 45, 5-32, 2001 Alapok Döntési fa Véletlen
Részletesebben5. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton
Adatbányászat: Osztályozás További módszerek 5. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046
RészletesebbenR ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský Recenzió: Németh Boldizsár Térbeli indexelés Az adatszerkezetek alapvetően fontos feladata, hogy
RészletesebbenCorrelation & Linear Regression in SPSS
Petra Petrovics Correlation & Linear Regression in SPSS 4 th seminar Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Correlation
RészletesebbenEllenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t
Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,
RészletesebbenGyakori elemhalmazok kinyerése
Gyakori elemhalmazok kinyerése Balambér Dávid Budapesti M szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Számítástudomány szakirány 2011 március 11. Balambér Dávid (BME) Gyakori
RészletesebbenLogisztikus regresszió október 27.
Logisztikus regresszió 2017. október 27. Néhány példa Mi a valószínűsége egy adott betegségnek a páciens bizonyos megfigyelt jellemzői (pl. nem, életkor, laboreredmények, BMI stb.) alapján? Mely genetikai
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Factor Analysis
Factor Analysis Factor analysis is a multiple statistical method, which analyzes the correlation relation between data, and it is for data reduction, dimension reduction and to explore the structure. Aim
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests
Nonparametric Tests Petra Petrovics Hypothesis Testing Parametric Tests Mean of a population Population proportion Population Standard Deviation Nonparametric Tests Test for Independence Analysis of Variance
RészletesebbenCluster Analysis. Potyó László
Cluster Analysis Potyó László What is Cluster Analysis? Cluster: a collection of data objects Similar to one another within the same cluster Dissimilar to the objects in other clusters Cluster analysis
RészletesebbenJAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem
RészletesebbenA számítástudomány alapjai. Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem
A számítástudomány alapjai Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Bináris keresőfa, kupac Katona Gyula Y. (BME SZIT) A számítástudomány
RészletesebbenNagy adathalmazok labor
1 Nagy adathalmazok labor 2018-2019 őszi félév 2018.09.19 1. Döntési fák 2. Naive Bayes 3. Logisztikus regresszió 2 Féléves terv o Kiértékelés: cross-validation, bias-variance trade-off o Supervised learning
RészletesebbenStatistical Inference
Petra Petrovics Statistical Inference 1 st lecture Descriptive Statistics Inferential - it is concerned only with collecting and describing data Population - it is used when tentative conclusions about
RészletesebbenStatistical Dependence
Statistical Dependence Petra Petrovics Statistical Dependence Deinition: Statistical dependence exists when the value o some variable is dependent upon or aected by the value o some other variable. Independent
Részletesebben4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11]
1 4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás 4.1. Döntési fák [Concepts Chapter 11] A döntési fákon alapuló klasszifikációs eljárás nagy előnye, hogy az alkalmazása révén nemcsak egyedenkénti előrejelzést
RészletesebbenAdatszerkezetek 2. Dr. Iványi Péter
Adatszerkezetek 2. Dr. Iványi Péter 1 Fák Fákat akkor használunk, ha az adatok között valamilyen alá- és fölérendeltség van. Pl. könyvtárszerkezet gyökér (root) Nincsennek hurkok!!! 2 Bináris fák Azokat
RészletesebbenOsztott jáva programok automatikus tesztelése. Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január
Osztott jáva programok automatikus tesztelése Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január Osztott alkalmazások Automatikus tesztelés Tesztelés heurisztikus zaj keltés Tesztelés genetikus
RészletesebbenCsima Judit április 29.
Asszociációs szabályok keresése Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2016. április 29. Csima Judit Asszociációs szabályok keresése 1 / 35 Alapfeladat adottak vásárlói kosarak
RészletesebbenSearching in an Unsorted Database
Searching in an Unsorted Database "Man - a being in search of meaning." Plato History of data base searching v1 2018.04.20. 2 History of data base searching v2 2018.04.20. 3 History of data base searching
RészletesebbenROS Remote Operations Service
ROS Remote Operations Service Adamis Gusztáv (adamis@tmit.bme.hu) Réthy György (Gyorgy.Rethy@ericsson.com) Ziegler Gábor (gabor.ziegler@ericsson.com) 2015.03.13. Távközlési szoftverek 1 Példa: szendvicsautomata
RészletesebbenMesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363
1/363 Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 20/2011 Az Előadások Témái 226/363 Bevezető: mi a mesterséges intelligencia... Tudás reprezentáció Gráfkeresési stratégiák Szemantikus
RészletesebbenCorrelation & Linear Regression in SPSS
Correlation & Linear Regression in SPSS Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Exercise 1 - Correlation File / Open
RészletesebbenCan/be able to. Using Can in Present, Past, and Future. A Can jelen, múlt és jövő idejű használata
Can/ Can is one of the most commonly used modal verbs in English. It be used to express ability or opportunity, to request or offer permission, and to show possibility or impossibility. A az egyik leggyakrabban
RészletesebbenAdatelemzés őszi félév ,26,27 1. Bevezetés 2. Osztályozás és klaszterezés feladata 3. Numpy és Ipython 4. Logisztikus regresszió
1 Adatelemzés 2017-2018 őszi félév 2018.03.19,26,27 1. Bevezetés 2. Osztályozás és klaszterezés feladata 3. Numpy és Ipython 4. Logisztikus regresszió 2 Elérhetőségek Daróczy Bálint daroczyb@ilab.sztaki.hu
RészletesebbenBranch-and-Bound. 1. Az egészértéketű programozás. a korlátozás és szétválasztás módszere Bevezető Definíció. 11.
11. gyakorlat Branch-and-Bound a korlátozás és szétválasztás módszere 1. Az egészértéketű programozás 1.1. Bevezető Bizonyos feladatok modellezése kapcsán előfordulhat olyan eset, hogy a megoldás során
RészletesebbenA számítástudomány alapjai
A számítástudomány alapjai Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Legszélesebb utak Katona Gyula Y. (BME SZIT) A számítástudomány
RészletesebbenKözösségek keresése nagy gráfokban
Közösségek keresése nagy gráfokban Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 2011. április 14. Katona Gyula Y. (BME SZIT) Közösségek
RészletesebbenAdatbázisok 1. Rekurzió a Datalogban és SQL-99
Adatbázisok 1 Rekurzió a Datalogban és SQL-99 Expressive Power of Datalog Without recursion, Datalog can express all and only the queries of core relational algebra. The same as SQL select-from-where,
RészletesebbenAsszociációs szabályok
Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában
RészletesebbenAlgoritmuselmélet. Bonyolultságelmélet. Katona Gyula Y.
Algoritmuselmélet Bonyolultságelmélet Katona Gyula Y. Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem 12. előadás Katona Gyula Y. (BME SZIT) Algoritmuselmélet
RészletesebbenCsima Judit március 9. és 16.
Grafika Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2017. március 9. és 16. Csima Judit Grafika 1 / 18 Grafika általában Grafika az R-ben Van néhány alapvető package az ábrázolásra:
RészletesebbenNagy adathalmazok labor
1 Nagy adathalmazok labor 2018-2019 őszi félév 2018.09.12-13 1. Kiértékelés 2. Döntési fák 3. Ipython notebook notebook 2 Féléves terv o Kiértékelés: cross-validation, bias-variance trade-off o Supervised
RészletesebbenMesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363
1/363 Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 Az Előadások Témái 206/363 Bevezető: mi a mesterséges intelligencia... Tudás reprezentáció Gráfkeresési stratégiák
RészletesebbenConstruction of a cube given with its centre and a sideline
Transformation of a plane of projection Construction of a cube given with its centre and a sideline Exercise. Given the center O and a sideline e of a cube, where e is a vertical line. Construct the projections
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.
Correlation & Linear Regression in SPSS Petra Petrovics PhD Student Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Exercise
RészletesebbenÚjfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására
VÉGZŐS KONFERENCIA 2009 2009. május 20, Budapest Újfajta, automatikus, döntési fa alapú adatbányászati módszer idősorok osztályozására Hidasi Balázs hidasi@tmit.bme.hu Konzulens: Gáspár-Papanek Csaba Budapesti
Részletesebben(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,
RészletesebbenFAMILY STRUCTURES THROUGH THE LIFE CYCLE
FAMILY STRUCTURES THROUGH THE LIFE CYCLE István Harcsa Judit Monostori A magyar társadalom 2012-ben: trendek és perspektívák EU összehasonlításban Budapest, 2012 november 22-23 Introduction Factors which
RészletesebbenAdatmodellezés. 1. Fogalmi modell
Adatmodellezés MODELL: a bonyolult (és időben változó) valóság leegyszerűsített mása, egy adott vizsgálat céljából. A modellben többnyire a vizsgálat szempontjából releváns jellemzőket (tulajdonságokat)
Részletesebbenfile:///d:/okt/ad/jegyzet/ad1/b+fa.html
1 / 5 2016. 11. 30. 12:58 B+ fák CSci 340: Database & Web systems Home Syllabus Readings Assignments Tests Links Computer Science Hendrix College Az alábbiakban Dr. Carl Burch B+-trees című Internetes
RészletesebbenGyors sikerek adatbányászati módszerekkel
Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer
RészletesebbenElőfeldolgozás, exploratory analysis
Előfeldolgozás, exploratory analysis Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2014. február 19. Csima Judit Előfeldolgozás, exploratory analysis 1 / 55 Az adatbányászat részei
RészletesebbenÁltalános algoritmustervezési módszerek
Általános algoritmustervezési módszerek Ebben a részben arra mutatunk példát, hogy miként használhatóak olyan általános algoritmustervezési módszerek mint a dinamikus programozás és a korlátozás és szétválasztás
RészletesebbenIntelligens orvosi műszerek VIMIA023
Intelligens orvosi műszerek VIMIA023 A mintapéldákból tanuló számítógépes program (egyik lehetőség): döntési fák 2018 ősz http://www.mit.bme.hu/oktatas/targyak/vimia023 dr. Pataki Béla pataki@mit.bme.hu
RészletesebbenPletykaalapú gépi tanulás teljesen elosztott környezetben
Pletykaalapú gépi tanulás teljesen elosztott környezetben Hegedűs István Jelasity Márk témavezető Szegedi Tudományegyetem MTA-SZTE Mesterséges Intelligencia Kutatócsopot Motiváció Az adat adatközpontokban
RészletesebbenGyakori elemhalmazok
Gyakori elemhalmazok Bankó Tibor June 9, 2010 Bankó Tibor (BME) Gyakori elemhalmazok June 9, 2010 1 / 26 Tartalom 1 Bevezetés 2 Az algoritmusok Egy speciális eset Apriori Eclat FP-Growth 3 Az algoritmusok
RészletesebbenVálasztási modellek 3
Választási modellek 3 Prileszky István Doktori Iskola 2018 http://www.sze.hu/~prile Forrás: A Self Instructing Course in Mode Choice Modeling: Multinomial and Nested Logit Models Prepared For U.S. Department
RészletesebbenAdatbányászati szemelvények MapReduce környezetben
Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt
RészletesebbenIBM Brings Quantum Computing to the Cloud
IBM Brings Quantum Computing to the Cloud https://www.youtube.com/watch?v=dz2dcilzabm&feature=y outu.be 2016.05.05. 1 Ismétlés The problem Each unitary transform having eigenvector has eigenvalues in the
RészletesebbenTeljesítmény Mérés. Tóth Zsolt. Miskolci Egyetem. Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés / 20
Teljesítmény Mérés Tóth Zsolt Miskolci Egyetem 2013 Tóth Zsolt (Miskolci Egyetem) Teljesítmény Mérés 2013 1 / 20 Tartalomjegyzék 1 Bevezetés 2 Visual Studio Kód metrikák Performance Explorer Tóth Zsolt
RészletesebbenKomputeralgebra rendszerek
Komputeralgebra rendszerek III. Változók Czirbusz Sándor czirbusz@gmail.com Komputeralgebra Tanszék ELTE Informatika Kar 2009-2010 ősz Index I 1 Szimbolikus konstansok kezelés A konstansok Nevek levédése
RészletesebbenKomputeralgebra rendszerek
Komputeralgebra rendszerek III. Változók Czirbusz Sándor czirbusz@gmail.com Komputeralgebra Tanszék ELTE Informatika Kar 2009-2010 ősz Index I 1 Szimbolikus konstansok kezelés A konstansok Nevek levédése
RészletesebbenAdatszerkezetek 7a. Dr. IványiPéter
Adatszerkezetek 7a. Dr. IványiPéter 1 Fák Fákat akkor használunk, ha az adatok között valamilyen alá- és fölérendeltség van. Pl. könyvtárszerkezet gyökér () Nincsennek hurkok!!! 2 Bináris fák Azokat a
RészletesebbenACTA ACADEMIAE PAEDAGOGICAE AGRIENSIS
Separatum ACTA ACADEMIAE PAEDAGOGICAE AGRIESIS OVA SERIES TOM. XXII. SECTIO MATEMATICAE TÓMÁCS TIBOR Egy rekurzív sorozat tagjainak átlagáról EGER, 994 Egy rekurzív sorozat tagjainak átlagáról TÓMÁCS TIBOR
RészletesebbenSzámítógépes döntéstámogatás. Döntések fuzzy környezetben Közelítő következtetések
BLSZM-09 p. 1/17 Számítógépes döntéstámogatás Döntések fuzzy környezetben Közelítő következtetések Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu
RészletesebbenModellkiválasztás és struktúrák tanulása
Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális
RészletesebbenOsztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton
Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke
RészletesebbenSQL/PSM kurzorok rész
SQL/PSM kurzorok --- 2.rész Tankönyv: Ullman-Widom: Adatbázisrendszerek Alapvetés Második, átdolgozott kiadás, Panem, 2009 9.3. Az SQL és a befogadó nyelv közötti felület (sormutatók) 9.4. SQL/PSM Sémában
RészletesebbenFodor Gábor március 17. Fodor Gábor Osztályozás március / 39
Osztályozás Fodor Gábor 2010. március 17. Fodor Gábor (fodgabor@math.bme.hu) Osztályozás 2010. március 17. 1 / 39 Bevezetés 1 Bevezetés 2 Döntési szabályok 3 Döntési fák 4 Bayes-hálók 5 Lineáris szeparálás
RészletesebbenMesterséges Intelligencia I. (I602, IB602)
Dr. Jelasity Márk Mesterséges Intelligencia I. (I602, IB602) kurzus kilencedik előadásának jegyzete (2008. november 3.) Tanulás (Learning) Készítette: Szabó Péter EHA: SZPNAAT.SZE Szeged, 2008. december
RészletesebbenAdatbázisrendszerek 8. előadás: Az Enhanced Entity-Relationship modell március 27.
Adatbázisrendszerek Az Enhanced Entity-Relationship Szuperosztályok, ok, öröklődés, specializáció,, leképezés re 2018. március 27. 2 EER k Egy osztály egyedek egy halmaza vagy kollekciója; magában foglal
RészletesebbenAdatbázis-kezelés ODBC driverrel
ADATBÁZIS-KEZELÉS ODBC DRIVERREL... 1 ODBC: OPEN DATABASE CONNECTIVITY (NYÍLT ADATBÁZIS KAPCSOLÁS)... 1 AZ ODBC FELÉPÍTÉSE... 2 ADATBÁZIS REGISZTRÁCIÓ... 2 PROJEKT LÉTREHOZÁSA... 3 A GENERÁLT PROJEKT FELÉPÍTÉSE...
RészletesebbenMiskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.
Nonparametric Tests Petra Petrovics PhD Student Hypothesis Testing Parametric Tests Mean o a population Population proportion Population Standard Deviation Nonparametric Tests Test or Independence Analysis
RészletesebbenMesterséges intelligencia 2. laborgyakorlat
Mesterséges intelligencia 2. laborgyakorlat Keresési módszerek A legtöbb feladatot meg lehet határozni keresési feladatként: egy ún. állapottérben, amely tartalmazza az összes lehetséges állapotot fogjuk
RészletesebbenVéletlenszám generátorok és tesztelésük. Tossenberger Tamás
Véletlenszám generátorok és tesztelésük Tossenberger Tamás Érdekességek Pénzérme feldobó gép: $0,25-os érme 1/6000 valószínűséggel esik az élére 51% eséllyel érkezik a felfelé mutató oldalára Pörgetésnél
RészletesebbenA szemantikus elemzés elmélete. Szemantikus elemzés (attribútum fordítási grammatikák) A szemantikus elemzés elmélete. A szemantikus elemzés elmélete
A szemantikus elemzés elmélete Szemantikus elemzés (attribútum fordítási grammatikák) a nyelvtan szabályait kiegészítjük a szemantikus elemzés tevékenységeivel fordítási grammatikák Fordítóprogramok előadás
RészletesebbenGépi tanulás és Mintafelismerés
Gépi tanulás és Mintafelismerés jegyzet Csató Lehel Matematika-Informatika Tanszék BabesBolyai Tudományegyetem, Kolozsvár 2007 Aug. 20 2 1. fejezet Bevezet A mesterséges intelligencia azon módszereit,
Részletesebben