Előfeldolgozás, exploratory analysis
|
|
- Nóra Oroszné
- 6 évvel ezelőtt
- Látták:
Átírás
1 Előfeldolgozás, exploratory analysis Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék február 19. Csima Judit Előfeldolgozás, exploratory analysis 1 / 55
2 Az adatbányászat részei Mivel kezdődik az adatbányászat? majd tanulunk konkrét eljárásokat, amikkel az adatokból mindenféle érdekes infó nyerhető ki de ahhoz, hogy ezek menjenek szép adatok kellenek eredendőan az adat sose szép, valamit biztos csinálni kell vele ez sok munka, nem egzakt feladat de azért a fő részeire van egy protokoll Csima Judit Előfeldolgozás, exploratory analysis 2 / 55
3 Az adatbányászat részei Honnan szerzünk adatokat? néha úgy találjuk készen, valaki összegyűjtötte (ingyen elérhető, meg kell venni) szinte sose pont olyan, mint ami nekünk kell sokszor elosztottan van esetleg több táblából kell valahogy egyet csinálni (adatbázis kezelés) fontos, hogy dokumentáljuk, hogy honnan szereztük, honnan töltöttük le ha valaki már előfeldolgozta valahogy, akkor is értelmes látni a nyers adatot vagy legalább megérteni, hogy mi történt a feldolgozás során Csima Judit Előfeldolgozás, exploratory analysis 3 / 55
4 Az adatbányászat részei Fő részek, ha már megvan az adat ismerkedés: milyen típusú attribútumok vannak, mit kódolnak, hogyan (ezt érintettük már a múltkor) exploratory elemzés: grafikonok, ábrák, mert így könnyebb látni mintázatokat preprocessing: attribútumok illetve sorok számának csökkentése Csima Judit Előfeldolgozás, exploratory analysis 4 / 55
5 Az adatbányászat részei Ismerkedés az adattal honnan van az adat? hogyan gyűjtötték? elévült-e már az adat? attribútumok típusa, tipikus értékei, volt-e default érték a bevitelkor Csima Judit Előfeldolgozás, exploratory analysis 5 / 55
6 Az adatbányászat részei Ismerkedés az iris data frame-mel ezt fogjuk használni demonstrációs célra letölthető innen: mlearn/mlrepository.html benne van az R base package-ben is:?iris háromféle írisz faj adatai négy attribútum: szirom hossza és szélessége, csészelevél hossza és szélessége Csima Judit Előfeldolgozás, exploratory analysis 6 / 55
7 Az adatbányászat részei Ismerkedés az adattal R-ben legjobb, ha van dokumentáció, pl. R-ben?iris elég sok infót megad: Format iris is a data frame with 150 cases (rows) and 5 variables (columns) named Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, and Species. ebből most kiderül, hogy : Hány oszlop van? Mit kódolnak? Hány sor van? ha nincs ilyen dokumentáció vagy plusz infót akarunk: head(), summary() vagy str() függvények R-ben persze bármivel csinálhatjuk, csak derüljön ki, hogy kábé milyen számok vannak, milyen kategóriák, stb. Csima Judit Előfeldolgozás, exploratory analysis 7 / 55
8 Az adatbányászat részei str() > str(iris) $ Sepal.Length: num $ Sepal.Width : num $ Petal.Length: num $ Petal.Width : num $ Species : Factor w/ 3 levels "setosa","versicolor",..: Csima Judit Előfeldolgozás, exploratory analysis 8 / 55
9 Az adatbányászat részei summary() > summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.300 Min. :2.000 Min. :1.000 Min. : st Qu.: st Qu.: st Qu.: st Qu.:0.300 Median :5.800 Median :3.000 Median :4.350 Median :1.300 Mean :5.843 Mean :3.057 Mean :3.758 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 Species setosa :50 versicolor:50 virginica :50 Csima Judit Előfeldolgozás, exploratory analysis 9 / 55
10 Exploratory elemzés Exploratory elemzés: mi ez? mielőtt az elemzést elkezdenénk meg kell ismerkedni az adatokkal ez alapján lehet eldönteni, hogy milyen algoritmust használjunk egy adott algoritmusban milyen attribútumok a fontosak (hol lehet érdekes, megvizsgálandó kapcsolat vagy hol van redundancia) látszik-e valami nyilvánvaló hiba vagy tennivaló az adatokkal (átskálázás, hiányzó értékek, kilógó értékek) vannak olyan mintázatok, amiket egy jól sikerült ábrán az ember gyorsan felismer Csima Judit Előfeldolgozás, exploratory analysis 10 / 55
11 Exploratory elemzés Exploratory elemzés: fő részei összegző statisztikák készítése ábrázolás Csima Judit Előfeldolgozás, exploratory analysis 11 / 55
12 Exploratory elemzés Exploratory elemzés a statisztikában John Tukey nevéhez fűződik főleg ábrázolás klaszterezés és anomália detektálás is a része (ez is főleg grafikus) adatbányászatban a klaszterezés és az anomális detektálás lehet része az exploratory elemzésnek, de sokkal több ennél ezért majd ezekről részletesen beszélünk később Csima Judit Előfeldolgozás, exploratory analysis 12 / 55
13 Exploratory elemzés Összegző statisztikák ezt már érintettük, amikor az adattal való ismerkedésről volt szó célja, hogy valami számszerű adattal összegezzük a változók értékeit gyorsan számolható legyen informatív legyen kábé hol vannak az értékek, mennyire szóródnak, mik a gyakoriságok általában vannak mindenféle hasznos parancsok erre Csima Judit Előfeldolgozás, exploratory analysis 13 / 55
14 Exploratory elemzés Összegző statisztikák, kategória típusú attribútum kategória típusú változónál a gyakoriságok informatívak erre láttuk már R-ben az str() és summary() függvényeket (ezekről mindjárt újra beszélünk) van egy table() függvény is: > table(iris$species) setosa versicolor virginica Csima Judit Előfeldolgozás, exploratory analysis 14 / 55
15 Exploratory elemzés str() > str(iris) $ Sepal.Length: num $ Sepal.Width : num $ Petal.Length: num $ Petal.Width : num $ Species : Factor w/ 3 levels "setosa","versicolor",..: Csima Judit Előfeldolgozás, exploratory analysis 15 / 55
16 Exploratory elemzés Percentilisek folytonos adatokhoz jó 0 és 100 közötti percentilisekről beszélünk egy halmaz (attribútumhalmaz, adott oszlop értékei) p-percentilise az az x p érték, aminél a halmaz értékeinek p%-a kisebb egyenlő például x 50% azt az értéket adja meg, aminél az összes előforduló érték fele nem nagyobb szokásos nézni a 25, 50, 75 percentiliseket és a min és a max értéket pont erre szolgál a summary() R-ben de persze van quantile() függvény is, ahol beálĺıtható, hogy milyen percentiliseket akarok, default a 0, 25, 50, 75, 100 (ahol 0 a min érték és 100 a max érték) Csima Judit Előfeldolgozás, exploratory analysis 16 / 55
17 Exploratory elemzés summary() > summary(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Min. :4.300 Min. :2.000 Min. :1.000 Min. : st Qu.: st Qu.: st Qu.: st Qu.:0.300 Median :5.800 Median :3.000 Median :4.350 Median :1.300 Mean :5.843 Mean :3.057 Mean :3.758 Mean : rd Qu.: rd Qu.: rd Qu.: rd Qu.:1.800 Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500 Species setosa :50 versicolor:50 virginica :50 Csima Judit Előfeldolgozás, exploratory analysis 17 / 55
18 Exploratory elemzés Átlag (mean) az átlag (az adatok számtani közepe) az egyik leggyakoribb összegző függvény mean(x) = x = 1 m x i m i=1 az átlag nagyon érzékeny a kilógó adatokra ezért sokszor a mediánt használjuk helyette Csima Judit Előfeldolgozás, exploratory analysis 18 / 55
19 Exploratory elemzés Medián (median) medián: hasonló az 50%-os percentilis értékéhez, de nem egészen az { xr+1 if m = 2r + 1 median(x) = 1 2 (x r + x r+1 ) if m = 2r ez persze enm ugyanaz, mint az átlag az emberek több, mint 99%-ának az átlagnál több lába van Csima Judit Előfeldolgozás, exploratory analysis 19 / 55
20 Exploratory elemzés Szórás-szerűségek range: milyen tartományba esnek az adatok (max - min) 1 m szórásnégyzet illetve szórás: (x i x) 2 m 1 i=1 de ez is érzékeny a kilógó értékekre, ezért néha inkább 1 m x i x m i=1 ábrázolásnál lesznek majd olyan technikák, amikkel ezeket a mennyiségeket jól lehet látni Csima Judit Előfeldolgozás, exploratory analysis 20 / 55
21 Exploratory elemzés Ábrázolás célja az ismerkedés során az adatok közti kapcsolatot vagy adat tulajdonságait mutató jellemzőket ember számára feldolgozható módon megjeleníteni ember számára könnyebb egy grafikont értelmezni, mint egy táblázatot minták jobban látszanak (ember számára) kilógó adatok, furcsaságok is jobban kiugranak majd lesz szó arról, hogy az ábrázolás milyen szerepet kap az eredmények ismertetésekor általában sok ábra készül, gyorsan Csima Judit Előfeldolgozás, exploratory analysis 21 / 55
22 Exploratory elemzés Example: Sea Surface Temperature The following shows the Sea Surface Temperature (SST) for July 1982 Tens of thousands of data points are summarized in a single figure Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Csima Judit Előfeldolgozás, exploratory analysis 22 / 55
23 Exploratory elemzés Milyen a (jó) ábrázolás? fontos a jó elrendezés cél egy jól értelmezhető ábra általában nem lehet mindent egy ábrában áttekinteni ügyesen választunk néhány attribútumot, amiket vagy amiknek a kapcsolatát megvizsgáljuk vannak R-ben ezt támogató klassz parancsok, erről majd laboron az exploratory elemzésnél elég, ha mi értjük, hogy mi van az ábrán sok fajtája lehet, pl. hisztogram, boxplot, scatterplot, stb. Csima Judit Előfeldolgozás, exploratory analysis 23 / 55
24 Exploratory elemzés > x = rnorm(10000, 0, 1) > y = x + rnorm(10000, 0, 0.1) > plot(x,y) > smoothscatter(x,y) y y Csima Judit x Előfeldolgozás, exploratory analysis x 24 / 55
25 Exploratory elemzés Hisztogram egy változó értékeinek eloszlását mutatja csoportokba osztja az értékeket és az egy csoportba esők darabszámát mutatja az oszlopok magassága a darabszámot jelzi működik kategorikus és folytonos attribútumokra is Csima Judit Előfeldolgozás, exploratory analysis 25 / 55
26 Exploratory elemzés Iris Iris Frequency Frequency Petal width Petal width Csima Judit Előfeldolgozás, exploratory analysis 26 / 55
27 Exploratory elemzés Two-Dimensional Histograms Show the joint distribution of the values of two attributes Example: petal width and petal length What does this tell us? Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Csima Judit Előfeldolgozás, exploratory analysis 27 / 55
28 Exploratory elemzés Visualization Techniques: Box Plots Box Plots Invented by J. Tukey Another way of displaying the distribution of data Following figure shows the basic part of a box plot outlier 10 th percentile 75 th percentile 50 th percentile 25 th percentile 10 th percentile Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Csima Judit Előfeldolgozás, exploratory analysis 28 / 55
29 Exploratory elemzés Example of Box Plots Box plots can be used to compare attributes Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Csima Judit Előfeldolgozás, exploratory analysis 29 / 55
30 Exploratory elemzés Scatterplot (pontdiagramm) soroknak, objektumoknak pontok felelnek meg a síkon vagy esetleg térben a pontok helye megfelel a két vagy három kiválasztott attribútum értékeinek a max. három kiválasztott dimenzión felül a pontoknak lehet színe és/vagy alakja, és/vagy mérete, ezekkel együtt max. 5-6 dimenzió ábrázolható de azért igazából 4 dimenzió felett már nehéz értelmezni, amit látunk Csima Judit Előfeldolgozás, exploratory analysis 30 / 55
31 Exploratory elemzés Scatter Plot Array of Iris Attributes Tan,Steinbach, Kumar Introduction to Data Mining 8/05/ Csima Judit Előfeldolgozás, exploratory analysis 31 / 55
32 Eredmények prezentálása Az eredmények prezentálása az ábrázolás fontos az eredmények prezentálásakor is részben hasonló elvek vonatkoznak rá, mint az exploratory ábrázolásra fontos a jó elrendezés, cél a jól értelmezhető ábra a legfontosabb eredményeket kell megmutatni, mindent nem lehet sok fajtája lehet, pl. hisztogram, boxplot, scatterplot, stb. ami nagyon más: nem elég, ha mi értjük, hogy mi van az ábrán értelmes ábracím, tengelyek rendes elnevezése, skála mérete, informatív képaláírás laboron majd nézzük ezt R-ben Csima Judit Előfeldolgozás, exploratory analysis 32 / 55
33 Eredmények prezentálása Az eredmények prezentálása az ábrázolás fontos az eredmények prezentálásakor is részben hasonló elvek vonatkoznak rá, mint az exploratory ábrázolásra fontos a jó elrendezés, cél a jól értelmezhető ábra a legfontosabb eredményeket kell megmutatni, mindent nem lehet sok fajtája lehet, pl. hisztogram, boxplot, scatterplot, stb. ami nagyon más: nem elég, ha mi értjük, hogy mi van az ábrán értelmes ábracím, tengelyek rendes elnevezése, skála mérete, informatív képaláírás laboron majd nézzük ezt R-ben Csima Judit Előfeldolgozás, exploratory analysis 32 / 55
34 Előfeldolgozás, preprocessing Cél kevesebb oszlop legyen: oszlopok elhagyása, összevonása, új (jobb) feature-ök vezetetés régiek elhagyása mellet sorok számának csökkentése, sorok felosztása training és test (és esetleg validation) halmazra mindezt azért, hogy gyorsabban fusson le az algoritmus jobb legyen az eredmény (kifejezőbb attribútumok) Csima Judit Előfeldolgozás, exploratory analysis 33 / 55
35 Előfeldolgozás, preprocessing Az előfeldolgozás részei feature subset selection: oszlopszámot csökkent viszonylag triviális módon aggregáció: összevonás, célja az oszlopszám csökkentése mintavételezés (sampling): célja a sorok számának csökkentése dimenziócsökkentés: kisebb mátrix legyen, oszlopok számának csökkentése, de nem összevonással új attribútumok bevezetése: feature creation (de közben csökken az oszlopszám, ennek spec. esete a dimenziócsökkentés) diszkretizálás, binárisra átírás: az oszlop típusát változtatja meg attribútumok transzformálása máshogy: skálázás, standardizálás Nem feltétlenül ez a sorrend és nem is kell mindig minden. Csima Judit Előfeldolgozás, exploratory analysis 34 / 55
36 Előfeldolgozás, preprocessing Dimenziócsökkentés: miért? ha nagy a dimenzió, akkor lassúak lehetnek az algoritmusok vagy nem is működnek jól meg sok hely is kell az adatok tárolására ha kisebb diemnzióban dolgozunk, akkor könnyebb (lehetséges egyáltalán) ábrázolni az adatokat tranzakciós és dokumentum mátrixoknál óriási dimenziószám van ez azért is baj, mert nagy dimenzióban a pontok közötti eltérések nem különülnek el nagyon Ez a curse of dimensionality. Csima Judit Előfeldolgozás, exploratory analysis 35 / 55
37 Előfeldolgozás, preprocessing Curse of Dimensionality When dimensionality increases, data becomes increasingly sparse in the space that it occupies Definitions of density and distance between points, which is critical for clustering and outlier detection, become less meaningful Randomly generate 500 points Compute difference between max and min distance between any pair of points Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Előfeldolgozás, exploratory analysis 36 / 55
38 Előfeldolgozás, preprocessing Dimenziócsökkentés, módszerek lineáris algebrai módszerek, automatikus, R-ben is van a régi attribútumok valami lineáris kompozíciójaként állnak elő az új attribútumok főkomponens anaĺızis: PCA (Principal Component Analysis) szinguláris érték felbontás: SVD (Singular Value Decomposition) más módszerek: nem automatizáltak supervised: emberi beavatkozással hozunk létre új változókat, háttértudás birtokában nem-lineáris technikák: az új attribútumok a régiekből állnak elő, de nem lineáris kombinációval Cél mindig az, hogy kevesebb attribútum legyen a végén. Csima Judit Előfeldolgozás, exploratory analysis 37 / 55
39 Előfeldolgozás, preprocessing Feature subset selection: triviális(?) rész redundáns oszlopok felismerése például eladott termék ára, befizetett ÁFA (amennyiben uaz az áfakulcs minden terméknél, akkor az egyik nem kell) irreleváns oszlopok felismerése pl. neptun kód irreleváns, ha következő féléves átlagot akarunk előre jelezni ha jó dokumnetáció van és ismerjük a környezetet, ahonnan az adat jön, akkor ez nem nehéz emberi feladat, nem (nagyon) lehet automatizálni Csima Judit Előfeldolgozás, exploratory analysis 38 / 55
40 Előfeldolgozás, preprocessing Feature subset selection: alaptechnika cél: a triviális szűrés utáni attribútumoknak csak egy részét tartsuk meg gyorsabb/jobb legyen az elemzés az új attribútum halmazzal futtassuk a használni kívánt adatbányászati algoritmust egy mintán az eredeti és a potenciális szűkebb oszlophalmazzal nézzük meg, hogy elromlott-e az eredmény illetve mi történt a sebességgel döntsük el, hogy megéri-e a csökkentett attribútumhalmaz Csima Judit Előfeldolgozás, exploratory analysis 39 / 55
41 Előfeldolgozás, preprocessing Feature subset selection: módszerek brute-force: nézzük meg minden részhalmazát az attribútumhalmaznak: ez nem nagyon járható, már n, az attribútumok száma is nagy, 2 n óriási beágyazott módszer: a használt adatbányászati algoritmus majd kiválogatja a fontosakat (döntési fák pl.) automatikus szűrés: az algoritmus futása előtt valahogy szűrünk, pl. ha két oszlop korrelációja valami adott értéknél nagyobb, akkor egyiket eldobjuk valahogyan (ember?/automatizmus) generálok esélyes részhalmazokat és ezeket tesztelem kis mintán csökkentem egyesével az attibútumok számát, amíg valami STOP-feltétel miatt le nem állok ezzel egy legfontosabb(nak tűnő) attribútummal kezdve egyre többwet veszek be, amíg elég jó nem lesz az elemzés Csima Judit Előfeldolgozás, exploratory analysis 40 / 55
42 Előfeldolgozás, preprocessing Aggregáció valami csoportosítás alapján összegzem a számokat ha az adatsorok azt tartalmazzák, hogy melyik város, melyik üzlete, mennyi bevételt produkált egy napon aggregálhatok városra: adott városbeli bevétel egy napon, városok közti összefüggések aggregálhatok időtartamra: boltok havi bevételei, jobban látszanak a boltok közötti sorrendek kérdések: mi alapján vonok össze, mit összegzek Csima Judit Előfeldolgozás, exploratory analysis 41 / 55
43 Előfeldolgozás, preprocessing Aggregáció haszna kevesebb sor lesz átláthatóbb, esetleg ábrázolhatóbb adatok (kevesebb dimenzió lesz, hatékonyabban lehet ábrázolni) stabilabb adatok, tendenciák jobban látszódnak Csima Judit Előfeldolgozás, exploratory analysis 42 / 55
44 Előfeldolgozás, preprocessing Mintavételezés lehet az adatgyűjtés része is (mikrocenzus) az ismerkedéskor is jól jöhet: könnyebben áttekinthető, hogy mivel van dolgunk a különböző módszerek tesztelésére elengedhetetlen: nem akarunk minden módszert az egész halmazon lefuttatni magában is érdekes lehet, ha túl sok az adat és drága vagy lassú feldolgozni Csima Judit Előfeldolgozás, exploratory analysis 43 / 55
45 Előfeldolgozás, preprocessing Mintavételezés alapfeltevései olyan minta kell, ami jól reprezentálja a teljes halmazt: reprezentatív honnan tudjuk, hogy ilyen-e? amikor kábé ugyanaz az eredmény, következtetés, bármi, amiért az egész eljárást csináljuk hasonló a mintán és az egészen ez nem valami egzakt vannak ennek tesztelésére is technikák (nagy terület) Csima Judit Előfeldolgozás, exploratory analysis 44 / 55
46 Előfeldolgozás, preprocessing Mintavételezés típusai egy lehetséges felosztás: egyenletes eloszlás szerinti random mintavételezés: minden elem ugyanakkora valószínűséggel kerül be, akkor jó, ha homogén az adatbázis, de ilyenkor sem árt egy permutálás a választás előtt több részre osztani a mintát, minden részből választani véletlenszerűen visszatevéses-e? Csima Judit Előfeldolgozás, exploratory analysis 45 / 55
47 Előfeldolgozás, preprocessing Minta mérete nyilván ne legyen nagyon nagy (összemérhető az eredetivel), mert akkor minek csináljuk de azért elég nagynak kell lennie ahhoz, hogy jól reprezentáljon ha van valami mintázat az adatokon, akkor az látszódjon a mintán is egy módszer a progresszív sampling: növelni a minta méretét, amíg az elég jó lesz, pl. predikció minősége szerint Csima Judit Előfeldolgozás, exploratory analysis 46 / 55
48 Előfeldolgozás, preprocessing Sample Size 8000 points 2000 Points 500 Points Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Csima Judit Előfeldolgozás, exploratory analysis 47 / 55
49 Előfeldolgozás, preprocessing PCA és SVD mindkettő lineáris algebrai módszer vektorok a sorok, eredetileg egy n dimenziós térben az egyes oszlopok a dimenzióknak felelnek meg cél olyan koordinátarendszert találni valami alacsonyabb dimenzióban, amire levetítve a vektorokat (azaz sorokat) kevés az információvesztés ennek az alacsonyabb koordinátarendszernek a vektorai lesznek az új attribútumok így kisebb helyen elférnek az adatok (bár információvesztés van) felgyorsíthatja az algoritmusokat, ha kevesebb a paraméter Csima Judit Előfeldolgozás, exploratory analysis 48 / 55
50 Előfeldolgozás, preprocessing PCA a kovariancia mátrix sajátvektorait keressük meg (ennek mindig van oszlopszámnyi sajátvektora), ezek lesznek az új attribútumok az új dimenzió az lesz, hogy ezeket sajátérték alapján csökkenő sorrendbe téve hányat választok belőlük általában ez lassú, ha nagy a mátrix, de utána jól használható kisebb mátrix jön létre SVD hasonló céllal, kicsit más módszerrel talál hasonló tulajdonságú vektorokat R-ben svd() függvény jól használható Csima Judit Előfeldolgozás, exploratory analysis 49 / 55
51 Előfeldolgozás, preprocessing Új attribútumok bevezetése nem feltétlenül kevesebb attribútum létrehozása a cél általános cél: olyan új attribútumhalmazt találni, ami jobban használható sokszor (mindig?) emberi feladat, háttértudás kell hozzá fajtái: feature extraction: pl. képfeldolgozásnál a pixelek adatait tartalmazó nyers adatból: van-e rajta ember, van-e ilyen vagy olyan kontúr, stb. ehhez ember, vagy ember alkotta spéci algoritmus kell attribútumok kombinálása háttértudással: tömeg és térfogat helyett sűrűséggel dolgozni Csima Judit Előfeldolgozás, exploratory analysis 50 / 55
52 Előfeldolgozás, preprocessing Diszkretizálás Célja: folytonos változót diszkrétté alakítani ez kellhet, ha olyan algoritmust akarunk futtatni, amihez diszkrét értékű változók kellenek, pl. asszociációs szabályok kutatása, bizonyos típusú döntési fák készítése nem akarunk sok értéket nyilvántartani csak a nagyobb kategóriák a fontosak: magas, közepes, alacsony értékek minden értéket valami kategóriába akarunk sorolni lehetnek diszjunkt vagy átfedő kategoriák (felhasználástól függően) kérdés, hogy hogyan alakítjuk ki a csoportokat Csima Judit Előfeldolgozás, exploratory analysis 51 / 55
53 Előfeldolgozás, preprocessing Diszkretizálás, hogyan? Kérdés, hogy mire kell a diszkretizálás: ha az exploratory elemzés része (más-e a tendencia alacsony és magas értékek körében), akkor nem érdemes nagyon szofisztikált módszert használni ha a diszkretizálásra alapozunk valami algoritmust, akkor fontos lenne jól csinálni Általában jól jön az adatok hátterének ismerete, valami szakértő véleménye. Csima Judit Előfeldolgozás, exploratory analysis 52 / 55
54 Előfeldolgozás, preprocessing Diszkretizálás, hogyan? egyenlő darabszámú csoportokat létrehozva (általában nem jó) a folytonos változó értékészletét egyenletesen felosztva csoportosítani az elemeket (ez se biztos, hogy jó) lehet klaszterezni és a klaszterek azonosítói lesznek a diszkrét változó lehetséges értékei (jobb, de macerás: sok idő, klaszterszámot nem ismerjük mindig) Csima Judit Előfeldolgozás, exploratory analysis 53 / 55
55 Előfeldolgozás, preprocessing Binárissá átírás a diszkretizálás után jön, előbb diszkrét értékű változót kell létrehozni asszociációs szabályokhoz elengedhetetlen módszere: minden lehetséges diszkrét értékre egy változó, ami vagy igaz vagy hamis lehet így egy k lehetséges értékű diszkrét változóhoz k új bináris változót kell legyártani az i. változó értéke pontosan akkor 1, ha az adott sorban az eredeti változó értéke i volt Csima Judit Előfeldolgozás, exploratory analysis 54 / 55
56 Előfeldolgozás, preprocessing Attribútumok transzformálása Amikor már minden szép, az adatok rendben vannak, csak az a baj, hogy nem tudjuk jól ábrázolni, mert pl. vannak outlierek, amik miatt az ábra nagyon deformált lesz nem azonos skálán vannak az oszlopok: gyerekek száma vs. fizetés forintban Valami bijektív függvényt alkalmazunk: log, kivonás, osztás (normalizálás speciális eset). Csima Judit Előfeldolgozás, exploratory analysis 55 / 55
Minden az adatról. Csima Judit. 2015. február 11. BME, VIK, Csima Judit Minden az adatról 1 / 41
Minden az adatról Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Minden az adatról 1 / 41 Adat: alapfogalmak Adathalmaz elvileg bármi, ami információt
Csima Judit március 9. és 16.
Grafika Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2017. március 9. és 16. Csima Judit Grafika 1 / 18 Grafika általában Grafika az R-ben Van néhány alapvető package az ábrázolásra:
Klaszterezés, 2. rész
Klaszterezés, 2. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 208. április 6. Csima Judit Klaszterezés, 2. rész / 29 Hierarchikus klaszterezés egymásba ágyazott klasztereket
Csima Judit április 9.
Osztályozókról még pár dolog Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. április 9. Csima Judit Osztályozókról még pár dolog 1 / 19 SVM (support vector machine) ez is egy
Adatbányászati technikák (VISZM185) 2015 tavasz
Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
Principal Component Analysis
Principal Component Analysis Principal Component Analysis Principal Component Analysis Definíció Ortogonális transzformáció, amely az adatokat egy új koordinátarendszerbe transzformálja úgy, hogy a koordináták
Alkalmazott statisztika feladatok
Alkalmazott statisztika feladatok 1. Leíró statisztikák és grakonok 1.1. a. Olvassuk be a Davis adatsort a car vagy a cardata csomagból! Ábrázoljuk a weight változó boxplotját, majd értelmezzük az outlier
3. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba
Adatbányászat: Adatfeltárás 3. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kelet-magyarországi
Vizuális adatelemzés
Vizuális adatelemzés Rendszermodellezés 2017. Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.05. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)
3. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba
Adatbányászat: Adatfeltárás 3. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Mi az adatfeltárás? Az adatok előzetes feltárása (vizsgálata) segít jellemzőinek
Segítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
Faktoranalízis az SPSS-ben
Faktoranalízis az SPSS-ben Kvantitatív statisztikai módszerek Petrovics Petra Feladat Megnyitás: faktor.sav Fogyasztók materialista vonásai (Richins-skála) Forrás: Sajtos-Mitev, 250.oldal Faktoranalízis
Asszociációs szabályok
Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában
Faktoranalízis az SPSS-ben
Faktoranalízis az SPSS-ben = Adatredukciós módszer Petrovics Petra Doktorandusz Feladat Megnyitás: faktoradat_msc.sav Forrás: Sajtos-Mitev 250.oldal Fogyasztók materialista vonásai (Richins-skála) Faktoranalízis
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
Csima Judit május 10.
Asszociációs-szabályok, 3. rész Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. május 10. Csima Judit Asszociációs-szabályok, 3. rész 1 / 21 Eddig mi volt? Apriori-algoval gyakori
Feladatok: pontdiagram és dobozdiagram. Hogyan csináltuk?
Feladatok: pontdiagram és dobozdiagram Hogyan csináltuk? Alakmutatók: ferdeség, csúcsosság Alakmutatók a ferdeség és csúcsosság mérésére Ez eloszlás centrumát (középérték) és az adatok centrum körüli terpeszkedését
Mintavételezés, szűrés, outlierek detektálása
Mintavételezés, szűrés, outlierek detektálása Salánki Ágnes salanki@mit.bme.hu Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and
Csima Judit november 15.
Adatbáziskezelés Normalizálás Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2017. november 15. Csima Judit Adatbáziskezelés Normalizálás 1 / 26 Normalizálás Tétel Tetszõleges (R,
Vizuális adatelemzés
Vizuális adatelemzés Salánki Ágnes, Guta Gábor, PhD Dr. Pataricza András Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
Nagyméretű adathalmazok előfeldolgozása
Nagyméretű adathalmazok előfeldolgozása Jámbor Attila Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék March 5, 2011 Jámbor Attila (BME-SZIT) Előfeldolgozás
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás
STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x
Az R adatelemzési nyelv alapjai I.
Gyakorlati feladat megoldása Az R adatelemzési nyelv alapjai I. September 14, 2018 A feladat megoldása során egy olyan adattáblával fogunk dolgozni, amely hipotetikus személyek testmagasság és testsúly
Közösség detektálás gráfokban
Közösség detektálás gráfokban Önszervező rendszerek Hegedűs István Célkitűzés: valamilyen objektumok halmaza felett minták, csoportok detektálása csakis az egyedek közötti kapcsolatok struktúrájának a
Gyakorló feladatok adatbányászati technikák tantárgyhoz
Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:
Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten)
Adatbányászat Weka-val. (Data Mining with Weka Ian H. Witten) Fejezet 1. - Lecke 1 Bevezető Egy gyakorlati kurzus, hogyan használjuk a Weka-t adatbányászatra. Megmagyarázza az alapelveit egyes népszerű
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
c adatpontok és az ismeretlen pont közötti kovariancia vektora
1. MELLÉKLET: Alkalmazott jelölések A mintaterület kiterjedése, területe c adatpontok és az ismeretlen pont közötti kovariancia vektora C(0) reziduális komponens varianciája C R (h) C R Cov{} d( u, X )
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket
Csima Judit október 24.
Adatbáziskezelés Funkcionális függőségek Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. október 24. Csima Judit Adatbáziskezelés Funkcionális függőségek 1 / 1 Relációs sémák
Grafikonok az R-ben március 7.
Normális eloszlás Grafikonok az R-ben 2012. március 7. Vendégelőadás módosított és végleges időpontja 2012. április 10., 3 óra. Új könyv a tankönyvtárban! Dalgaard, Peter (2008). Introductory statistics
Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba
Adatbányászat: Adatok 2. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Logók és támogatás A tananyag a TÁMOP-4.1.2-08/1/A-2009-0046 számú Kelet-magyarországi
A statisztika alapjai - Bevezetés az SPSS-be -
A statisztika alapjai - Bevezetés az SPSS-be - Kvantitatív statisztikai módszerek Petrovics Petra, Géczi-Papp Renáta SPSS alapok Statistical Package for Social Sciences SPSS nézetek: Data View Variable
Correlation & Linear Regression in SPSS
Petra Petrovics Correlation & Linear Regression in SPSS 4 th seminar Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Correlation
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Sajátértékek és sajátvektorok. mf1n1a06- mf1n2a06 Csabai István
Sajátértékek és sajátvektorok A fizika numerikus módszerei I. mf1n1a06- mf1n2a06 Csabai István Lineáris transzformáció Vektorok lineáris transzformációja: általános esetben az x vektor iránya és nagysága
Változók eloszlása, középértékek, szóródás
Változók eloszlása, középértékek, szóródás Populáció jellemzése Empirikus kutatás (statisztikai elemzés) célja: a mintából a populációra következtetni. Minta: egy adott változó a megfigyelési egységeken
Bevezetés az SPSS program használatába
Bevezetés az SPSS program használatába Statisztikai szoftver alkalmazás Géczi-Papp Renáta SPSS alapok Statistical Package for Social Sciences SPSS nézetek: Data View Variable View Output Viewer Sintax
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Nonparametric Tests
Nonparametric Tests Petra Petrovics Hypothesis Testing Parametric Tests Mean of a population Population proportion Population Standard Deviation Nonparametric Tests Test for Independence Analysis of Variance
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 7. Előadás Egyenletes eloszlás Binomiális eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell /56 Matematikai statisztika Reprezentatív mintavétel
Adatbányászat: Adatok. 2. fejezet. Tan, Steinbach, Kumar Bevezetés az adatbányászatba
Adatbányászat: Adatok 2. fejezet Tan, Steinbach, Kumar Bevezetés az adatbányászatba előadás-fóliák fordította Ispány Márton Tan,Steinbach, Kumar Bevezetés az adatbányászatba Fordító: Ispány Márton 1 Az
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
Microsoft Excel 2010. Gyakoriság
Microsoft Excel 2010 Gyakoriság Osztályközös gyakorisági tábla Nagy számú mérési adatokat csoportokba (osztályokba) rendezése -> könnyebb áttekintés Osztályokban szereplő adatok száma: osztályokhoz tartozó
A leíró statisztikák
A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
KÖZELÍTŐ INFERENCIA II.
STATISZTIKAI TANULÁS AZ IDEGRENDSZERBEN KÖZELÍTŐ INFERENCIA II. MONTE CARLO MÓDSZEREK ISMÉTLÉS Egy valószínűségi modellben a következtetéseinket a látensek vagy a paraméterek fölötti poszterior írja le.
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Correlation & Linear. Petra Petrovics.
Correlation & Linear Regression in SPSS Petra Petrovics PhD Student Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Exercise
Kutatásmódszertan és prezentációkészítés
Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I
Példák jellemzőkre: - minden pixelérték egy jellemző pl. neurális hálózat esetében csak kis képekre, nem invariáns sem a megvilágításra, sem a geom.
Lépések 1. tanító és teszt halmaz összeállítása / megszerzése 2. jellemzők kinyerése 3. tanító eljárás választása Sok vagy kevés adat áll-e rendelkezésünkre? Mennyi tanítási idő/memória áll rendelkezésre?
KÖZELÍTŐ INFERENCIA II.
STATISZTIKAI TANULÁS AZ IDEGRENDSZERBEN KÖZELÍTŐ INFERENCIA II. MONTE CARLO MÓDSZEREK ISMÉTLÉS Egy valószínűségi modellben a következtetéseinket a látensek vagy a paraméterek fölötti poszterior írja le.
A magyar teljesítménytúra-naptár fejlődése,
A magyar teljesítménytúra-naptár fejlődése, 28-216 Tartalomjegyzék Ferenci Tamás, tamas.ferenci@medstat.hu 217. február 2. Cél 1 Számítástechnikai megjegyzések 1 Eredmények 2 Túrák és túrázok száma..........................................
(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.08. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)
Grafikonok automatikus elemzése
Grafikonok automatikus elemzése MIT BSc önálló laboratórium konzulens: Orosz György 2016.05.18. A feladat elsődleges célkitűzései o eszközök adatlapján található grafikonok feldolgozása, digitalizálása
Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás
Statisztikai programcsomagok gyakorlat Pót zárthelyi dolgozat megoldás A feladatok megoldásához használandó adatállományok: potzh és potolando (weboldalon találhatók) Az állományok kiterjesztése sas7bdat,
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
Utolsó módosítás: Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva.
Utolsó módosítás: 2016.05.11. Dr. Pataricza András (Rendszermodellezés) és Kocsis Imre (Big Data elemzési módszerek) idevágó fóliáit felhasználva. 1 Az alsó három szinttel foglalkoztak már a korábbi előadások.
Leíró statisztika. Adatok beolvasása az R-be és ezek mentése
Leíró statisztika. Adatok beolvasása az R-be és ezek mentése Leíró statisztika Definíciója: populáció egy ismert részhalmazára vonatkozó megfigyelések leírása és összegzése. Jelentősége: nominális adatok
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton
Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke
ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június
GAZDASÁGSTATISZTIKA GAZDASÁGSTATISZTIKA Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TátK Közgazdaságtudományi Tanszékén az ELTE Közgazdaságtudományi
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN
JAVASLAT A TOP-K ELEMCSERÉK KERESÉSÉRE NAGY ONLINE KÖZÖSSÉGEKBEN Supporting Top-k item exchange recommendations in large online communities Barabás Gábor Nagy Dávid Nemes Tamás Probléma Cserekereskedelem
Correlation & Linear Regression in SPSS
Correlation & Linear Regression in SPSS Types of dependence association between two nominal data mixed between a nominal and a ratio data correlation among ratio data Exercise 1 - Correlation File / Open
MATEMATIKA ÉRETTSÉGI május 8. EMELT SZINT
MATEMATIKA ÉRETTSÉGI 007. május 8. EMELT SZINT 1) Oldja meg a valós számok halmazán az alábbi egyenletet! x x 4 log 9 10 sin x x 6 I. (11 pont) sin 1 lg1 0 log 9 9 x x 4 Így az 10 10 egyenletet kell megoldani,
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás
ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 9. Előadás Binomiális eloszlás Egyenletes eloszlás Háromszög eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell 2/62 Matematikai statisztika
Csima Judit BME, VIK, november 9. és 16.
Adatbáziskezelés Függőségőrzés, 3NF-re bontás Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. november 9. és 16. Csima Judit Adatbáziskezelés Függőségőrzés, 3NF-re bontás 1
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével. MAJF21 Eisenberger András május 22. Konzulens: Dr.
Önálló labor beszámoló Képek szegmentálása textúra analízis segítségével 2011. május 22. Konzulens: Dr. Pataki Béla Tartalomjegyzék 1. Bevezetés 2 2. Források 2 3. Kiértékelő szoftver 3 4. A képek feldolgozása
Osztott jáva programok automatikus tesztelése. Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január
Osztott jáva programok automatikus tesztelése Matkó Imre BBTE, Kolozsvár Informatika szak, IV. Év 2007 január Osztott alkalmazások Automatikus tesztelés Tesztelés heurisztikus zaj keltés Tesztelés genetikus
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský
R ++ -tree: an efficient spatial access method for highly redundant point data - Martin Šumák, Peter Gurský Recenzió: Németh Boldizsár Térbeli indexelés Az adatszerkezetek alapvetően fontos feladata, hogy
Data Mining. Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall
Data Mining Machine Learning a gyakorlatban - eszközök és technikák Slides for Chapter 2 of Data Mining by I. H. Witten, E. Frank and M. A. Hall Bemenet: Fogalmak, instanciák, attribútumok szaknyelv Mi
Korrel aci os egy utthat ok febru ar 29.
Korrelációs együtthatók 2012. február 29. Május 2-án elmarad az óra. Helyette április 10-én, kedden 5 órakor vendégelőadás lesz: Maschine learning with R: decision trees, clustering. Applications: language
Geokémia gyakorlat. 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek. Geológus szakirány (BSc) Dr. Lukács Réka
Geokémia gyakorlat 1. Geokémiai adatok értelmezése: egyszerű statisztikai módszerek Geológus szakirány (BSc) Dr. Lukács Réka MTA-ELTE Vulkanológiai Kutatócsoport e-mail: reka.harangi@gmail.com ALAPFOGALMAK:
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet. Nonparametric Tests. Petra Petrovics.
Nonparametric Tests Petra Petrovics PhD Student Hypothesis Testing Parametric Tests Mean o a population Population proportion Population Standard Deviation Nonparametric Tests Test or Independence Analysis
Csima Judit február 19.
Osztályozás Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2018. február 19. Csima Judit Osztályozás 1 / 53 Osztályozás általában Osztályozás, classification adott egy rekordokból
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Ellenőrző kérdések. 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t
Ellenőrző kérdések 2. Kis dolgozat kérdései 36. Ha t szintű indexet használunk, mennyi a keresési költség blokkműveletek számában mérve? (1 pont) log 2 (B(I (t) )) + t 37. Ha t szintű indexet használunk,
Egész számok. pozitív egész számok: 1; 2; 3; 4;... negatív egész számok: 1; 2; 3; 4;...
Egész számok természetes számok ( ) pozitív egész számok: 1; 2; 3; 4;... 0 negatív egész számok: 1; 2; 3; 4;... egész számok ( ) 1. Írd a következõ számokat a halmazábra megfelelõ helyére! 3; 7; +6 ; (
Adatelemzés az R-ben. 2014. április 25.
Adatelemzés az R-ben 2014. április 25. Kísérleti adatok elemzése Kísérlet célja: valamilyen álĺıtás vagy megfigyelés empirikus és szisztematikus tesztelése. Pl. a nők többet beszélnek, mint a férfiak,
y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell
Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
Behatolás detektálás. Behatolás megel!zés. IDS rendszerek. Detektálás Eltérítés Elhárítás. (ellenlépések) Megel!z! csapás Küls! megel!
Behatolás detektálás IDS rendszerek Behatolás megel!zés Megel!z! csapás Küls! megel!zés Küls! elrettentés Bels! megel!zés Bels! elrettentés Detektálás Eltérítés Elhárítás (ellenlépések) Behatolási kísérletek
Az SPC (statisztikai folyamatszabályozás) ingadozásai
A TERMELÉSI FOLYAMAT MINÕSÉGKÉRDÉSEI, VIZSGÁLATOK 2.3 Az SPC (statisztikai folyamatszabályozás) ingadozásai Tárgyszavak: statisztikai folyamatszabályozás; Shewhart-féle szabályozókártya; többváltozós szabályozás.
Rendszámfelismerő rendszerek
Problémamegoldó szeminárium Témavezető: Pataki Péter ARH Zrt. ELTE-TTK 2013 Tartalomjegyzék 1 Bevezetés 2 Út a megoldás felé 3 Felmerült problémák 4 Alkalmazott matematika 5 További lehetőségek Motiváció
7. fejezet: Mutatók és tömbök
7. fejezet: Mutatók és tömbök Minden komolyabb programozási nyelvben vannak tömbök, amelyek gondos kezekben komoly fegyvert jelenthetnek. Először is tanuljunk meg tömböt deklarálni! //Tömbök használata
Előfeldolgozás. Nagyméretű adathalmazok kezelése Molnár András
Előfeldolgozás Nagyméretű adathalmazok kezelése Molnár András Tartalom Történeti áttekintés, adatok rendelkezésre állása Attribútumok típusai, tulajdonságai Távolsági függvények Előfeldolgozás Hiányzó
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR
MISKOLCI EGYETEM GÉPÉSZMÉRNÖKI ÉS INFORMATIKAI KAR Korszerű információs technológiák Klaszteranalízis Tompa Tamás tanársegéd Általános Informatikai Intézeti Tanszék Miskolc, 2018. október 20. Tartalom
Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján. Típusok: felügyelt és felügyelet nélküli tanuló eljárások
Minták automatikus osztályba sorolása a mintát leíró jellemzők alapján Típusok: felügyelt és felügyelet nélküli tanuló eljárások Különbség: előbbinél szükséges egy olyan tanulóhalmaz, ahol ismert a minták
Nagyméretű adathalmazok kezelése (BMEVISZM144) Reinhardt Gábor április 5.
Asszociációs szabályok Budapesti Műszaki- és Gazdaságtudományi Egyetem 2012. április 5. Tartalom 1 2 3 4 5 6 7 ismétlés A feladat Gyakran együtt vásárolt termékek meghatározása Tanultunk rá hatékony algoritmusokat
Adattípusok, ábrák és grafikonok az excelben
Adattípusok, ábrák és grafikonok az excelben Táblázatok és grafikonok Elsőként mindig érdemes táblázatokba rendezni és ábrázolni az adatokat! Miért? Ismerkedjünk az adatokkal! Milyen különbségek látszanak?
Cluster Analysis. Potyó László
Cluster Analysis Potyó László What is Cluster Analysis? Cluster: a collection of data objects Similar to one another within the same cluster Dissimilar to the objects in other clusters Cluster analysis
6. Függvények. 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban?
6. Függvények I. Nulladik ZH-ban láttuk: 1. Az alábbi függvények közül melyik szigorúan monoton növekvő a 0;1 intervallumban? f x g x cos x h x x ( ) sin x (A) Az f és a h. (B) Mindhárom. (C) Csak az f.
Mintavételezés, szűrés, kilógó esetek detektálása
Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes salanki@mit.bme.hu Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology
Nagy méretű adathalmazok vizualizációja
Nagy méretű adathalmazok vizualizációja Big Data elemzési módszerek Kocsis Imre, Salánki Ágnes ikocsis, salanki@mit.bme.hu 2014.10.15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs