Adatbányászat SAS Enterprise Miner

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Adatbányászat SAS Enterprise Miner"

Átírás

1 Adatbányászat SAS Enterprise Miner Hajas Csilla ELTE SAS gyakorlataihoz segédlet. Forrásként (a webrıl letöltve) felhasználtam Kiss Attila, Lukács András, Sidló Csaba és Kósa Balázs diasorozatait is, lásd a linkeket az alábbi oldalon: 1

2 Ajánlott (magyar nyelvő) irodalom Bodon Ferenc magyar nyelvő Adatbányászati algoritmusok tanulmánya: 2

3 Tudásfeltárás (KDD) A tudásfeltárás az adatbázisokban tárolt adatokból implicit, korábban nem ismert és potenciálisan hasznosnak vélt információk nem triviális úton való kinyerésének folyamata. 3

4 Alkalmazási területek Kereskedelem Vásárlói szokások követése Pénzügy Banki hitelbírálat Bankkártya csalások detektálása Orvostudomány Diagnosztika (pl. rákkutatás) DNS láncok elemzése Telekommunikáció Vírusvédelem Hacker támadások 4

5 A tudásfeltárás fıbb lépései 5

6 A tudásfeltárás lépései Felhasználási célok meghatározása Céladatbázis létrehozása Adattisztítás Adatintegráció Adattér csökkentés Adatbányászati algoritmus kiválasztása Az algoritmus használata A kinyert információk értelmezése A megszerzett információk ellenırzése az elvárások alapján 6

7 Üzleti intelligencia Adatok > információ > tudás Döntés Modell Adatbányászat Adatok kinyerése, transzformálása Adattárház Termelés, Szolgáltatás => Adatbázis Hasznos információ Tudás reprezentázió Tisztított, feldolgozott adatok Nyers adatok

8 OLTP - OLAP rendszerek OLTP: On Line Transaction Processing Hagyományos adatbázis alkalmazások, nyilvántartások, vállalatok produktív rendszerei ERP rendszerek: Enterprise Resource Planning Pl.: SAP R/3, Oracle Financials, Libra, stb. OLAP: On Line Analytical Processing Elemzési célú rendszerek elterjedt követelményrendszere 8

9 OLTP OLAP tulajdonságok Tulajdonság OLTP OLAP Orientáció Tranzakciók hatékony tárolása, végrehajtása Adatanalízis Felhasználó Vállalati adminsztrátorok Döntéshozók Feladat Napi folyamatok követése Döntéstámogatás, információszolgáltatás Adatok Aktuális, up-to-date Történeti, archív adatok Összegzett adatok Nem jellemzı, részletes Összegzett, egyesített adatok Adatok nézete Relációs multidimenzionális Felhasználói hozzáférés Olvasás / írás Jellemzıen olvasás Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen Feldolgozandó adat Alkalmanként tizes nagyságrendő Egyszerre akár milliós rekordszám Felhasználók száma Viszonylag sok Néhány, közép- és felsıvezetık Prioritás Állandó rendelkezésre állás, megbízhatóság Rugalmasság, felhasználói önállóság 9

10 Az adat útjának fı állomásai Forrásrendszerek Adattárház Elemzı frontend alkalmazások 10

11 Adattárházak (Data Warehousing) Három kulcsmozzanat: Adatkinyerés a tranzakciós (vagy más vállalat-mőködtetési) forrásrendszerekbıl A kinyert adatok átformálása riport (beszámoló) készítés számára A riportok, beszámolók elérhetıvé tétele a döntéshozók számára. 11

12 Adatbányászat (Data Mining) Data mining (knowledge discovery in databases): Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases SAS: advanced methods for exploring and modelling relationships in large amounts of data Abonyi könyv: Az adatbányászat egy olyan döntéstámogatást szolgáló folyamat, mely érvényes, hasznos, és elızıleg nem ismert, tömör információt tár fel nagy adathalmazból. 12

13 Adatbányászat, mint tudományág Multidiszciplinális tudományág: Statics Pattern Recognition Neurocomputing Databases Data Mining KDD Machine Learning AI 13

14 SAS Enterprise Miner vs. egyéb adatbányász eszközök Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1! ELTE-n még a 4.1-es) SPSS Clementine SAP (adattárház integráció!) 14

15 Enterprise Miner vs. egyéb adatbányász eszközök 15

16 SAS Enterprise Miner 16

17 SAS SEMMA folyamat SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelıen. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemzı eszközök, klaszterezés, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelıkészítés elemzéshez, változók kezelése, kiugró értékek és hiányzó értékek kezelése, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók készítése A gyakorlatokon a konkrét eszközök közül megnézzük a fontosabbakat a SAS Enterprise Miner segítségével 17

18 Input Data Source egy library sas dataset megfelelıje attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) Mintavételezés 18

19 Mintavételezés Mintavétel a populációból: eredménye a (stat) minta A mintavétel módja is lényeges (legegyszerőbb eset: bármelyik elem ugyanakkora valószínőséggel kerül a mintába) A mintavétel eredménye: (statisztikai) minta: x 1,x 2,,x n (számsorozat) Ugyanakkor egy másik, hasonló mintavételnél más mintát kapnánk, azaz az adott minta véletlen kísérlet eredménye. Ha a minta véletlen jellegét vizsgáljuk: X 1,X 2,,X n valószínőségi változó-sorozat, az eloszlása nem ismert (vagy csak részben ismert). 19

20 Data partition node Seeds értéket a legtöbb véletlenszámot generáló algoritmus használ. Ha ezt megjegyezzük, és késıbb ugyanezzel az értékkel hajtatjuk végre az adathalmaz partícióját, akkor végeredményként ugyanazt kapjuk, mint korábban, feltéve persze, ha ugyanazokat a lépéseket hajtjuk végre. A rétegzett (stratified) mintavételezésnél az egyes értékek az eloszlásfüggvénynek megfelelı gyakorisággal kerülnek be a mintába. 20

21 Particionálás training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve) Distribution Explorer vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához 21

22 Multiplot másik vizualizációs, grafikus adatelemzı eszköz automatikus bar chart / scatter plot generálás Insight SAS statisztikai elemzı alkalmazása nagy funkcionalitás több ablakos, egymással együttmőködı aktív elemekkel rendelkezı elemzı eszköz 22

23 Multiplot node 23

24 Hisztogram Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az i- edik osztály: a i x<a i+1 ), a csoportok relatív gyakoriságai megegyeznek az osztály fölé rajzolt téglalap területével. Összterület:1 (hasonló a sőrőségfüggvényhez) Frequency Pontszámok grafikus ábrázolása pontszám 24

25 Statisztikai elemzés Mintaátlag: x x1 : = n x n ha az egyes értékek (l i ) gyakoriságai (f i ) adottak: x f1 l : = n f k l k Medián: a sorbarendezett minta középsı eleme (ha páros sok eleme van: a két középsı átlaga). 25

26 Tapasztalati kvantilisek Elméleti kvantilis: abszolút folytonos, szigorúan monoton F esetén qz=f-1(z) Általában: inf{x:f(x)>z} A tapasztalati eloszlás kvantilisei: tapasztalati kvantilisek. Esetleg lineáris interpolációval lehet pontosítani a becsléseinket. z=1/2: medián. z=1/4, 3/4: kvartilisek 26

27 Az egyes dobozok az alsó kvartilistól a felsı kvartilisig tartanak. Középvonal a medián. A vonalak a teljes terjedelmet felölelik, ha ez az egyes irányokban nem nagyobb a kvartilisek közötti különbség 1.5- szeresénél. Ha ezen kívül Gam2 T5 Norm Uni05 boxplot is vannak pontok, azokat külön-külön jeleníti meg. 27

28 Association asszociációs szabály keresı algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy sequence bemeneti változó Regresszió regressziószámítás és elırejelzés lineáris regresszió logisztikus regresszió 28

29 Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülı elempárok lényegesen hasonlóbbak egymáshoz, mint különbözı klaszterek elempárjai. ehhez: megfelelı hasonlósági függvény bevezetése, klaszterezés jóságának valamilyen mértéke MI megfelelıje: felügyelet nélküli tanulás particionáló klaszterezı algoritmusok: adott klaszterezés folyamatos finomításával haladunk elıre, amíg az eredmény elég jó nem lesz 29

30 Döntési fa szabályok leírása fa formában; belsı pontokhoz megfeleltetünk egy vágási feltételt, ami kettı vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy nagy fát, majd ezt visszavágjuk a megfelelı méretre döntési fa elınye: a felépített modell könnyen értelmezhetı 30

31 Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. forrás: Gregorics Tibor többszintő perceptron modell universal approximator tulajdonság: tetszıleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni 31

32 Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve ıket, hogy az elırejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya? 32

33 Egyéb témák dimenzió-csökkentés (pl. klaszterezésnél fontos) Kiugró értékek szőrése, hiányzó értékek pótlása modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei profit mátrix modellek egyesítése (ensemble) 33

34 Adatbányászati alapproblémák A SAS gyakorlatokon az alábbi feladatok lesznek: 1. Klaszterezés 2. Asszociációs szabály keresés 3. Regresszió, elırejelzés 4. Osztályozás, döntési fa 34

35 Adatbányászat 1.téma: Klaszterezés 35

36 1. Klaszterezés Elıre nem ismert osztályok meghatározása Az azonos osztályba tartozó objektumok közel legyenek egymáshoz, a különbözı osztályokba tartozók távol Nem felügyelt tanulás 36

37 Eltérés elemzés Kiugró értékek keresése Legtöbbször kiszőrik mert zajnak tekintik Alkalmazási terület Vírus védelem Külsı támadások elleni védelem Csalások felderítése 37

38 1.Téma: Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülı elempárok lényegesen hasonlóbbak egymáshoz, mint különbözı klaszterek elempárjai. ehhez: megfelelı hasonlósági függvény bevezetése, klaszterezés jóságának valamilyen mértéke MI megfelelıje: felügyelet nélküli tanulás particionáló klaszterezı algoritmusok: adott klaszterezés folyamatos finomításával haladunk elıre, amíg az eredmény elég jó nem lesz 38

39 A k-átlag algoritmus Az elsı lépésben kiválasztunk k centroidot. Az összes pontot besoroljuk valamelyik csoportba aszerint, hogy melyik centroidhoz esik a legközelebb. Az ilymódon kialakult klasztereknek aztán változik a középpontja (az új középpont átlagszámítással könnyen megadható). A következı lépésben aztán ezek szerint az új centroidok szerint osszuk be klaszterekbe a pontokat. Az algoritmus mindaddig tart, amíg valami változik. Az eljárás a következı hibafüggvényt igyekszik minimalizálni: (p tetszıleges pont, m i centroid). k i= 1p C p m i i 2 39

40 K-means algoritmus 40

41 Adatbányászat 2.téma: Asszociációs szabályok keresése 41

42 Asszociációs szabály keresés forrás: Lukács András (http://www.sztaki.hu/~alukacs/) 42

43 Asszociációs szabályok Vásárlói kosarak elemzése Az X terméket vásárlók 80%-a Y terméket is vásárolt 43

44 Asszociációs szabály keresés 44

45 Asszociációs szabályok Egy asszociációs általános formája: {X 1,, X n } Y. Jelentése: ha egy (fogyasztói) kosárban elıfordulnak az X 1,, X n elemek, akkor nagy valószínőséggel az Y is elıfordul. Hogy pontosan mekkora valószínőséggel: ezt adja meg a szabály konfidenciája (confidence). Nyilván nem minden szabály egyforma jelentıségő: pl. lehet, hogy a {tej, vaj} kenyér szabály csupán amiatt teljesül, mert az emberek általában is nagy valószínőséggel vásárolnak kenyeret. A nagy valószínőség azonban nem elég. Az is fontos, hogy az X 1,, X n, Y elemek viszonylag sokszor forduljanak elı egy kosárban. A támogatottság (vagy szupport (support)), mint mérıszámok pontosan ezt hivatottak elısegíteni. 45

46 Adatbányászat 3.téma: Regresszió 46

47 3.téma: Regresszió Lineáris model Y i =ax i +b+ε i (X i a magyarázó változó értéke, ε i független, azonos eloszlású hiba. E(ε i )=0, általában feltesszük, hogy normális eloszlású. a,b a becsülendı együtthatók) E(Y-(aX+b)) 2 min Megoldás: a n ( xi x)( yi y) 1, bˆ = y i= ˆ = n 2 i= 1 ( x i x) ax ˆ 47

48 Lineáris regresszió Több magyarázó változót is bevonhatunk a modellbe: Y =βx +ε ahol Y,ε n hosszú vektorok, X nxk-as mátrix (ismert értékekbıl), β pedig k hosszú (ismeretlen) paramétervektor. E(Y) =βx. A legkisebb négyzetek módszere A megoldás: n i= 1 ε 2 i β' = ' = ( Y βx')( Y βx') ˆ 1 ( X' X) X' Y' 48

49 A becslés tulajdonságai Torzítatlan Kovarianciamátrix: E( ˆ β β ' )( ˆ β β) = 2 σ ( X' X) 1 Ha ε normális eloszlású, akkor a legkisebb négyzetes becslés egyúttal ML becslés is. Példák: lineáris regresszió, szórásanalízis. 49

50 Hipotézisvizsgálat a lineáris modellben A vizsgált hipotézis: H0 : βh' = ahol H rxk-as mátrix (r<k), rang(h)=r. A valószínőséghányados próba statisztika: ' ' ( Y ˆ βx')( Y ˆ βx') ( Y ˆ βx')( Y ˆ βx') F = ˆ ˆ ' ( Y βx')( Y βx') (n-k)/r F a H 0 esetén F eloszlású (r,n-k) szabadsági fokkal. (Akkor utasítjuk el H 0 t, ha F nagy.) 0 50

51 R2=0.56 R2=0.73 cipõméret cipõméret magasság R2= magasság R2=0.92 A regresszió vizsgálata cipõméret cipõméret magasság magasság 51

52 R2= magasság R2= magasság magasság 52 cipõméret cipõméret R2= magasság R2=0.87 cipõméret cipõméret

53 Regresszió Elırefelé történı választás: elsı lépésben azt a változót választja, amely a legjobban közelíti a célváltozót, ezután kiválasztja azt a két változót, amelyek lineáris kombinációja a legjobb, itt az egyik változó az elızı lépésben kiválasztott változó, a folyamat addig tart, míg egyetlen változónak sem lesz kisebb a p-értéke az elıre megadottnál. 53

54 Regresszió Hátrafelé történı választás: elsı lépésben az összes változó szerepel a modellben, ezek után elhagyja a legkevésbé szignifikáns változót, az eljárás leáll, ha az összes megmaradt változó p-értéke alacsonyabb a megadott küszöbnél. 54

55 Regresszió Lépésenkénti választás (az elırefelé történı választás egy módosítottja): mikor minden arra alkalmas változó bekerült a modellbe, az eljárás kiszőri azokat a változókat, amelyek nem szignifikánsak, az algoritmus leáll, ha nincs olyan változó a modellen kívül, melynek p-értéke egy megadott érték alatt van, a modellben pedig minden változó szignifikáns. 55

56 Logisztikus regresszió Az interval típusú célváltozóknál a rendszer lineáris regressziót használ. A bemeneti változók adott értékei mellett a célváltozó átlagát becsli. Diszkrét célváltozó esetén logisztikus regresszió alkalmazható. Ekkor a célváltozó egy-egy értékének valószínőségét becsli a rendszer. A módszer mögött az a feltételezés áll, miszerint a célváltozó logisztikus transzformációja lineáris kapcsolatot teremt a célváltozó és a bemeneti változók között. Megjegyzés: regresszió esetén a hiányzó értékeket pótolni kell, ellenkezı esetben a módszer automatikusan figyelmen kívül hagyja azokat a változókat, amelyeknél hiányzó értékek szerepelnek. 56

57 Adatbányászat 4.téma: Döntési fa 57

58 4. Osztályozás Elıre meghatározott osztályokba sorolás Felügyelt tanulás Minta alapján tanítás, szabályok generálása az osztályozáshoz Módszerek: Regresszió Döntési fa Neurális háló 58

59 Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Tanuló rendszer modell Elırejelzés 59

60 Osztályozás, elırejelzés megfigyelések input célváltozó Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). Elırejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).

61 Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhetı ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal

62 Döntési fák Készítsünk elemzést döntési fa segítségével is! (A döntési fák esetében nem feltétlenül jelentenek gondot a hiányzó értékek.) Hasonlítsuk össze a két modellt! 62

63 Modellépítés, partícionálás Adathalmaz partícionálás: training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)

64 Döntési fa példa hitelbírálatra (forrás:

65 Döntési fák szabályok leírása fa formában; belsı pontokhoz megfeleltetünk egy vágási feltételt, ami kettı vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy nagy fát, majd ezt visszavágjuk a megfelelı méretre döntési fa elınye: a felépített modell könnyen értelmezhetı

66 Vágási feltételek Bináris és nominális változóknál alapesetben a χ 2 -próbát, mint vágási kritériumot keresı módszert, használó döntési fa algoritmus kerül végrehajtásra, de használható az entrópiát, illetve a Gini-indexet használó döntési fa algoritmus is. Ordinális változó esetén csak az utóbbi kettı módszer választható. Intervallum változók esetén pedig egy F-próbát használó eljárás, illetve egy varianciát minimalizáló eljárás között választhatunk. 66

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Egyszempontos variancia analízis. Statisztika I., 5. alkalom Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése Matematikai alapok és valószínőségszámítás Statisztikai változók Adatok megtekintése Statisztikai változók A statisztikai elemzések során a vizsgálati, vagy megfigyelési egységeket különbözı jellemzık

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai statisztika c. tárgy oktatásának célja és tematikája Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1. Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,

Részletesebben

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1. Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,

Részletesebben

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Gyakorló feladatok adatbányászati technikák tantárgyhoz Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:

Részletesebben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő

Részletesebben

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani

Részletesebben

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok

Részletesebben

A Statisztika alapjai

A Statisztika alapjai A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12. Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati

Részletesebben

Mesterséges Intelligencia I.

Mesterséges Intelligencia I. Mesterséges Intelligencia I. 10. elıadás (2008. november 10.) Készítette: Romhányi Anita (ROANAAT.SZE) - 1 - Statisztikai tanulás (Megfigyelések alapján történı bizonytalan következetésnek tekintjük a

Részletesebben

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM. STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése

Részletesebben

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e

Részletesebben

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az

A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az 1 6. LECKE: REGRESSZIÓ -- Elıadás 6.1. A regresszió feladata és módszerei [C4] A módszer lényege, hogy arányskálán mért magyarázó változók (x 1,,x k ) segítségével közelítjük a számunkra érdekes, ugyancsak

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

Adatbányászati technikák (VISZM185) 2015 tavasz

Adatbányászati technikák (VISZM185) 2015 tavasz Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Részletesebben

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Populációbecslés és monitoring. Eloszlások és alapstatisztikák Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk

Részletesebben

Gyors sikerek adatbányászati módszerekkel

Gyors sikerek adatbányászati módszerekkel Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

Történet John Little (1970) (Management Science cikk)

Történet John Little (1970) (Management Science cikk) Információ menedzsment Szendrői Etelka Rendszer- és Szoftvertechnológia Tanszék szendroi@witch.pmmf.hu Vezetői információs rendszerek Döntéstámogató rendszerek (Decision Support Systems) Döntések információn

Részletesebben

Vezetői információs rendszerek

Vezetői információs rendszerek Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

Microsoft SQL Server telepítése

Microsoft SQL Server telepítése Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió

Részletesebben

2009.04.29. 2009. április 24. INFO Savaria 2009 2. 2009. április 24. INFO Savaria 2009 4. 2009. április 24. INFO Savaria 2009 3

2009.04.29. 2009. április 24. INFO Savaria 2009 2. 2009. április 24. INFO Savaria 2009 4. 2009. április 24. INFO Savaria 2009 3 Négy adatbázis-kezelı rendszer összehasonlítása webes környezetben Sterbinszky Nóra snorav@gmail.com Áttekintés Növekvı igény hatékony adatbázis- kezelıkre a világhálón Hogyan mérhetı ezek teljesítménye

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket

Részletesebben

Eredmények kiértékelése

Eredmények kiértékelése Eredmények kiértékelése Nagyméretű adathalmazok kezelése (2010/2011/2) Katus Kristóf, hallgató Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék 2011. március

Részletesebben

Asszociációs szabályok

Asszociációs szabályok Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában

Részletesebben

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis SZDT-09 p. 1/36 Biometria az orvosi gyakorlatban Regresszió Túlélésanalízis Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Logisztikus regresszió

Részletesebben

Tatisztika? Ammegmi? (Békásmegyeri aluljáró átlagos lakója ) Biostatisztika és informatika alapjai. Változók, kimenetelek

Tatisztika? Ammegmi? (Békásmegyeri aluljáró átlagos lakója ) Biostatisztika és informatika alapjai. Változók, kimenetelek Tatisztika? Ammegmi? (Békásmegyeri aluljáró átlagos lakója ) A statisztika a véletlen tömegjelenségek leírója. Biostatisztika és informatika alapjai 2. előadás: Leíró statisztika 26. szeptember 5. Veres

Részletesebben

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június GAZDASÁGSTATISZTIKA GAZDASÁGSTATISZTIKA Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TátK Közgazdaságtudományi Tanszékén az ELTE Közgazdaságtudományi

Részletesebben

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes

Részletesebben

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 1. A populációt a számunkra érdekes egységek (személyek, csalások, iskolák stb.) alkotják,

Részletesebben

A valószínűségszámítás elemei

A valószínűségszámítás elemei A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:

Részletesebben

Populációbecslések és monitoring

Populációbecslések és monitoring Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány

Részletesebben

Variancia-analízis (folytatás)

Variancia-analízis (folytatás) Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke Egytényezıs variancia-analízis blokkképzés nélkül Az átlagok páronkénti összehasonlítása(1)

Részletesebben

Varianciaanalízis 4/24/12

Varianciaanalízis 4/24/12 1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása

Részletesebben

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés. Gazdaságstatisztika KGK VMI Gazdaságstatisztika 2. előadás Egy ismérv szerinti rendezés Kóczy Á. László KGK VMI Áttekintés Gyakorisági sorok Grafikus ábrázolásuk Helyzetmutatók Szóródási mutatók Az aszimmetria mérőszámai Koncentráció

Részletesebben

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető! BGF KKK Módszertani Intézeti Tanszéki Osztály Budapest, 2012.. Név:... Neptun kód:... Érdemjegy:..... STATISZTIKA II. VIZSGADOLGOZAT Feladatok 1. 2. 3. 4. 5. 6. Összesen Szerezhető pontszám 21 20 7 22

Részletesebben

Modellkiválasztás és struktúrák tanulása

Modellkiválasztás és struktúrák tanulása Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális

Részletesebben

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015

A mérés problémája a pedagógiában. Dr. Nyéki Lajos 2015 A mérés problémája a pedagógiában Dr. Nyéki Lajos 2015 A mérés fogalma Mérésen olyan tevékenységet értünk, amelynek eredményeként a vizsgált jelenség számszerűen jellemezhetővé, más hasonló jelenségekkel

Részletesebben

Gépi tanulás a Rapidminer programmal. Stubendek Attila

Gépi tanulás a Rapidminer programmal. Stubendek Attila Gépi tanulás a Rapidminer programmal Stubendek Attila Rapidminer letöltése Google: download rapidminer Rendszer kiválasztása (iskolai gépeken Other Systems java) Kicsomagolás lib/rapidminer.jar elindítása

Részletesebben

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser Zoltan.Fekete@oracle.com

Adatbányászat az Oracle9i-ben. Fekete Zoltán vezető termékmenedzser Zoltan.Fekete@oracle.com Agenda Az Oracle9i adattárház tulajdonságai Adatbányászat az Oracle9i-ben DM, Personalization az Oracle9i-ben, architektúra Integrált adatbányászat az Oracle CRM-ben Szünet Perszonalizációs felhasználási

Részletesebben

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 15. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 15. Nemparaméteres próbák Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision Date: November

Részletesebben

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11]

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11] 1 4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás 4.1. Döntési fák [Concepts Chapter 11] A döntési fákon alapuló klasszifikációs eljárás nagy előnye, hogy az alkalmazása révén nemcsak egyedenkénti előrejelzést

Részletesebben

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely. Kiválasztás A változó szerint Egymintás t-próba Mann-Whitney U-test paraméteres nem-paraméteres Varianciaanalízis De melyiket válasszam? Kétmintás t-próba Fontos, hogy mindig a kérdésnek és a változónak

Részletesebben

A hierarchikus adatbázis struktúra jellemzői

A hierarchikus adatbázis struktúra jellemzői A hierarchikus adatbázis struktúra jellemzői Az első adatbázis-kezelő rendszerek a hierarchikus modellen alapultak. Ennek az volt a magyarázata, hogy az élet sok területén első közelítésben elég jól lehet

Részletesebben

Hogyan lesz adatbányából aranybánya?

Hogyan lesz adatbányából aranybánya? Hogyan lesz adatbányából aranybánya? Szolgáltatások kapacitástervezése a Budapest Banknál Németh Balázs Budapest Bank Fehér Péter - Corvinno Visontai Balázs - KFKI Tartalom 1. Szolgáltatás életciklus 2.

Részletesebben

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363

Mesterséges Intelligencia. Csató Lehel. Csató Lehel. Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 2010/2011 1/363 1/363 Matematika-Informatika Tanszék Babeş Bolyai Tudományegyetem, Kolozsvár 20/2011 Az Előadások Témái 226/363 Bevezető: mi a mesterséges intelligencia... Tudás reprezentáció Gráfkeresési stratégiák Szemantikus

Részletesebben

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt Galbács Gábor KIUGRÓ ADATOK KISZŰRÉSE STATISZTIKAI TESZTEKKEL Dixon Q-tesztje Gyakori feladat az analitikai kémiában, hogy kiugrónak

Részletesebben

Vizuális adatelemzés

Vizuális adatelemzés Vizuális adatelemzés Salánki Ágnes, Guta Gábor, PhD Dr. Pataricza András Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.08. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)

Részletesebben

Biostatisztika Összefoglalás

Biostatisztika Összefoglalás Biostatisztika Összefoglalás A biostatisztika vizsga A biostatisztika vizsga az Orvosi fizika és statisztika I. fizika vizsgájával egy napon történik. A vizsga keretében 30 perc alatt 0 kérdésre kell válaszolni

Részletesebben

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I.

Intelligens Rendszerek Gyakorlata. Neurális hálózatok I. : Intelligens Rendszerek Gyakorlata Neurális hálózatok I. dr. Kutor László http://mobil.nik.bmf.hu/tantargyak/ir2.html IRG 3/1 Trend osztályozás Pnndemo.exe IRG 3/2 Hangulat azonosítás Happy.exe IRG 3/3

Részletesebben

Heckman modell. Szelekciós modellek alkalmazásai.

Heckman modell. Szelekciós modellek alkalmazásai. Heckman modell. Szelekciós modellek alkalmazásai. Mikroökonometria, 12. hét Bíró Anikó A tananyag a Gazdasági Versenyhivatal Versenykultúra Központja és a Tudás-Ökonómia Alapítvány támogatásával készült

Részletesebben

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102

Tárgy- és névmutató. C Cox & Snell R négyzet 357 Cramer-V 139, , 151, 155, 159 csoportok közötti korrelációs mátrix 342 csúcsosság 93 95, 102 Tárgy- és névmutató A a priori kontraszt 174 175 a priori kritérium 259, 264, 276 adatbevitel 43, 47, 49 52 adatbeviteli nézet (data view) 45 adat-elôkészítés 12, 37, 62 adatgyûjtés 12, 15, 19, 20, 23,

Részletesebben

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT

Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT Véletlenszám generátorok és tesztelésük HORVÁTH BÁLINT Mi a véletlen? Determinisztikus vs. Véletlen esemény? Véletlenszám: számok sorozata, ahol véletlenszerűen követik egymást az elemek Pszeudo-véletlenszám

Részletesebben

Projektvezetői döntések támogatása webbányászattal

Projektvezetői döntések támogatása webbányászattal NETWORKSHOP 2008 2008. március 17-19. Dunaújváros, Dunaújvárosi Főiskola Projektvezetői döntések támogatása webbányászattal Bóta László Ph.D. hallgató (BME) Eszterházy Károly Főiskola, Eger BI (Business

Részletesebben

Adatbányászat és Perszonalizáció architektúra

Adatbányászat és Perszonalizáció architektúra Adatbányászat és Perszonalizáció architektúra Oracle9i Teljes e-üzleti intelligencia infrastruktúra Oracle9i Database Integrált üzleti intelligencia szerver Data Warehouse ETL OLAP Data Mining M e t a

Részletesebben

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.

Részletesebben

Kabos: Statisztika II. ROC elemzések 10.1. Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem.

Kabos: Statisztika II. ROC elemzések 10.1. Szenzitivitás és specificitás a jelfeldolgozás. és ilyenkor riaszt. Máskor nem. Kabos: Statisztika II. ROC elemzések 10.1 ROC elemzések Szenzitivitás és specificitás a jelfeldolgozás szóhasználatával A riasztóberendezés érzékeli, ha támadás jön, és ilyenkor riaszt. Máskor nem. TruePositiveAlarm:

Részletesebben

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben.

Tartalom. Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Tartalom Jó hogy jön Jucika, maga biztosan emlékszik még, hányadik oldalon van a Leszállás ködben. Előszó 1. Az adatbányászatról általában 19 1.1. Miért adatbányászat? 21 1.2. Technológia a rejtett információk

Részletesebben

Teljesen elosztott adatbányászat alprojekt

Teljesen elosztott adatbányászat alprojekt Teljesen elosztott adatbányászat alprojekt Hegedűs István, Ormándi Róbert, Jelasity Márk Big Data jelenség Big Data jelenség Exponenciális növekedés a(z): okos eszközök használatában, és a szenzor- és

Részletesebben

Követelmények Bevezetés. Adatbányászat. Szegedi Tudományegyetem. Adatbányászat

Követelmények Bevezetés. Adatbányászat. Szegedi Tudományegyetem. Adatbányászat Szegedi Tudományegyetem gyakorlat Gyakorlaton elérhető: max. 50 pont 2 db ZH (okt. 7/14. és nov. 25.): 25-25 pont (min. 8 pont/zh) Javító ZH: félév végén az egész éves gyakorlati anyagból a minimális összpontszámot

Részletesebben

Adatelemzés és adatbányászat MSc

Adatelemzés és adatbányászat MSc Adatelemzés és adatbányászat MSc 12. téma Klaszterezési módszerek Klaszterezés célja Adott az objektumok, tulajdonságaik együttese. Az objektumok között hasonlóságot és különbözőséget fedezhetünk fel.

Részletesebben

FİBB PONTOK PIACKUTATÁS (MARKETINGKUTATÁS) Kutatási terv október 20.

FİBB PONTOK PIACKUTATÁS (MARKETINGKUTATÁS) Kutatási terv október 20. FİBB PONTOK PIACKUTATÁS (MARKETINGKUTATÁS) 2010. október 20. A kutatási terv fogalmának, a különbözı kutatási módszerek osztályozása, a feltáró és a következtetı kutatási módszerek közötti különbségtétel

Részletesebben

1. elıadás. Információelmélet Információ technológia Információ menedzsment

1. elıadás. Információelmélet Információ technológia Információ menedzsment http://vigzoltan.hu 1. elıadás A számítógépes információ rendszerk tudománya, amely tartalmazza az alábbiakat: Elméleti összefüggések Szemlélet Módszertant a tervezéshez, fejlesztéshez üzemeltetéshez Tartalmazza

Részletesebben

{simplecaddy code=1004}

{simplecaddy code=1004} {simplecaddy code=1004} Könyvünk az adatbányászat tevékenységének lépéseit részletesen bemutatva kívánja megismertetni az olvasót, azzal hogy milyen jellegű gazdasági, mérnöki, illetve tudományos problémák

Részletesebben

Variancia-analízis (VA)

Variancia-analízis (VA) Variancia-analízis (VA) 5. elıadás (9-10. lecke) VA lényege, alkalmazásának feltételei, adat-transzformációk 9. lecke Variancia-analízis lényege Szórások egyezésének ellenırzése A Variancia-Analízis (VA)

Részletesebben

Rendszámfelismerő rendszerek

Rendszámfelismerő rendszerek Problémamegoldó szeminárium Témavezető: Pataki Péter ARH Zrt. ELTE-TTK 2013 Tartalomjegyzék 1 Bevezetés 2 Út a megoldás felé 3 Felmerült problémák 4 Alkalmazott matematika 5 További lehetőségek Motiváció

Részletesebben

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest) 2010.09.22.

Így kampányolunk mi. Hans Zoltán. Szolgáltatás Fejlesztés és Online Irányítás vezető. IBM-SPSS üzleti reggeli (Budapest) 2010.09.22. Így kampányolunk mi Hans Zoltán Szolgáltatás Fejlesztés és Online Irányítás vezető IBM-SPSS üzleti reggeli (Budapest) 2010.09.22. LIFE INSURANCE PENSION INVESTMENT Tartalom AEGON Útkeresések Esettanulmány

Részletesebben

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás ELŐADÁS ÁTTEKINTÉSE STATISZTIKA 7. Előadás Egyenletes eloszlás Binomiális eloszlás Normális eloszlás Standard normális eloszlás Normális eloszlás mint modell /56 Matematikai statisztika Reprezentatív mintavétel

Részletesebben

Véletlen szám generálás

Véletlen szám generálás 2. elıadás Véletlen szám generálás LCG: (0 < m, 0

Részletesebben

A relációs adatmodell

A relációs adatmodell A relációs adatmodell E. Codd vezette be: 1970 A Relational Model of Data for Large Shared Data Banks. Communications of ACM, 13(6). 377-387. 1982 Relational Databases: A Practical Foundation for Productivity.

Részletesebben

Vargha András Károli Gáspár Református Egyetem Budapest

Vargha András Károli Gáspár Református Egyetem Budapest Vargha András Károli Gáspár Református Egyetem Budapest Kötelező irodalom a kurzushoz Vargha András: Matematikai statisztika pszichológiai, nyelvészeti és biológiai alkalmazásokkal (2. kiadás). Pólya Kiadó,

Részletesebben

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Vizuális adatelemzés - Gyakorlat. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Vizuális adatelemzés - Gyakorlat Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Adatelemzés szerepe a rendszermodellezésben Lényeges paraméterek meghatározása

Részletesebben

6. Előadás. Vereb György, DE OEC BSI, október 12.

6. Előadás. Vereb György, DE OEC BSI, október 12. 6. Előadás Visszatekintés: a normális eloszlás Becslés, mintavételezés Reprezentatív minta A statisztika, mint változó Paraméter és Statisztika Torzítatlan becslés A mintaközép eloszlása - centrális határeloszlás

Részletesebben

Számítógépes döntéstámogatás. Statisztikai elemzés

Számítógépes döntéstámogatás. Statisztikai elemzés SZDT-03 p. 1/22 Számítógépes döntéstámogatás Statisztikai elemzés Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Előadás SZDT-03 p. 2/22 Rendelkezésre

Részletesebben

MKKV ügyfelek adósminősítő modelljének fejlesztése RapidMiner a TakarékBankban Frindt Anna Magyar Takarékszövetkezeti Bank Zrt. 1 Budapest, 2011.10.06. A Takarékbank és a Takarékszövetkezetek/Bankok 1989

Részletesebben

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása. 2-5. fejezet. A variabilitás mér számai 3.

Definíció. Definíció. 2. El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása. 2-5. fejezet. A variabilitás mér számai 3. . El adás (folytatása) Az adatok leírása, megismerése és összehasonlítása -1 Áttekintés - Gyakoriság eloszlások -3 Az adatok vizualizációja -4 A centrum mérıszámai -5 A szórás mérıszámai -6 A relatív elhelyezkedés

Részletesebben

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA

VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA VALÓSZÍNŰSÉG, STATISZTIKA TANÍTÁSA A VALÓSZÍNŰSÉGI SZEMLÉLET ALAPOZÁSA 1-6. OSZTÁLY A biztos, a lehetetlen és a lehet, de nem biztos események megkülünböztetése Valószínűségi játékok, kísérletek események

Részletesebben

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet

Biostatisztika Bevezetés. Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet Biostatisztika Bevezetés Boda Krisztina előadása alapján ma Bari Ferenc SZTE ÁOK Orvosi Fizikai és Orvosi Informatikai Intézet Az orvosi, biológiai kutatások egyik jellemzője, hogy a vizsgálatok eredményeként

Részletesebben