Adatbányászat SAS Enterprise Miner

Méret: px
Mutatás kezdődik a ... oldaltól:

Download "Adatbányászat SAS Enterprise Miner"

Átírás

1 Adatbányászat SAS Enterprise Miner Hajas Csilla ELTE SAS gyakorlataihoz segédlet. Forrásként (a webrıl letöltve) felhasználtam Kiss Attila, Lukács András, Sidló Csaba és Kósa Balázs diasorozatait is, lásd a linkeket az alábbi oldalon: 1

2 Ajánlott (magyar nyelvő) irodalom Bodon Ferenc magyar nyelvő Adatbányászati algoritmusok tanulmánya: 2

3 Tudásfeltárás (KDD) A tudásfeltárás az adatbázisokban tárolt adatokból implicit, korábban nem ismert és potenciálisan hasznosnak vélt információk nem triviális úton való kinyerésének folyamata. 3

4 Alkalmazási területek Kereskedelem Vásárlói szokások követése Pénzügy Banki hitelbírálat Bankkártya csalások detektálása Orvostudomány Diagnosztika (pl. rákkutatás) DNS láncok elemzése Telekommunikáció Vírusvédelem Hacker támadások 4

5 A tudásfeltárás fıbb lépései 5

6 A tudásfeltárás lépései Felhasználási célok meghatározása Céladatbázis létrehozása Adattisztítás Adatintegráció Adattér csökkentés Adatbányászati algoritmus kiválasztása Az algoritmus használata A kinyert információk értelmezése A megszerzett információk ellenırzése az elvárások alapján 6

7 Üzleti intelligencia Adatok > információ > tudás Döntés Modell Adatbányászat Adatok kinyerése, transzformálása Adattárház Termelés, Szolgáltatás => Adatbázis Hasznos információ Tudás reprezentázió Tisztított, feldolgozott adatok Nyers adatok

8 OLTP - OLAP rendszerek OLTP: On Line Transaction Processing Hagyományos adatbázis alkalmazások, nyilvántartások, vállalatok produktív rendszerei ERP rendszerek: Enterprise Resource Planning Pl.: SAP R/3, Oracle Financials, Libra, stb. OLAP: On Line Analytical Processing Elemzési célú rendszerek elterjedt követelményrendszere 8

9 OLTP OLAP tulajdonságok Tulajdonság OLTP OLAP Orientáció Tranzakciók hatékony tárolása, végrehajtása Adatanalízis Felhasználó Vállalati adminsztrátorok Döntéshozók Feladat Napi folyamatok követése Döntéstámogatás, információszolgáltatás Adatok Aktuális, up-to-date Történeti, archív adatok Összegzett adatok Nem jellemzı, részletes Összegzett, egyesített adatok Adatok nézete Relációs multidimenzionális Felhasználói hozzáférés Olvasás / írás Jellemzıen olvasás Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen Feldolgozandó adat Alkalmanként tizes nagyságrendő Egyszerre akár milliós rekordszám Felhasználók száma Viszonylag sok Néhány, közép- és felsıvezetık Prioritás Állandó rendelkezésre állás, megbízhatóság Rugalmasság, felhasználói önállóság 9

10 Az adat útjának fı állomásai Forrásrendszerek Adattárház Elemzı frontend alkalmazások 10

11 Adattárházak (Data Warehousing) Három kulcsmozzanat: Adatkinyerés a tranzakciós (vagy más vállalat-mőködtetési) forrásrendszerekbıl A kinyert adatok átformálása riport (beszámoló) készítés számára A riportok, beszámolók elérhetıvé tétele a döntéshozók számára. 11

12 Adatbányászat (Data Mining) Data mining (knowledge discovery in databases): Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases SAS: advanced methods for exploring and modelling relationships in large amounts of data Abonyi könyv: Az adatbányászat egy olyan döntéstámogatást szolgáló folyamat, mely érvényes, hasznos, és elızıleg nem ismert, tömör információt tár fel nagy adathalmazból. 12

13 Adatbányászat, mint tudományág Multidiszciplinális tudományág: Statics Pattern Recognition Neurocomputing Databases Data Mining KDD Machine Learning AI 13

14 SAS Enterprise Miner vs. egyéb adatbányász eszközök Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1! ELTE-n még a 4.1-es) SPSS Clementine SAP (adattárház integráció!) 14

15 Enterprise Miner vs. egyéb adatbányász eszközök 15

16 SAS Enterprise Miner 16

17 SAS SEMMA folyamat SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelıen. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemzı eszközök, klaszterezés, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelıkészítés elemzéshez, változók kezelése, kiugró értékek és hiányzó értékek kezelése, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók készítése A gyakorlatokon a konkrét eszközök közül megnézzük a fontosabbakat a SAS Enterprise Miner segítségével 17

18 Input Data Source egy library sas dataset megfelelıje attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) Mintavételezés 18

19 Mintavételezés Mintavétel a populációból: eredménye a (stat) minta A mintavétel módja is lényeges (legegyszerőbb eset: bármelyik elem ugyanakkora valószínőséggel kerül a mintába) A mintavétel eredménye: (statisztikai) minta: x 1,x 2,,x n (számsorozat) Ugyanakkor egy másik, hasonló mintavételnél más mintát kapnánk, azaz az adott minta véletlen kísérlet eredménye. Ha a minta véletlen jellegét vizsgáljuk: X 1,X 2,,X n valószínőségi változó-sorozat, az eloszlása nem ismert (vagy csak részben ismert). 19

20 Data partition node Seeds értéket a legtöbb véletlenszámot generáló algoritmus használ. Ha ezt megjegyezzük, és késıbb ugyanezzel az értékkel hajtatjuk végre az adathalmaz partícióját, akkor végeredményként ugyanazt kapjuk, mint korábban, feltéve persze, ha ugyanazokat a lépéseket hajtjuk végre. A rétegzett (stratified) mintavételezésnél az egyes értékek az eloszlásfüggvénynek megfelelı gyakorisággal kerülnek be a mintába. 20

21 Particionálás training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve) Distribution Explorer vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához 21

22 Multiplot másik vizualizációs, grafikus adatelemzı eszköz automatikus bar chart / scatter plot generálás Insight SAS statisztikai elemzı alkalmazása nagy funkcionalitás több ablakos, egymással együttmőködı aktív elemekkel rendelkezı elemzı eszköz 22

23 Multiplot node 23

24 Hisztogram Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az i- edik osztály: a i x<a i+1 ), a csoportok relatív gyakoriságai megegyeznek az osztály fölé rajzolt téglalap területével. Összterület:1 (hasonló a sőrőségfüggvényhez) Frequency Pontszámok grafikus ábrázolása pontszám 24

25 Statisztikai elemzés Mintaátlag: x x1 : = n x n ha az egyes értékek (l i ) gyakoriságai (f i ) adottak: x f1 l : = n f k l k Medián: a sorbarendezett minta középsı eleme (ha páros sok eleme van: a két középsı átlaga). 25

26 Tapasztalati kvantilisek Elméleti kvantilis: abszolút folytonos, szigorúan monoton F esetén qz=f-1(z) Általában: inf{x:f(x)>z} A tapasztalati eloszlás kvantilisei: tapasztalati kvantilisek. Esetleg lineáris interpolációval lehet pontosítani a becsléseinket. z=1/2: medián. z=1/4, 3/4: kvartilisek 26

27 Az egyes dobozok az alsó kvartilistól a felsı kvartilisig tartanak. Középvonal a medián. A vonalak a teljes terjedelmet felölelik, ha ez az egyes irányokban nem nagyobb a kvartilisek közötti különbség 1.5- szeresénél. Ha ezen kívül Gam2 T5 Norm Uni05 boxplot is vannak pontok, azokat külön-külön jeleníti meg. 27

28 Association asszociációs szabály keresı algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy sequence bemeneti változó Regresszió regressziószámítás és elırejelzés lineáris regresszió logisztikus regresszió 28

29 Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülı elempárok lényegesen hasonlóbbak egymáshoz, mint különbözı klaszterek elempárjai. ehhez: megfelelı hasonlósági függvény bevezetése, klaszterezés jóságának valamilyen mértéke MI megfelelıje: felügyelet nélküli tanulás particionáló klaszterezı algoritmusok: adott klaszterezés folyamatos finomításával haladunk elıre, amíg az eredmény elég jó nem lesz 29

30 Döntési fa szabályok leírása fa formában; belsı pontokhoz megfeleltetünk egy vágási feltételt, ami kettı vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy nagy fát, majd ezt visszavágjuk a megfelelı méretre döntési fa elınye: a felépített modell könnyen értelmezhetı 30

31 Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. forrás: Gregorics Tibor többszintő perceptron modell universal approximator tulajdonság: tetszıleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni 31

32 Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve ıket, hogy az elırejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya? 32

33 Egyéb témák dimenzió-csökkentés (pl. klaszterezésnél fontos) Kiugró értékek szőrése, hiányzó értékek pótlása modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei profit mátrix modellek egyesítése (ensemble) 33

34 Adatbányászati alapproblémák A SAS gyakorlatokon az alábbi feladatok lesznek: 1. Klaszterezés 2. Asszociációs szabály keresés 3. Regresszió, elırejelzés 4. Osztályozás, döntési fa 34

35 Adatbányászat 1.téma: Klaszterezés 35

36 1. Klaszterezés Elıre nem ismert osztályok meghatározása Az azonos osztályba tartozó objektumok közel legyenek egymáshoz, a különbözı osztályokba tartozók távol Nem felügyelt tanulás 36

37 Eltérés elemzés Kiugró értékek keresése Legtöbbször kiszőrik mert zajnak tekintik Alkalmazási terület Vírus védelem Külsı támadások elleni védelem Csalások felderítése 37

38 1.Téma: Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülı elempárok lényegesen hasonlóbbak egymáshoz, mint különbözı klaszterek elempárjai. ehhez: megfelelı hasonlósági függvény bevezetése, klaszterezés jóságának valamilyen mértéke MI megfelelıje: felügyelet nélküli tanulás particionáló klaszterezı algoritmusok: adott klaszterezés folyamatos finomításával haladunk elıre, amíg az eredmény elég jó nem lesz 38

39 A k-átlag algoritmus Az elsı lépésben kiválasztunk k centroidot. Az összes pontot besoroljuk valamelyik csoportba aszerint, hogy melyik centroidhoz esik a legközelebb. Az ilymódon kialakult klasztereknek aztán változik a középpontja (az új középpont átlagszámítással könnyen megadható). A következı lépésben aztán ezek szerint az új centroidok szerint osszuk be klaszterekbe a pontokat. Az algoritmus mindaddig tart, amíg valami változik. Az eljárás a következı hibafüggvényt igyekszik minimalizálni: (p tetszıleges pont, m i centroid). k i= 1p C p m i i 2 39

40 K-means algoritmus 40

41 Adatbányászat 2.téma: Asszociációs szabályok keresése 41

42 Asszociációs szabály keresés forrás: Lukács András ( 42

43 Asszociációs szabályok Vásárlói kosarak elemzése Az X terméket vásárlók 80%-a Y terméket is vásárolt 43

44 Asszociációs szabály keresés 44

45 Asszociációs szabályok Egy asszociációs általános formája: {X 1,, X n } Y. Jelentése: ha egy (fogyasztói) kosárban elıfordulnak az X 1,, X n elemek, akkor nagy valószínőséggel az Y is elıfordul. Hogy pontosan mekkora valószínőséggel: ezt adja meg a szabály konfidenciája (confidence). Nyilván nem minden szabály egyforma jelentıségő: pl. lehet, hogy a {tej, vaj} kenyér szabály csupán amiatt teljesül, mert az emberek általában is nagy valószínőséggel vásárolnak kenyeret. A nagy valószínőség azonban nem elég. Az is fontos, hogy az X 1,, X n, Y elemek viszonylag sokszor forduljanak elı egy kosárban. A támogatottság (vagy szupport (support)), mint mérıszámok pontosan ezt hivatottak elısegíteni. 45

46 Adatbányászat 3.téma: Regresszió 46

47 3.téma: Regresszió Lineáris model Y i =ax i +b+ε i (X i a magyarázó változó értéke, ε i független, azonos eloszlású hiba. E(ε i )=0, általában feltesszük, hogy normális eloszlású. a,b a becsülendı együtthatók) E(Y-(aX+b)) 2 min Megoldás: a n ( xi x)( yi y) 1, bˆ = y i= ˆ = n 2 i= 1 ( x i x) ax ˆ 47

48 Lineáris regresszió Több magyarázó változót is bevonhatunk a modellbe: Y =βx +ε ahol Y,ε n hosszú vektorok, X nxk-as mátrix (ismert értékekbıl), β pedig k hosszú (ismeretlen) paramétervektor. E(Y) =βx. A legkisebb négyzetek módszere A megoldás: n i= 1 ε 2 i β' = ' = ( Y βx')( Y βx') ˆ 1 ( X' X) X' Y' 48

49 A becslés tulajdonságai Torzítatlan Kovarianciamátrix: E( ˆ β β ' )( ˆ β β) = 2 σ ( X' X) 1 Ha ε normális eloszlású, akkor a legkisebb négyzetes becslés egyúttal ML becslés is. Példák: lineáris regresszió, szórásanalízis. 49

50 Hipotézisvizsgálat a lineáris modellben A vizsgált hipotézis: H0 : βh' = ahol H rxk-as mátrix (r<k), rang(h)=r. A valószínőséghányados próba statisztika: ' ' ( Y ˆ βx')( Y ˆ βx') ( Y ˆ βx')( Y ˆ βx') F = ˆ ˆ ' ( Y βx')( Y βx') (n-k)/r F a H 0 esetén F eloszlású (r,n-k) szabadsági fokkal. (Akkor utasítjuk el H 0 t, ha F nagy.) 0 50

51 R2=0.56 R2=0.73 cipõméret cipõméret magasság R2= magasság R2=0.92 A regresszió vizsgálata cipõméret cipõméret magasság magasság 51

52 R2= magasság R2= magasság magasság 52 cipõméret cipõméret R2= magasság R2=0.87 cipõméret cipõméret

53 Regresszió Elırefelé történı választás: elsı lépésben azt a változót választja, amely a legjobban közelíti a célváltozót, ezután kiválasztja azt a két változót, amelyek lineáris kombinációja a legjobb, itt az egyik változó az elızı lépésben kiválasztott változó, a folyamat addig tart, míg egyetlen változónak sem lesz kisebb a p-értéke az elıre megadottnál. 53

54 Regresszió Hátrafelé történı választás: elsı lépésben az összes változó szerepel a modellben, ezek után elhagyja a legkevésbé szignifikáns változót, az eljárás leáll, ha az összes megmaradt változó p-értéke alacsonyabb a megadott küszöbnél. 54

55 Regresszió Lépésenkénti választás (az elırefelé történı választás egy módosítottja): mikor minden arra alkalmas változó bekerült a modellbe, az eljárás kiszőri azokat a változókat, amelyek nem szignifikánsak, az algoritmus leáll, ha nincs olyan változó a modellen kívül, melynek p-értéke egy megadott érték alatt van, a modellben pedig minden változó szignifikáns. 55

56 Logisztikus regresszió Az interval típusú célváltozóknál a rendszer lineáris regressziót használ. A bemeneti változók adott értékei mellett a célváltozó átlagát becsli. Diszkrét célváltozó esetén logisztikus regresszió alkalmazható. Ekkor a célváltozó egy-egy értékének valószínőségét becsli a rendszer. A módszer mögött az a feltételezés áll, miszerint a célváltozó logisztikus transzformációja lineáris kapcsolatot teremt a célváltozó és a bemeneti változók között. Megjegyzés: regresszió esetén a hiányzó értékeket pótolni kell, ellenkezı esetben a módszer automatikusan figyelmen kívül hagyja azokat a változókat, amelyeknél hiányzó értékek szerepelnek. 56

57 Adatbányászat 4.téma: Döntési fa 57

58 4. Osztályozás Elıre meghatározott osztályokba sorolás Felügyelt tanulás Minta alapján tanítás, szabályok generálása az osztályozáshoz Módszerek: Regresszió Döntési fa Neurális háló 58

59 Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Tanuló rendszer modell Elırejelzés 59

60 Osztályozás, elırejelzés megfigyelések input célváltozó Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). Elırejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).

61 Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhetı ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal

62 Döntési fák Készítsünk elemzést döntési fa segítségével is! (A döntési fák esetében nem feltétlenül jelentenek gondot a hiányzó értékek.) Hasonlítsuk össze a két modellt! 62

63 Modellépítés, partícionálás Adathalmaz partícionálás: training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)

64 Döntési fa példa hitelbírálatra (forrás:

65 Döntési fák szabályok leírása fa formában; belsı pontokhoz megfeleltetünk egy vágási feltételt, ami kettı vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy nagy fát, majd ezt visszavágjuk a megfelelı méretre döntési fa elınye: a felépített modell könnyen értelmezhetı

66 Vágási feltételek Bináris és nominális változóknál alapesetben a χ 2 -próbát, mint vágási kritériumot keresı módszert, használó döntési fa algoritmus kerül végrehajtásra, de használható az entrópiát, illetve a Gini-indexet használó döntési fa algoritmus is. Ordinális változó esetén csak az utóbbi kettı módszer választható. Intervallum változók esetén pedig egy F-próbát használó eljárás, illetve egy varianciát minimalizáló eljárás között választhatunk. 66

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.

The nontrivial extraction of implicit, previously unknown, and potentially useful information from data. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus

Részletesebben

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31. Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert

Részletesebben

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók

Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz

Részletesebben

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Egyszempontos variancia analízis. Statisztika I., 5. alkalom Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése

Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése Matematikai alapok és valószínőségszámítás Statisztikai változók Adatok megtekintése Statisztikai változók A statisztikai elemzések során a vizsgálati, vagy megfigyelési egységeket különbözı jellemzık

Részletesebben

Adatok statisztikai értékelésének főbb lehetőségei

Adatok statisztikai értékelésének főbb lehetőségei Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,

Részletesebben

Segítség az outputok értelmezéséhez

Segítség az outputok értelmezéséhez Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró

Részletesebben

Matematikai statisztika c. tárgy oktatásának célja és tematikája

Matematikai statisztika c. tárgy oktatásának célja és tematikája Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:

Részletesebben

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision

Részletesebben

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,

Részletesebben

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton

Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke

Részletesebben

A leíró statisztikák

A leíró statisztikák A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az

Részletesebben

Biomatematika 2 Orvosi biometria

Biomatematika 2 Orvosi biometria Biomatematika 2 Orvosi biometria 2017.02.13. Populáció és minta jellemző adatai Hibaszámítás Valószínűség 1 Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza)

Részletesebben

Elemi statisztika fizikusoknak

Elemi statisztika fizikusoknak 1. oldal Elemi statisztika fizikusoknak Pollner Péter Biológiai Fizika Tanszék pollner@elte.hu Az adatok leírása, megismerése és összehasonlítása 2-1 Áttekintés 2-2 Gyakoriság eloszlások 2-3 Az adatok

Részletesebben

Gyakorló feladatok adatbányászati technikák tantárgyhoz

Gyakorló feladatok adatbányászati technikák tantárgyhoz Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.

Részletesebben

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani

Részletesebben

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1. Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,

Részletesebben

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.

Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1. Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,

Részletesebben

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat

Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia

Részletesebben

Matematikai alapok és valószínőségszámítás. Normál eloszlás

Matematikai alapok és valószínőségszámítás. Normál eloszlás Matematikai alapok és valószínőségszámítás Normál eloszlás A normál eloszlás Folytonos változók esetén az eloszlás meghatározása nehezebb, mint diszkrét változók esetén. A változó értékei nem sorolhatóak

Részletesebben

1. gyakorlat. Mesterséges Intelligencia 2.

1. gyakorlat. Mesterséges Intelligencia 2. 1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott

Részletesebben

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás

Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x

Részletesebben

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)

Részletesebben

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés

Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük

Részletesebben

Valószínűségi változók. Várható érték és szórás

Valószínűségi változók. Várható érték és szórás Matematikai statisztika gyakorlat Valószínűségi változók. Várható érték és szórás Valószínűségi változók 2016. március 7-11. 1 / 13 Valószínűségi változók Legyen a (Ω, A, P) valószínűségi mező. Egy X :

Részletesebben

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén

Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával

Részletesebben

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék

Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló

Részletesebben

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai

STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő

Részletesebben

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis 1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb

Részletesebben

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,

Részletesebben

A Statisztika alapjai

A Statisztika alapjai A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12. Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati

Részletesebben

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))

Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok

Részletesebben

Mesterséges Intelligencia I.

Mesterséges Intelligencia I. Mesterséges Intelligencia I. 10. elıadás (2008. november 10.) Készítette: Romhányi Anita (ROANAAT.SZE) - 1 - Statisztikai tanulás (Megfigyelések alapján történı bizonytalan következetésnek tekintjük a

Részletesebben

Gépi tanulás a gyakorlatban. Bevezetés

Gépi tanulás a gyakorlatban. Bevezetés Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis

Részletesebben

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás

Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre

Részletesebben

Adatbányászati technikák (VISZM185) 2015 tavasz

Adatbányászati technikák (VISZM185) 2015 tavasz Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27

Részletesebben

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése 4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól

Részletesebben

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása

Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból

Részletesebben

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban

Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási

Részletesebben

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás

Véletlenszám generátorok és tesztelésük. Tossenberger Tamás Véletlenszám generátorok és tesztelésük Tossenberger Tamás Érdekességek Pénzérme feldobó gép: $0,25-os érme 1/6000 valószínűséggel esik az élére 51% eséllyel érkezik a felfelé mutató oldalára Pörgetésnél

Részletesebben

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus. Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza

Részletesebben

Biometria gyakorló feladatok BsC hallgatók számára

Biometria gyakorló feladatok BsC hallgatók számára Biometria gyakorló feladatok BsC hallgatók számára 1. Egy üzem alkalmazottainak megoszlása az elért teljesítmény %-a szerint a következı: Norma teljesítmény % Dolgozók száma 60-80 30 81-90 70 91-100 90

Részletesebben

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás

Részletesebben

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.

STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM. STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése

Részletesebben

Kódverifikáció gépi tanulással

Kódverifikáció gépi tanulással Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant

Részletesebben

Mérési hibák 2006.10.04. 1

Mérési hibák 2006.10.04. 1 Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség

Részletesebben

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek

Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e

Részletesebben

A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az

A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az 1 6. LECKE: REGRESSZIÓ -- Elıadás 6.1. A regresszió feladata és módszerei [C4] A módszer lényege, hogy arányskálán mért magyarázó változók (x 1,,x k ) segítségével közelítjük a számunkra érdekes, ugyancsak

Részletesebben

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Populációbecslés és monitoring. Eloszlások és alapstatisztikák Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk

Részletesebben

Lineáris regressziós modellek 1

Lineáris regressziós modellek 1 Lineáris regressziós modellek 1 Ispány Márton és Jeszenszky Péter 2016. szeptember 19. 1 Az ábrák C.M. Bishop: Pattern Recognition and Machine Learning c. könyvéből származnak. Tartalom Bevezető példák

Részletesebben

Vezetői információs rendszerek

Vezetői információs rendszerek Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer

Részletesebben

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet

Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket

Részletesebben

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE

Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE Tartalomjegyzék 5 Tartalomjegyzék Előszó I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE 1. fejezet: Kontrollált kísérletek 21 1. A Salk-oltás kipróbálása 21 2. A porta-cava sönt 25 3. Történeti kontrollok 27 4. Összefoglalás

Részletesebben

Gyors sikerek adatbányászati módszerekkel

Gyors sikerek adatbányászati módszerekkel Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer

Részletesebben

Korreláció és lineáris regresszió

Korreláció és lineáris regresszió Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.

Részletesebben

Adatbányászati szemelvények MapReduce környezetben

Adatbányászati szemelvények MapReduce környezetben Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt

Részletesebben

Regressziós vizsgálatok

Regressziós vizsgálatok Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga

Részletesebben

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége [GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell

Részletesebben

[Biomatematika 2] Orvosi biometria

[Biomatematika 2] Orvosi biometria [Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát

Részletesebben

y ij = µ + α i + e ij

y ij = µ + α i + e ij Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai

Részletesebben

Big Data az adattárházban

Big Data az adattárházban Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi

Részletesebben

2009.04.29. 2009. április 24. INFO Savaria 2009 2. 2009. április 24. INFO Savaria 2009 4. 2009. április 24. INFO Savaria 2009 3

2009.04.29. 2009. április 24. INFO Savaria 2009 2. 2009. április 24. INFO Savaria 2009 4. 2009. április 24. INFO Savaria 2009 3 Négy adatbázis-kezelı rendszer összehasonlítása webes környezetben Sterbinszky Nóra snorav@gmail.com Áttekintés Növekvı igény hatékony adatbázis- kezelıkre a világhálón Hogyan mérhetı ezek teljesítménye

Részletesebben

Microsoft SQL Server telepítése

Microsoft SQL Server telepítése Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió

Részletesebben

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11]

4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11] 1 4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás 4.1. Döntési fák [Concepts Chapter 11] A döntési fákon alapuló klasszifikációs eljárás nagy előnye, hogy az alkalmazása révén nemcsak egyedenkénti előrejelzést

Részletesebben

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor VÁLLALATI INFORMÁCIÓS RENDSZEREK Debrenti Attila Sándor Információs rendszer 2 Információs rendszer: az adatok megszerzésére, tárolására és a tárolt adatok különböző szempontok szerinti feldolgozására,

Részletesebben

Történet John Little (1970) (Management Science cikk)

Történet John Little (1970) (Management Science cikk) Információ menedzsment Szendrői Etelka Rendszer- és Szoftvertechnológia Tanszék szendroi@witch.pmmf.hu Vezetői információs rendszerek Döntéstámogató rendszerek (Decision Support Systems) Döntések információn

Részletesebben

Eredmények kiértékelése

Eredmények kiértékelése Eredmények kiértékelése Nagyméretű adathalmazok kezelése (2010/2011/2) Katus Kristóf, hallgató Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék 2011. március

Részletesebben

Asszociációs szabályok

Asszociációs szabályok Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában

Részletesebben

A hierarchikus adatbázis struktúra jellemzői

A hierarchikus adatbázis struktúra jellemzői A hierarchikus adatbázis struktúra jellemzői Az első adatbázis-kezelő rendszerek a hierarchikus modellen alapultak. Ennek az volt a magyarázata, hogy az élet sok területén első közelítésben elég jól lehet

Részletesebben

IBM SPSS Modeler 18.2 Újdonságok

IBM SPSS Modeler 18.2 Újdonságok IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern

Részletesebben

Több valószínűségi változó együttes eloszlása, korreláció

Több valószínűségi változó együttes eloszlása, korreláció Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...

Részletesebben

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek Anyagvizsgálati módszerek Mérési adatok feldolgozása Anyagvizsgálati módszerek Pannon Egyetem Mérnöki Kar Anyagvizsgálati módszerek Statisztika 1/ 22 Mérési eredmények felhasználása Tulajdonságok hierarchikus

Részletesebben

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis

Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis SZDT-09 p. 1/36 Biometria az orvosi gyakorlatban Regresszió Túlélésanalízis Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Logisztikus regresszió

Részletesebben

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1 Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában

Részletesebben

Logisztikus regresszió

Logisztikus regresszió Logisztikus regresszió Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó (x) Nem metrikus Metrikus Kereszttábla elemzés

Részletesebben

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június

ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június GAZDASÁGSTATISZTIKA GAZDASÁGSTATISZTIKA Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TátK Közgazdaságtudományi Tanszékén az ELTE Közgazdaságtudományi

Részletesebben

Populációbecslések és monitoring

Populációbecslések és monitoring Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány

Részletesebben

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.

Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák

Részletesebben

Ismétlı áttekintés. Statisztika II., 1. alkalom

Ismétlı áttekintés. Statisztika II., 1. alkalom Ismétlı áttekintés Statisztika II., 1. alkalom Hipotézisek Milyen a jó null hipotézis?? H0: Léteznek kitőnı tanuló diszlexiások. Sokkal inkább: H0: Nincs diszlexiás kitőnı tanuló általános iskolában Mo-on.

Részletesebben

Biomatematika 2 Orvosi biometria

Biomatematika 2 Orvosi biometria Biomatematika 2 Orvosi biometria 2017.02.05. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)

Részletesebben

Populációbecslések és monitoring

Populációbecslések és monitoring Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány

Részletesebben

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?

Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? egymintás t-próba Wilcoxon-féle előjeles

Részletesebben

Mintavételi eljárások

Mintavételi eljárások Mintavételi eljárások Daróczi Gergely, PPKE BTK 2008. X.6. Óravázlat A mintavétel célja Alapfogalmak Alapsokaság, mintavételi keret, megfigyelési egység, mintavételi egység... Nem valószínűségi mintavételezési

Részletesebben

Varianciaanalízis 4/24/12

Varianciaanalízis 4/24/12 1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása

Részletesebben

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1

A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 1. A populációt a számunkra érdekes egységek (személyek, csalások, iskolák stb.) alkotják,

Részletesebben

Modellkiválasztás és struktúrák tanulása

Modellkiválasztás és struktúrák tanulása Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális

Részletesebben

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!

Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető! BGF KKK Módszertani Intézeti Tanszéki Osztály Budapest, 2012.. Név:... Neptun kód:... Érdemjegy:..... STATISZTIKA II. VIZSGADOLGOZAT Feladatok 1. 2. 3. 4. 5. 6. Összesen Szerezhető pontszám 21 20 7 22

Részletesebben

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés

Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés Gazdaságstatisztika 2. előadás Egy ismérv szerinti rendezés Kóczy Á. László KGK VMI Áttekintés Gyakorisági sorok Grafikus ábrázolásuk Helyzetmutatók Szóródási mutatók Az aszimmetria mérőszámai Koncentráció

Részletesebben

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás

földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás Matematikai statisztika elıadás, földtudományi BSc (geológus szakirány) 2014/2015 2. félév 6. elıadás Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább

Részletesebben

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás, Matematikai statisztika. elıadás, 9.5.. Továbblépés Ha nem fogadható el a reziduálisok korrelálatlansága: Lehetnek fel nem tárt periódusok De más kapcsolat is fennmaradhat az egymáshoz közeli megfigyelések

Részletesebben

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem

Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14,

Részletesebben

Vizuális adatelemzés

Vizuális adatelemzés Vizuális adatelemzés Rendszermodellezés 2017. Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement

Részletesebben

Variancia-analízis (folytatás)

Variancia-analízis (folytatás) Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke Egytényezıs variancia-analízis blokkképzés nélkül Az átlagok páronkénti összehasonlítása(1)

Részletesebben

Statisztikai becslés

Statisztikai becslés Kabos: Statisztika II. Becslés 1.1 Statisztikai becslés Freedman, D. - Pisani, R. - Purves, R.: Statisztika. Typotex, 2005. Reimann J. - Tóth J.: Valószínűségszámítás és matematikai statisztika. Tankönyvkiadó,

Részletesebben

Az első számjegyek Benford törvénye

Az első számjegyek Benford törvénye Az első számjegyek Benford törvénye Frank Benford (1883-1948) A General Electric fizikusa Simon Newcomb (1835 1909) asztronómus 1. oldal 2. oldal A híres arizonai csekk sikkasztási eset http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm

Részletesebben

Minitab 16 újdonságai május 18

Minitab 16 újdonságai május 18 Minitab 16 újdonságai 2010. május 18 Minitab 16 köszöntése! A Minitab statisztikai szoftver új verziója több mint hetven újdonságot tartalmaz beleértve az erősebb statisztikai képességet, egy új menüt

Részletesebben