Adatbányászat SAS Enterprise Miner
|
|
- Zsolt Orsós
- 10 évvel ezelőtt
- Látták:
Átírás
1 Adatbányászat SAS Enterprise Miner Hajas Csilla ELTE SAS gyakorlataihoz segédlet. Forrásként (a webrıl letöltve) felhasználtam Kiss Attila, Lukács András, Sidló Csaba és Kósa Balázs diasorozatait is, lásd a linkeket az alábbi oldalon: 1
2 Ajánlott (magyar nyelvő) irodalom Bodon Ferenc magyar nyelvő Adatbányászati algoritmusok tanulmánya: 2
3 Tudásfeltárás (KDD) A tudásfeltárás az adatbázisokban tárolt adatokból implicit, korábban nem ismert és potenciálisan hasznosnak vélt információk nem triviális úton való kinyerésének folyamata. 3
4 Alkalmazási területek Kereskedelem Vásárlói szokások követése Pénzügy Banki hitelbírálat Bankkártya csalások detektálása Orvostudomány Diagnosztika (pl. rákkutatás) DNS láncok elemzése Telekommunikáció Vírusvédelem Hacker támadások 4
5 A tudásfeltárás fıbb lépései 5
6 A tudásfeltárás lépései Felhasználási célok meghatározása Céladatbázis létrehozása Adattisztítás Adatintegráció Adattér csökkentés Adatbányászati algoritmus kiválasztása Az algoritmus használata A kinyert információk értelmezése A megszerzett információk ellenırzése az elvárások alapján 6
7 Üzleti intelligencia Adatok > információ > tudás Döntés Modell Adatbányászat Adatok kinyerése, transzformálása Adattárház Termelés, Szolgáltatás => Adatbázis Hasznos információ Tudás reprezentázió Tisztított, feldolgozott adatok Nyers adatok
8 OLTP - OLAP rendszerek OLTP: On Line Transaction Processing Hagyományos adatbázis alkalmazások, nyilvántartások, vállalatok produktív rendszerei ERP rendszerek: Enterprise Resource Planning Pl.: SAP R/3, Oracle Financials, Libra, stb. OLAP: On Line Analytical Processing Elemzési célú rendszerek elterjedt követelményrendszere 8
9 OLTP OLAP tulajdonságok Tulajdonság OLTP OLAP Orientáció Tranzakciók hatékony tárolása, végrehajtása Adatanalízis Felhasználó Vállalati adminsztrátorok Döntéshozók Feladat Napi folyamatok követése Döntéstámogatás, információszolgáltatás Adatok Aktuális, up-to-date Történeti, archív adatok Összegzett adatok Nem jellemzı, részletes Összegzett, egyesített adatok Adatok nézete Relációs multidimenzionális Felhasználói hozzáférés Olvasás / írás Jellemzıen olvasás Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen Feldolgozandó adat Alkalmanként tizes nagyságrendő Egyszerre akár milliós rekordszám Felhasználók száma Viszonylag sok Néhány, közép- és felsıvezetık Prioritás Állandó rendelkezésre állás, megbízhatóság Rugalmasság, felhasználói önállóság 9
10 Az adat útjának fı állomásai Forrásrendszerek Adattárház Elemzı frontend alkalmazások 10
11 Adattárházak (Data Warehousing) Három kulcsmozzanat: Adatkinyerés a tranzakciós (vagy más vállalat-mőködtetési) forrásrendszerekbıl A kinyert adatok átformálása riport (beszámoló) készítés számára A riportok, beszámolók elérhetıvé tétele a döntéshozók számára. 11
12 Adatbányászat (Data Mining) Data mining (knowledge discovery in databases): Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases SAS: advanced methods for exploring and modelling relationships in large amounts of data Abonyi könyv: Az adatbányászat egy olyan döntéstámogatást szolgáló folyamat, mely érvényes, hasznos, és elızıleg nem ismert, tömör információt tár fel nagy adathalmazból. 12
13 Adatbányászat, mint tudományág Multidiszciplinális tudományág: Statics Pattern Recognition Neurocomputing Databases Data Mining KDD Machine Learning AI 13
14 SAS Enterprise Miner vs. egyéb adatbányász eszközök Angoss Software KnowledgeStudio and Mining Manager Computer Associates CleverPath Predictive Analysis Server Fair Isaac Enterprise Decision Management suite Genalytics Predictive Suite IBM DB2 Intelligent Miner Insightful Miner KXEN Analytic Framework Oracle Data Mining (adatbázisba integrált funkciók!) Quadstone System SAS Enterprise Miner (5.1! ELTE-n még a 4.1-es) SPSS Clementine SAP (adattárház integráció!) 14
15 Enterprise Miner vs. egyéb adatbányász eszközök 15
16 SAS Enterprise Miner 16
17 SAS SEMMA folyamat SAS adatbányászati eszközök csoportosítása a tudásfeltárás folyamatának megfelelıen. Sampling (mintavételezés) input data set, mintavételezés, particionálás Exploring (adatfeltárás) statisztikus és grafikus adatelemzı eszközök, klaszterezés, asszociációs szabály keresés, fontos változók kiemelése Modify (adatmódosítás) adatelıkészítés elemzéshez, változók kezelése, kiugró értékek és hiányzó értékek kezelése, változók szerepének módosítása Model (modellépítés) osztályozáshoz használható modellek: döntési fa, neurális háló, regresszió Assess (kiértékelés) modellek összehasonlítása, beszámolók készítése A gyakorlatokon a konkrét eszközök közül megnézzük a fontosabbakat a SAS Enterprise Miner segítségével 17
18 Input Data Source egy library sas dataset megfelelıje attribútumok szerepének kijelölése attribútumok alapstatisztikái (mint metaadatok) Mintavételezés 18
19 Mintavételezés Mintavétel a populációból: eredménye a (stat) minta A mintavétel módja is lényeges (legegyszerőbb eset: bármelyik elem ugyanakkora valószínőséggel kerül a mintába) A mintavétel eredménye: (statisztikai) minta: x 1,x 2,,x n (számsorozat) Ugyanakkor egy másik, hasonló mintavételnél más mintát kapnánk, azaz az adott minta véletlen kísérlet eredménye. Ha a minta véletlen jellegét vizsgáljuk: X 1,X 2,,X n valószínőségi változó-sorozat, az eloszlása nem ismert (vagy csak részben ismert). 19
20 Data partition node Seeds értéket a legtöbb véletlenszámot generáló algoritmus használ. Ha ezt megjegyezzük, és késıbb ugyanezzel az értékkel hajtatjuk végre az adathalmaz partícióját, akkor végeredményként ugyanazt kapjuk, mint korábban, feltéve persze, ha ugyanazokat a lépéseket hajtjuk végre. A rétegzett (stratified) mintavételezésnél az egyes értékek az eloszlásfüggvénynek megfelelı gyakorisággal kerülnek be a mintába. 20
21 Particionálás training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve) Distribution Explorer vizualizációs eszköz, multidimenzionális hisztogramok, eloszlások vizsgálatához 21
22 Multiplot másik vizualizációs, grafikus adatelemzı eszköz automatikus bar chart / scatter plot generálás Insight SAS statisztikai elemzı alkalmazása nagy funkcionalitás több ablakos, egymással együttmőködı aktív elemekkel rendelkezı elemzı eszköz 22
23 Multiplot node 23
24 Hisztogram Adatainkat osztályokba soroljuk (mindegyiket pontosan egybe, pl. az i- edik osztály: a i x<a i+1 ), a csoportok relatív gyakoriságai megegyeznek az osztály fölé rajzolt téglalap területével. Összterület:1 (hasonló a sőrőségfüggvényhez) Frequency Pontszámok grafikus ábrázolása pontszám 24
25 Statisztikai elemzés Mintaátlag: x x1 : = n x n ha az egyes értékek (l i ) gyakoriságai (f i ) adottak: x f1 l : = n f k l k Medián: a sorbarendezett minta középsı eleme (ha páros sok eleme van: a két középsı átlaga). 25
26 Tapasztalati kvantilisek Elméleti kvantilis: abszolút folytonos, szigorúan monoton F esetén qz=f-1(z) Általában: inf{x:f(x)>z} A tapasztalati eloszlás kvantilisei: tapasztalati kvantilisek. Esetleg lineáris interpolációval lehet pontosítani a becsléseinket. z=1/2: medián. z=1/4, 3/4: kvartilisek 26
27 Az egyes dobozok az alsó kvartilistól a felsı kvartilisig tartanak. Középvonal a medián. A vonalak a teljes terjedelmet felölelik, ha ez az egyes irányokban nem nagyobb a kvartilisek közötti különbség 1.5- szeresénél. Ha ezen kívül Gam2 T5 Norm Uni05 boxplot is vannak pontok, azokat külön-külön jeleníti meg. 27
28 Association asszociációs szabály keresı algoritmus implementáció szekvencia elemzés szintén lehetséges, ehhez kell még egy sequence bemeneti változó Regresszió regressziószámítás és elırejelzés lineáris regresszió logisztikus regresszió 28
29 Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülı elempárok lényegesen hasonlóbbak egymáshoz, mint különbözı klaszterek elempárjai. ehhez: megfelelı hasonlósági függvény bevezetése, klaszterezés jóságának valamilyen mértéke MI megfelelıje: felügyelet nélküli tanulás particionáló klaszterezı algoritmusok: adott klaszterezés folyamatos finomításával haladunk elıre, amíg az eredmény elég jó nem lesz 29
30 Döntési fa szabályok leírása fa formában; belsı pontokhoz megfeleltetünk egy vágási feltételt, ami kettı vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy nagy fát, majd ezt visszavágjuk a megfelelı méretre döntési fa elınye: a felépített modell könnyen értelmezhetı 30
31 Mesterséges neuronhálózatok ld.: Futó Iván (szerk.): Mesterséges intelligencia (1999) pl. forrás: Gregorics Tibor többszintő perceptron modell universal approximator tulajdonság: tetszıleges folytonos, nem lineáris függvény approximációja (elégséges neuronszám esetén) hiányzó értékeket nem tudja kezelni 31
32 Modellek összehasonlítása Jelentése: az elemeket percentilisekbe sorolva - aszerint sorba rendezve ıket, hogy az elırejelzés mennyire pontos adott modellre - mekkora a helyes válaszok aránya? 32
33 Egyéb témák dimenzió-csökkentés (pl. klaszterezésnél fontos) Kiugró értékek szőrése, hiányzó értékek pótlása modell exportálása SAS illetve C kód formájában változó transzformációk EM eszközei profit mátrix modellek egyesítése (ensemble) 33
34 Adatbányászati alapproblémák A SAS gyakorlatokon az alábbi feladatok lesznek: 1. Klaszterezés 2. Asszociációs szabály keresés 3. Regresszió, elırejelzés 4. Osztályozás, döntési fa 34
35 Adatbányászat 1.téma: Klaszterezés 35
36 1. Klaszterezés Elıre nem ismert osztályok meghatározása Az azonos osztályba tartozó objektumok közel legyenek egymáshoz, a különbözı osztályokba tartozók távol Nem felügyelt tanulás 36
37 Eltérés elemzés Kiugró értékek keresése Legtöbbször kiszőrik mert zajnak tekintik Alkalmazási terület Vírus védelem Külsı támadások elleni védelem Csalások felderítése 37
38 1.Téma: Klaszterezés Feladat: halmaz elemeinek diszjunkt csoportokba, klaszterekbe sorolása, melyekre igaz, hogy egy osztályba kerülı elempárok lényegesen hasonlóbbak egymáshoz, mint különbözı klaszterek elempárjai. ehhez: megfelelı hasonlósági függvény bevezetése, klaszterezés jóságának valamilyen mértéke MI megfelelıje: felügyelet nélküli tanulás particionáló klaszterezı algoritmusok: adott klaszterezés folyamatos finomításával haladunk elıre, amíg az eredmény elég jó nem lesz 38
39 A k-átlag algoritmus Az elsı lépésben kiválasztunk k centroidot. Az összes pontot besoroljuk valamelyik csoportba aszerint, hogy melyik centroidhoz esik a legközelebb. Az ilymódon kialakult klasztereknek aztán változik a középpontja (az új középpont átlagszámítással könnyen megadható). A következı lépésben aztán ezek szerint az új centroidok szerint osszuk be klaszterekbe a pontokat. Az algoritmus mindaddig tart, amíg valami változik. Az eljárás a következı hibafüggvényt igyekszik minimalizálni: (p tetszıleges pont, m i centroid). k i= 1p C p m i i 2 39
40 K-means algoritmus 40
41 Adatbányászat 2.téma: Asszociációs szabályok keresése 41
42 Asszociációs szabály keresés forrás: Lukács András ( 42
43 Asszociációs szabályok Vásárlói kosarak elemzése Az X terméket vásárlók 80%-a Y terméket is vásárolt 43
44 Asszociációs szabály keresés 44
45 Asszociációs szabályok Egy asszociációs általános formája: {X 1,, X n } Y. Jelentése: ha egy (fogyasztói) kosárban elıfordulnak az X 1,, X n elemek, akkor nagy valószínőséggel az Y is elıfordul. Hogy pontosan mekkora valószínőséggel: ezt adja meg a szabály konfidenciája (confidence). Nyilván nem minden szabály egyforma jelentıségő: pl. lehet, hogy a {tej, vaj} kenyér szabály csupán amiatt teljesül, mert az emberek általában is nagy valószínőséggel vásárolnak kenyeret. A nagy valószínőség azonban nem elég. Az is fontos, hogy az X 1,, X n, Y elemek viszonylag sokszor forduljanak elı egy kosárban. A támogatottság (vagy szupport (support)), mint mérıszámok pontosan ezt hivatottak elısegíteni. 45
46 Adatbányászat 3.téma: Regresszió 46
47 3.téma: Regresszió Lineáris model Y i =ax i +b+ε i (X i a magyarázó változó értéke, ε i független, azonos eloszlású hiba. E(ε i )=0, általában feltesszük, hogy normális eloszlású. a,b a becsülendı együtthatók) E(Y-(aX+b)) 2 min Megoldás: a n ( xi x)( yi y) 1, bˆ = y i= ˆ = n 2 i= 1 ( x i x) ax ˆ 47
48 Lineáris regresszió Több magyarázó változót is bevonhatunk a modellbe: Y =βx +ε ahol Y,ε n hosszú vektorok, X nxk-as mátrix (ismert értékekbıl), β pedig k hosszú (ismeretlen) paramétervektor. E(Y) =βx. A legkisebb négyzetek módszere A megoldás: n i= 1 ε 2 i β' = ' = ( Y βx')( Y βx') ˆ 1 ( X' X) X' Y' 48
49 A becslés tulajdonságai Torzítatlan Kovarianciamátrix: E( ˆ β β ' )( ˆ β β) = 2 σ ( X' X) 1 Ha ε normális eloszlású, akkor a legkisebb négyzetes becslés egyúttal ML becslés is. Példák: lineáris regresszió, szórásanalízis. 49
50 Hipotézisvizsgálat a lineáris modellben A vizsgált hipotézis: H0 : βh' = ahol H rxk-as mátrix (r<k), rang(h)=r. A valószínőséghányados próba statisztika: ' ' ( Y ˆ βx')( Y ˆ βx') ( Y ˆ βx')( Y ˆ βx') F = ˆ ˆ ' ( Y βx')( Y βx') (n-k)/r F a H 0 esetén F eloszlású (r,n-k) szabadsági fokkal. (Akkor utasítjuk el H 0 t, ha F nagy.) 0 50
51 R2=0.56 R2=0.73 cipõméret cipõméret magasság R2= magasság R2=0.92 A regresszió vizsgálata cipõméret cipõméret magasság magasság 51
52 R2= magasság R2= magasság magasság 52 cipõméret cipõméret R2= magasság R2=0.87 cipõméret cipõméret
53 Regresszió Elırefelé történı választás: elsı lépésben azt a változót választja, amely a legjobban közelíti a célváltozót, ezután kiválasztja azt a két változót, amelyek lineáris kombinációja a legjobb, itt az egyik változó az elızı lépésben kiválasztott változó, a folyamat addig tart, míg egyetlen változónak sem lesz kisebb a p-értéke az elıre megadottnál. 53
54 Regresszió Hátrafelé történı választás: elsı lépésben az összes változó szerepel a modellben, ezek után elhagyja a legkevésbé szignifikáns változót, az eljárás leáll, ha az összes megmaradt változó p-értéke alacsonyabb a megadott küszöbnél. 54
55 Regresszió Lépésenkénti választás (az elırefelé történı választás egy módosítottja): mikor minden arra alkalmas változó bekerült a modellbe, az eljárás kiszőri azokat a változókat, amelyek nem szignifikánsak, az algoritmus leáll, ha nincs olyan változó a modellen kívül, melynek p-értéke egy megadott érték alatt van, a modellben pedig minden változó szignifikáns. 55
56 Logisztikus regresszió Az interval típusú célváltozóknál a rendszer lineáris regressziót használ. A bemeneti változók adott értékei mellett a célváltozó átlagát becsli. Diszkrét célváltozó esetén logisztikus regresszió alkalmazható. Ekkor a célváltozó egy-egy értékének valószínőségét becsli a rendszer. A módszer mögött az a feltételezés áll, miszerint a célváltozó logisztikus transzformációja lineáris kapcsolatot teremt a célváltozó és a bemeneti változók között. Megjegyzés: regresszió esetén a hiányzó értékeket pótolni kell, ellenkezı esetben a módszer automatikusan figyelmen kívül hagyja azokat a változókat, amelyeknél hiányzó értékek szerepelnek. 56
57 Adatbányászat 4.téma: Döntési fa 57
58 4. Osztályozás Elıre meghatározott osztályokba sorolás Felügyelt tanulás Minta alapján tanítás, szabályok generálása az osztályozáshoz Módszerek: Regresszió Döntési fa Neurális háló 58
59 Osztályozás folyamata Ismert adatok Új adatok tanítási halmaz teszt halmaz Tanuló rendszer modell Elırejelzés 59
60 Osztályozás, elırejelzés megfigyelések input célváltozó Osztályozás: Határozzunk meg egy olyan megfeleltetést, amely az ismert attribútum értékekhez hozzárendeli egy véges elemszámú halmaz egy elemét (tehát osztályoz). Elırejelzés (predikció): Hasonló, mint az osztályozás, viszont itt a célváltozó folytonos (intervallum skálán értelmezett).
61 Osztályozás példák banki hitelelbírálás: szabad-e hitelt adnunk egy adott paraméterekkel jellemezhetı ügyfélnek (fizetés, lakhely, családi állapot, életkor stb.) direkt marketing: kit érdemes megcélozni drágább, direkt marketing: kit érdemes megcélozni drágább, személyre szóló reklámmal
62 Döntési fák Készítsünk elemzést döntési fa segítségével is! (A döntési fák esetében nem feltétlenül jelentenek gondot a hiányzó értékek.) Hasonlítsuk össze a két modellt! 62
63 Modellépítés, partícionálás Adathalmaz partícionálás: training set: modell építéséhez használt adathalmaz validation set: modell hangolásához, finomításához használt adathalmaz test set: modell kiértékeléséhez (mennyire illeszkedik az adathalmazra a modellünk, a test set-et mint új adathalmazt kezelve)
64 Döntési fa példa hitelbírálatra (forrás:
65 Döntési fák szabályok leírása fa formában; belsı pontokhoz megfeleltetünk egy vágási feltételt, ami kettı vagy több osztályt határoz meg felépítéséhez eldönteni: milyen feltétel, milyen attribútum szerint vágjunk, mikor hagyjuk abba a felosztásokat prepruning: addig növesztjük a fát, amíg el nem érjük a kívánt pontosságot postpruning: felépítünk egy nagy fát, majd ezt visszavágjuk a megfelelı méretre döntési fa elınye: a felépített modell könnyen értelmezhetı
66 Vágási feltételek Bináris és nominális változóknál alapesetben a χ 2 -próbát, mint vágási kritériumot keresı módszert, használó döntési fa algoritmus kerül végrehajtásra, de használható az entrópiát, illetve a Gini-indexet használó döntési fa algoritmus is. Ordinális változó esetén csak az utóbbi kettı módszer választható. Intervallum változók esetén pedig egy F-próbát használó eljárás, illetve egy varianciát minimalizáló eljárás között választhatunk. 66
The nontrivial extraction of implicit, previously unknown, and potentially useful information from data.
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs rendszerek Tanszék Adatelemzés intelligens módszerekkel Hullám Gábor Adatelemzés hagyományos megközelítésben I. Megválaszolandó
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.
Regresszió Csorba János Nagyméretű adathalmazok kezelése 2010. március 31. A feladat X magyarázó attribútumok halmaza Y magyarázandó attribútumok) Kérdés: f : X -> Y a kapcsolat pár tanítópontban ismert
Matematikai alapok és valószínőségszámítás. Középértékek és szóródási mutatók
Matematikai alapok és valószínőségszámítás Középértékek és szóródási mutatók Középértékek A leíró statisztikák talán leggyakrabban használt csoportját a középértékek jelentik. Legkönnyebben mint az adathalmaz
Egyszempontos variancia analízis. Statisztika I., 5. alkalom
Statisztika I., 5. alkalom Számos t-próba versus variancia analízis Kreativitás vizsgálata -nık -férfiak ->kétmintás t-próba I. Fajú hiba=α Kreativitás vizsgálata -informatikusok -építészek -színészek
Matematikai alapok és valószínőségszámítás. Statisztikai változók Adatok megtekintése
Matematikai alapok és valószínőségszámítás Statisztikai változók Adatok megtekintése Statisztikai változók A statisztikai elemzések során a vizsgálati, vagy megfigyelési egységeket különbözı jellemzık
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Segítség az outputok értelmezéséhez
Tanulni: 10.1-10.3, 10.5, 11.10. Hf: A honlapra feltett falco_exp.zip-ben lévő exploratív elemzések áttanulmányozása, érdekességek, észrevételek kigyűjtése. Segítség az outputok értelmezéséhez Leiro: Leíró
Matematikai statisztika c. tárgy oktatásának célja és tematikája
Matematikai statisztika c. tárgy oktatásának célja és tematikája 2015 Tematika Matematikai statisztika 1. Időkeret: 12 héten keresztül heti 3x50 perc (előadás és szeminárium) 2. Szükséges előismeretek:
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 10 X. SZIMULÁCIÓ 1. VÉLETLEN számok A véletlen számok fontos szerepet játszanak a véletlen helyzetek generálásában (pénzérme, dobókocka,
Osztályozás, regresszió. Nagyméretű adathalmazok kezelése Tatai Márton
Osztályozás, regresszió Nagyméretű adathalmazok kezelése Tatai Márton Osztályozási algoritmusok Osztályozás Diszkrét értékkészletű, ismeretlen attribútumok értékének meghatározása ismert attribútumok értéke
A leíró statisztikák
A leíró statisztikák A leíró statisztikák fogalma, haszna Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.13. Populáció és minta jellemző adatai Hibaszámítás Valószínűség 1 Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza)
Elemi statisztika fizikusoknak
1. oldal Elemi statisztika fizikusoknak Pollner Péter Biológiai Fizika Tanszék pollner@elte.hu Az adatok leírása, megismerése és összehasonlítása 2-1 Áttekintés 2-2 Gyakoriság eloszlások 2-3 Az adatok
Gyakorló feladatok adatbányászati technikák tantárgyhoz
Gyakorló feladatok adatbányászati technikák tantárgyhoz Buza Krisztián Számítástudományi és Információelméleti Tanszék Budapesti Műszaki és Gazdaságtudományi Egyetem Klaszterezés kiértékelése Feladat:
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.15. Esemény Egy kísérlet vagy megfigyelés (vagy mérés) lehetséges eredményeinek összessége (halmaza) alkotja az eseményteret. Esemény: az eseménytér részhalmazai.
biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás
Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Statisztika I. 4. előadás Mintavétel. Kóczy Á. László KGK-VMI. Minta Mintavétel Feladatok. http://uni-obuda.hu/users/koczyl/statisztika1.
Statisztika I. 4. előadás Mintavétel http://uni-obuda.hu/users/koczyl/statisztika1.htm Kóczy Á. László KGK-VMI koczy.laszlo@kgk.uni-obuda.hu Sokaság és minta Alap- és mintasokaság A mintasokaság az a részsokaság,
Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat
Statisztikai alapismeretek (folytatás) 4. elıadás (7-8. lecke) Becslések, Hipotézis vizsgálat 7. lecke Paraméter becslés Konfidencia intervallum Hipotézis vizsgálat feladata Paraméter becslés és konfidencia
Matematikai alapok és valószínőségszámítás. Normál eloszlás
Matematikai alapok és valószínőségszámítás Normál eloszlás A normál eloszlás Folytonos változók esetén az eloszlás meghatározása nehezebb, mint diszkrét változók esetén. A változó értékei nem sorolhatóak
1. gyakorlat. Mesterséges Intelligencia 2.
1. gyakorlat Mesterséges Intelligencia. Elérhetőségek web: www.inf.u-szeged.hu/~gulyasg mail: gulyasg@inf.u-szeged.hu Követelmények (nem teljes) gyakorlat látogatása kötelező ZH írása a gyakorlaton elhangzott
Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás
STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x
Keresés képi jellemzők alapján. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Keresés képi jellemzők alapján Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Lusta gépi tanulási algoritmusok Osztályozás: k=1: piros k=5: kék k-legközelebbi szomszéd (k=1,3,5,7)
Gépi tanulás a gyakorlatban. Kiértékelés és Klaszterezés
Gépi tanulás a gyakorlatban Kiértékelés és Klaszterezés Hogyan alkalmazzuk sikeresen a gépi tanuló módszereket? Hogyan válasszuk az algoritmusokat? Hogyan hangoljuk a paramétereiket? Precízebben: Tegyük
Valószínűségi változók. Várható érték és szórás
Matematikai statisztika gyakorlat Valószínűségi változók. Várható érték és szórás Valószínűségi változók 2016. március 7-11. 1 / 13 Valószínűségi változók Legyen a (Ω, A, P) valószínűségi mező. Egy X :
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén
Új típusú döntési fa építés és annak alkalmazása többtényezős döntés területén Dombi József Szegedi Tudományegyetem Bevezetés - ID3 (Iterative Dichotomiser 3) Az ID algoritmusok egy elemhalmaz felhasználásával
Számítógépes képelemzés 7. előadás. Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék
Számítógépes képelemzés 7. előadás Dr. Balázs Péter SZTE, Képfeldolgozás és Számítógépes Grafika Tanszék Momentumok Momentum-alapú jellemzők Tömegközéppont Irányultáság 1 2 tan 2 1 2,0 1,1 0, 2 Befoglaló
STATISZTIKA I. Változékonyság (szóródás) A szóródás mutatószámai. Terjedelem. Forgalom terjedelem. Excel függvények. Függvénykategória: Statisztikai
Változékonyság (szóródás) STATISZTIKA I. 5. Előadás Szóródási mutatók A középértékek a sokaság elemeinek értéknagyságbeli különbségeit eltakarhatják. A változékonyság az azonos tulajdonságú, de eltérő
4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis
1. feladat Regresszióanalízis. Legkisebb négyzetek elve 2. feladat Az iskola egy évfolyamába tartozó diákok átlagéletkora 15,8 év, standard deviációja 0,6 év. A 625 fős évfolyamból hány diák fiatalabb
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév
Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév A pirossal írt anyagrészeket nem fogom közvetlenül számon kérni a vizsgán, azok háttérismeretként,
A Statisztika alapjai
A Statisztika alapjai BME A3c Magyar Róbert 2016.05.12. Mi az a Statisztika? A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati
Döntési fák. (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART )) Rekurzív osztályozó módszer, Klasszifikációs és regressziós fák folytonos, kategóriás, illetve túlélés adatok
Mesterséges Intelligencia I.
Mesterséges Intelligencia I. 10. elıadás (2008. november 10.) Készítette: Romhányi Anita (ROANAAT.SZE) - 1 - Statisztikai tanulás (Megfigyelések alapján történı bizonytalan következetésnek tekintjük a
Gépi tanulás a gyakorlatban. Bevezetés
Gépi tanulás a gyakorlatban Bevezetés Motiváció Nagyon gyakran találkozunk gépi tanuló alkalmazásokkal Spam detekció Karakter felismerés Fotó címkézés Szociális háló elemzés Piaci szegmentáció analízis
Matematikai alapok és valószínőségszámítás. Valószínőségi eloszlások Binomiális eloszlás
Matematikai alapok és valószínőségszámítás Valószínőségi eloszlások Binomiális eloszlás Bevezetés A tudományos életben megfigyeléseket teszünk, kísérleteket végzünk. Ezek többféle különbözı eredményre
Adatbányászati technikák (VISZM185) 2015 tavasz
Adatbányászati technikák (VISZM185) 2015 tavasz Csima Judit BME, VIK, Számítástudományi és Információelméleti Tanszék 2015. február 11. Csima Judit Adatbányászati technikák (VISZM185) 2015 tavasz 1 / 27
STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése
4. A modell érvényességének ellenőrzése STATISZTIKA 4. Előadás Variancia-analízis Lineáris modellek 1. Függetlenség 2. Normális eloszlás 3. Azonos varianciák A maradék független a kezelés és blokk hatástól
Matematikai alapok és valószínőségszámítás. Statisztikai becslés Statisztikák eloszlása
Matematikai alapok és valószínőségszámítás Statisztikai becslés Statisztikák eloszlása Mintavétel A statisztikában a cél, hogy az érdeklõdés tárgyát képezõ populáció bizonyos paramétereit a populációból
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban
Statisztikai eljárások a mintafelismerésben és a gépi tanulásban Varga Domonkos (I.évf. PhD hallgató) 2014 május A prezentáció felépítése 1) Alapfogalmak 2) A gépi tanulás, mintafelismerés alkalmazási
Véletlenszám generátorok és tesztelésük. Tossenberger Tamás
Véletlenszám generátorok és tesztelésük Tossenberger Tamás Érdekességek Pénzérme feldobó gép: $0,25-os érme 1/6000 valószínűséggel esik az élére 51% eséllyel érkezik a felfelé mutató oldalára Pörgetésnél
Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
Biometria gyakorló feladatok BsC hallgatók számára
Biometria gyakorló feladatok BsC hallgatók számára 1. Egy üzem alkalmazottainak megoszlása az elért teljesítmény %-a szerint a következı: Norma teljesítmény % Dolgozók száma 60-80 30 81-90 70 91-100 90
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
STATISZTIKA. András hármas. Éva ötös. Nóri négyes. 5 4,5 4 3,5 3 2,5 2 1,5 ANNA BÉLA CILI 0,5 MAGY. MAT. TÖRT. KÉM.
STATISZTIKA 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 MAGY. MAT. TÖRT. KÉM. ANNA BÉLA CILI András hármas. Béla Az átlag 3,5! kettes. Éva ötös. Nóri négyes. 1 mérés: dolgokhoz valamely szabály alapján szám rendelése
Kódverifikáció gépi tanulással
Kódverifikáció gépi tanulással Szoftver verifikáció és validáció kiselőadás Hidasi Balázs 2013. 12. 12. Áttekintés Gépi tanuló módszerek áttekintése Kódverifikáció Motiváció Néhány megközelítés Fault Invariant
Mérési hibák 2006.10.04. 1
Mérési hibák 2006.10.04. 1 Mérés jel- és rendszerelméleti modellje Mérési hibák_labor/2 Mérési hibák mérési hiba: a meghatározandó értékre a mérés során kapott eredmény és ideális értéke közötti különbség
Leggyakrabban használt adatbányászási technikák. Vezetői információs rendszerek
Leggyakrabban használt adatbányászási technikák ADATBÁNYÁSZÁS II. 1. A társításelemzés társítási szabályok (asszociációs szabályok) feltárását jelenti. Azt vizsgájuk, hogy az adatbázis elemei között létezik-e
A becslés tulajdonságai nagyban függnek a megfigyelésvektortól. A klasszikus esetben, amikor az
1 6. LECKE: REGRESSZIÓ -- Elıadás 6.1. A regresszió feladata és módszerei [C4] A módszer lényege, hogy arányskálán mért magyarázó változók (x 1,,x k ) segítségével közelítjük a számunkra érdekes, ugyancsak
Populációbecslés és monitoring. Eloszlások és alapstatisztikák
Populációbecslés és monitoring Eloszlások és alapstatisztikák Eloszlások Az eloszlás megadja, hogy milyen valószínűséggel kapunk egy adott intervallumba tartozó értéket, ha egy olyan populációból veszünk
Lineáris regressziós modellek 1
Lineáris regressziós modellek 1 Ispány Márton és Jeszenszky Péter 2016. szeptember 19. 1 Az ábrák C.M. Bishop: Pattern Recognition and Machine Learning c. könyvéből származnak. Tartalom Bevezető példák
Vezetői információs rendszerek
Vezetői információs rendszerek Kiadott anyag: Vállalat és információk Elekes Edit, 2015. E-mail: elekes.edit@eng.unideb.hu Anyagok: eng.unideb.hu/userdir/vezetoi_inf_rd 1 A vállalat, mint információs rendszer
Miskolci Egyetem Gazdaságtudományi Kar Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis Hasonló dolgok csoportosítását jelenti, gyakorlatilag az osztályozás szinonimájaként értelmezhetjük. A klaszteranalízis célja A klaszteranalízis alapvető célja, hogy a megfigyelési egységeket
Tartalomjegyzék I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE
Tartalomjegyzék 5 Tartalomjegyzék Előszó I. RÉSZ: KÍSÉRLETEK MEGTERVEZÉSE 1. fejezet: Kontrollált kísérletek 21 1. A Salk-oltás kipróbálása 21 2. A porta-cava sönt 25 3. Történeti kontrollok 27 4. Összefoglalás
Gyors sikerek adatbányászati módszerekkel
Gyors sikerek adatbányászati módszerekkel Kezdő adatbányászati workshop Petrócziné Huczman Zsuzsanna 2015.10.13. Bemutatkozás BME, műszaki informatika szak, adatbányászati szakirány Citibank Data Explorer
Korreláció és lineáris regresszió
Korreláció és lineáris regresszió Két folytonos változó közötti összefüggés vizsgálata Szűcs Mónika SZTE ÁOK-TTIK Orvosi Fizikai és Orvosi Informatikai Intézet Orvosi Fizika és Statisztika I. előadás 2016.11.02.
Adatbányászati szemelvények MapReduce környezetben
Adatbányászati szemelvények MapReduce környezetben Salánki Ágnes salanki@mit.bme.hu 2014.11.10. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Felügyelt
Regressziós vizsgálatok
Regressziós vizsgálatok Regresszió (regression) Általános jelentése: visszaesés, hanyatlás, visszafelé mozgás, visszavezetés. Orvosi területen: visszafejlődés, involúció. A betegség tünetei, vagy maga
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
[Biomatematika 2] Orvosi biometria
[Biomatematika 2] Orvosi biometria 2016.02.29. A statisztika típusai Leíró jellegű statisztika: összegzi egy adathalmaz jellemzőit. A középértéket jelemzi (medián, módus, átlag) Az adatok változékonyságát
y ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Big Data az adattárházban
Big Data az adattárházban A párbaj folytatódik? Néhány fontos Big Data projekt Cég Téma Adat Újfajta Mennyiség Saját adat? Típus Google Influenza Google I big I Előjelzés előjelzés Farecast Xoom Chicagoi
2009.04.29. 2009. április 24. INFO Savaria 2009 2. 2009. április 24. INFO Savaria 2009 4. 2009. április 24. INFO Savaria 2009 3
Négy adatbázis-kezelı rendszer összehasonlítása webes környezetben Sterbinszky Nóra snorav@gmail.com Áttekintés Növekvı igény hatékony adatbázis- kezelıkre a világhálón Hogyan mérhetı ezek teljesítménye
Microsoft SQL Server telepítése
Microsoft SQL Server telepítése Az SQL Server a Microsoft adatbázis kiszolgáló megoldása Windows operációs rendszerekre. Az SQL Server 1.0 verziója 1989-ben jelent meg, amelyet tizenegy további verzió
4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás. 4.1. Döntési fák [Concepts Chapter 11]
1 4. LECKE: DÖNTÉSI FÁK - OSZTÁLYOZÁS II. -- Előadás 4.1. Döntési fák [Concepts Chapter 11] A döntési fákon alapuló klasszifikációs eljárás nagy előnye, hogy az alkalmazása révén nemcsak egyedenkénti előrejelzést
VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor
VÁLLALATI INFORMÁCIÓS RENDSZEREK Debrenti Attila Sándor Információs rendszer 2 Információs rendszer: az adatok megszerzésére, tárolására és a tárolt adatok különböző szempontok szerinti feldolgozására,
Történet John Little (1970) (Management Science cikk)
Információ menedzsment Szendrői Etelka Rendszer- és Szoftvertechnológia Tanszék szendroi@witch.pmmf.hu Vezetői információs rendszerek Döntéstámogató rendszerek (Decision Support Systems) Döntések információn
Eredmények kiértékelése
Eredmények kiértékelése Nagyméretű adathalmazok kezelése (2010/2011/2) Katus Kristóf, hallgató Budapesti Műszaki és Gazdaságtudományi Egyetem Számítástudományi és Információelméleti Tanszék 2011. március
Asszociációs szabályok
Asszociációs szabályok Nikházy László Nagy adathalmazok kezelése 2010. március 10. Mi az értelme? A ö asszociációs szabály azt állítja, hogy azon vásárlói kosarak, amik tartalmaznak pelenkát, általában
A hierarchikus adatbázis struktúra jellemzői
A hierarchikus adatbázis struktúra jellemzői Az első adatbázis-kezelő rendszerek a hierarchikus modellen alapultak. Ennek az volt a magyarázata, hogy az élet sok területén első közelítésben elég jól lehet
IBM SPSS Modeler 18.2 Újdonságok
IBM SPSS Modeler 18.2 Újdonságok 1 2 Új, modern megjelenés Vizualizáció fejlesztése Újabb algoritmusok (Python, Spark alapú) View Data, t-sne, e-plot GMM, HDBSCAN, KDE, Isotonic-Regression 3 Új, modern
Több valószínűségi változó együttes eloszlása, korreláció
Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...
Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek
Anyagvizsgálati módszerek Mérési adatok feldolgozása Anyagvizsgálati módszerek Pannon Egyetem Mérnöki Kar Anyagvizsgálati módszerek Statisztika 1/ 22 Mérési eredmények felhasználása Tulajdonságok hierarchikus
Biometria az orvosi gyakorlatban. Regresszió Túlélésanalízis
SZDT-09 p. 1/36 Biometria az orvosi gyakorlatban Regresszió Túlélésanalízis Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Logisztikus regresszió
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
Logisztikus regresszió
Logisztikus regresszió Kvantitatív statisztikai módszerek Dr. Szilágyi Roland Függő változó (y) Nem metrikus Metri kus Gazdaságtudományi Kar Független változó (x) Nem metrikus Metrikus Kereszttábla elemzés
ELTE TáTK Közgazdaságtudományi Tanszék GAZDASÁGSTATISZTIKA. Készítette: Bíró Anikó. Szakmai felelős: Bíró Anikó június
GAZDASÁGSTATISZTIKA GAZDASÁGSTATISZTIKA Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TátK Közgazdaságtudományi Tanszékén az ELTE Közgazdaságtudományi
Populációbecslések és monitoring
Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017.
Mit látnak a robotok? Bányai Mihály Matemorfózis, 2017. Vizuális feldolgozórendszerek feladatai Mesterséges intelligencia és idegtudomány Mesterséges intelligencia és idegtudomány Párhuzamos problémák
Ismétlı áttekintés. Statisztika II., 1. alkalom
Ismétlı áttekintés Statisztika II., 1. alkalom Hipotézisek Milyen a jó null hipotézis?? H0: Léteznek kitőnı tanuló diszlexiások. Sokkal inkább: H0: Nincs diszlexiás kitőnı tanuló általános iskolában Mo-on.
Biomatematika 2 Orvosi biometria
Biomatematika 2 Orvosi biometria 2017.02.05. Orvosi biometria (orvosi biostatisztika) Statisztika: tömegjelenségeket számadatokkal leíró tudomány. A statisztika elkészítésének menete: tanulmányok (kísérletek)
Populációbecslések és monitoring
Populációbecslések és monitoring A becslés szerepe az ökológiában és a vadgazdálkodásban. A becslési módszerek csoportosítása. Teljes számlálás. Statisztikai alapfogalmak. Fontos lehet tudnunk, hogy hány
Egymintás próbák. Alapkérdés: populáció <paramétere/tulajdonsága> megegyezik-e egy referencia paraméter értékkel/tulajdonsággal?
Egymintás próbák σ s μ m Alapkérdés: A populáció egy adott megegyezik-e egy referencia paraméter értékkel/tulajdonsággal? egymintás t-próba Wilcoxon-féle előjeles
Mintavételi eljárások
Mintavételi eljárások Daróczi Gergely, PPKE BTK 2008. X.6. Óravázlat A mintavétel célja Alapfogalmak Alapsokaság, mintavételi keret, megfigyelési egység, mintavételi egység... Nem valószínűségi mintavételezési
Varianciaanalízis 4/24/12
1. Feladat Egy póker kártya keverő gép a kártyákat random módon választja ki. A vizsgálatban 1600 választott kártya színei az alábbi gyakorisággal fordultak elő. Vizsgáljuk meg, hogy a kártyák kiválasztása
A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1
A gyakorló feladatok számozása a bevezetı órát követı órán, azaz a második órán indul. Gyakorló feladatok megoldásai 1 1. A populációt a számunkra érdekes egységek (személyek, csalások, iskolák stb.) alkotják,
Modellkiválasztás és struktúrák tanulása
Modellkiválasztás és struktúrák tanulása Szervezőelvek keresése Az unsupervised learning egyik fő célja Optimális reprezentációk Magyarázatok Predikciók Az emberi tanulás alapja Általános strukturális
Módszertani Intézeti Tanszéki Osztály. A megoldás részletes mellékszámítások hiányában nem értékelhető!
BGF KKK Módszertani Intézeti Tanszéki Osztály Budapest, 2012.. Név:... Neptun kód:... Érdemjegy:..... STATISZTIKA II. VIZSGADOLGOZAT Feladatok 1. 2. 3. 4. 5. 6. Összesen Szerezhető pontszám 21 20 7 22
Bevezető Adatok rendezése Adatok jellemzése Időbeli elemzés
Gazdaságstatisztika 2. előadás Egy ismérv szerinti rendezés Kóczy Á. László KGK VMI Áttekintés Gyakorisági sorok Grafikus ábrázolásuk Helyzetmutatók Szóródási mutatók Az aszimmetria mérőszámai Koncentráció
földtudományi BSc (geológus szakirány) Matematikai statisztika elıadás, 2014/ félév 6. elıadás
Matematikai statisztika elıadás, földtudományi BSc (geológus szakirány) 2014/2015 2. félév 6. elıadás Konfidencia intervallum Def.: 1-α megbízhatóságú konfidencia intervallum: Olyan intervallum, mely legalább
Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,
Matematikai statisztika. elıadás, 9.5.. Továbblépés Ha nem fogadható el a reziduálisok korrelálatlansága: Lehetnek fel nem tárt periódusok De más kapcsolat is fennmaradhat az egymáshoz közeli megfigyelések
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem
Biometria, haladó biostatisztika EA+GY biometub17vm Szerda 8:00-9:00, 9:00-11:00 Déli Tömb 0-804, Lóczy Lajos terem Előadások-gyakorlatok 2018-ban (13 alkalom) IX.12, 19, 26, X. 3, 10, 17, 24, XI. 7, 14,
Vizuális adatelemzés
Vizuális adatelemzés Rendszermodellezés 2017. Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement
Variancia-analízis (folytatás)
Variancia-analízis (folytatás) 7. elıadás (13-14. lecke) Egytényezıs VA blokk-képzés nélkül és blokk-képzéssel 13. lecke Egytényezıs variancia-analízis blokkképzés nélkül Az átlagok páronkénti összehasonlítása(1)
Statisztikai becslés
Kabos: Statisztika II. Becslés 1.1 Statisztikai becslés Freedman, D. - Pisani, R. - Purves, R.: Statisztika. Typotex, 2005. Reimann J. - Tóth J.: Valószínűségszámítás és matematikai statisztika. Tankönyvkiadó,
Az első számjegyek Benford törvénye
Az első számjegyek Benford törvénye Frank Benford (1883-1948) A General Electric fizikusa Simon Newcomb (1835 1909) asztronómus 1. oldal 2. oldal A híres arizonai csekk sikkasztási eset http://www.aicpa.org/pubs/jofa/may1999/nigrini.htm
Minitab 16 újdonságai május 18
Minitab 16 újdonságai 2010. május 18 Minitab 16 köszöntése! A Minitab statisztikai szoftver új verziója több mint hetven újdonságot tartalmaz beleértve az erősebb statisztikai képességet, egy új menüt