Adatelemzés és adatbányászat MSc

Hasonló dokumentumok
VIR alapfogalmai. Előadásvázlat. dr. Kovács László

Adatelemzés és adatbányászat MSc

Az információ hatalom. adatok. információ

Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek

Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János

Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió

Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok

y ij = µ + α i + e ij

x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:

A mérési eredmény megadása

Statisztika elméleti összefoglaló

biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás

Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.

Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )

Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell

Számítógépes döntéstámogatás. Statisztikai elemzés

Több valószínűségi változó együttes eloszlása, korreláció

e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:

Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem

Matematikai geodéziai számítások 6.

Adatok statisztikai értékelésének főbb lehetőségei

Statisztikai következtetések Nemlineáris regresszió Feladatok Vége

VÁLLALATI INFORMÁCIÓS RENDSZEREK. Debrenti Attila Sándor

2013 ŐSZ. 1. Mutassa be az egymintás z-próba célját, alkalmazásának feltételeit és módszerét!

Kísérlettervezés alapfogalmak

Gazdasági informatika alapjai

Matematikai geodéziai számítások 6.

Infor PM10 Üzleti intelligencia megoldás

Valószínűségszámítás összefoglaló

Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre

Hipotézis, sejtés STATISZTIKA. Kétmintás hipotézisek. Tudományos hipotézis. Munkahipotézis (H a ) Nullhipotézis (H 0 ) 11. Előadás

Korreláció és lineáris regresszió

STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba

Vállalati információs rendszerek I, MIN5B6IN, 5 kredit, K. 4. A meghirdetés ideje (mintatanterv szerint vagy keresztfélében):

Továbblépés. Általános, lineáris modell. Példák. Jellemzık. Matematikai statisztika 12. elıadás,

1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása

KÖVETKEZTETŐ STATISZTIKA

Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre

[Biomatematika 2] Orvosi biometria

Bevezetés a hipotézisvizsgálatokba

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Matematikai statisztika. Mi a modell? Binomiális eloszlás sűrűségfüggvény. Binomiális eloszlás

Informatikai alapismeretek Földtudományi BSC számára

Kísérlettervezés alapfogalmak

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Diagnosztika és előrejelzés

Vezetői információs rendszerek

Eloszlás-független módszerek (folytatás) 14. elıadás ( lecke) 27. lecke khí-négyzet eloszlású statisztikák esetszámtáblázatok

Mérnökgeodéziai hálózatok feldolgozása

Egyszempontos variancia analízis. Statisztika I., 5. alkalom

Általánosan, bármilyen mérés annyit jelent, mint meghatározni, hányszor van meg

MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI

4/24/12. Regresszióanalízis. Legkisebb négyzetek elve. Regresszióanalízis

Leíró és matematikai statisztika el adásnapló Matematika alapszak, matematikai elemz szakirány 2016/2017. tavaszi félév

STATISZTIKA. A maradék független a kezelés és blokk hatástól. Maradékok leíró statisztikája. 4. A modell érvényességének ellenőrzése

Kutatásmódszertan és prezentációkészítés

BEVEZETÉS Az objektum fogalma

Többváltozós lineáris regressziós modell feltételeinek

Autoregresszív és mozgóátlag folyamatok. Géczi-Papp Renáta

Modern műszeres analitika szeminárium Néhány egyszerű statisztikai teszt

Elméleti összefoglaló a Sztochasztika alapjai kurzushoz

Autoregresszív és mozgóátlag folyamatok

4. Az A és B események egymást kizáró eseményeknek vagy idegen (diszjunkt)eseményeknek nevezzük, ha AB=O

egyetemi jegyzet Meskó Balázs

: az i -ik esélyhányados, i = 2, 3,..I

A Statisztika alapjai

Microsoft Excel Gyakoriság

Lineáris regressziószámítás 1. - kétváltozós eset

6. Előadás. Vereb György, DE OEC BSI, október 12.

Regressziós vizsgálatok

Diverzifikáció Markowitz-modell MAD modell CAPM modell 2017/ Szegedi Tudományegyetem Informatikai Intézet

Elemi statisztika. >> =weiszd= << december 20. Szerintem nincs sok szükségünk erre... [visszajelzés esetén azt is belerakom] x x = n

GVMST22GNC Statisztika II. Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet

Likelihood, deviancia, Akaike-féle információs kritérium

Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.

STATISZTIKA ELŐADÁS ÁTTEKINTÉSE. Mi a modell? Matematikai statisztika. 300 dobás. sűrűségfüggvénye. Egyenletes eloszlás

A maximum likelihood becslésről

Statisztika I. 9. előadás. Előadó: Dr. Ertsey Imre

A mérések általános és alapvető metrológiai fogalmai és definíciói. Mérések, mérési eredmények, mérési bizonytalanság. mérés. mérési elv

Többváltozós lineáris regressziós modell feltételeinek tesztelése I.

Populációbecslés és monitoring. Eloszlások és alapstatisztikák

Elméleti összefoglaló a Valószín ségszámítás kurzushoz

SQL OLAP 2. óra. Multi-dimenzionális adatmodell. A normalizált relációs modell bonyolult a felhasználók számára

Biomatematika 13. Varianciaanaĺızis (ANOVA)

Esettanulmány. A homoszkedaszticitás megsértésének hatása a regressziós paraméterekre. Tartalomjegyzék. 1. Bevezetés... 2

Biostatisztika VIII. Mátyus László. 19 October

Regresszió. Csorba János. Nagyméretű adathalmazok kezelése március 31.

Khi-négyzet eloszlás. Statisztika II., 3. alkalom

A statisztikai vizsgálat tárgyát képező egyedek összességét statisztikai sokaságnak nevezzük.

A valószínűségszámítás elemei

Két diszkrét változó függetlenségének vizsgálata, illeszkedésvizsgálat

A bergengóc lakosság szemszín szerinti megoszlása a négy tartományban azonos:

Least Squares becslés

Kettőnél több csoport vizsgálata. Makara B. Gábor

A modellben az X és Y változó szerepe nem egyenrangú: Y (x n )

FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI

Adatbázisok* tulajdonságai

Átírás:

Adatelemzés és adatbányászat MSc 1. téma IR és adatelemzési alapok

Információ szintjei Kell-e targonca? Mennyi targonca kell? Mennyi kezelők kellenek? Mit szállítsanak ma? Mikorra vigyék át? Hova kell menni most?? Mit kell vinni? Merre kell menni? Hogyan kell beindítani? Hogyan kell fékezni?

Vállalati irányítási szint modulok

VIR információ szintjei Információ áramlások funkció nézetben részletezettség stratégia szint taktikai szint operatív szint vertikális technológiai szint horizontális absztrakciós szint

Vállalati információs rendszer (VIR) VIR: Olyan információs (informatikai) rendszer, melynek célja, a vállalati információkezelés hatékonyságjavítása, az információk integrált kezelése. A VIR előnyei: információ gyors elérése információ pontossága piaci versenyhelyzet javítása termelékenység növelése ügyvitel javítása technológia fejlesztése hatékonyabb kapcsolat a partnerekkel hatékonyabb döntéshozatal, tervezés

Információs rendszerek típusai Hagyományos adatforrások (legacy system) Virt. vállalati Virtual coop. Információs Döntési Informational (Decisional) Műveleti (Operational) SOAP XML WEB XML DW DSS OLAP OLTP Report Workflow e-comm Java DM

OLTP jellemzői adatmódosítás aktuális állapot nagy konkurencia konzisztencia rövid tranzakciók homogenitás normalizált relációs és OO SQL felület ACID elvek adatvesztés elleni védelem

OLAP jellemzői adatlekérdezés korábbi állapotok kis konkurencia betöltés hosszú tranzakciók heterogenitás adatkocka modulokból áll nincs szabvány nem normalizált adatvesztés elleni védelem

DSS, OLAP rendszerek szerepe döntés támogatás, DDS adat megjelenítés szabályfeltárás, data mining OLAP, elemzés, data exlporation DW, adattárház OLTP, nyilvántartó DB Információ feldolgozási szintek

OLAP rendszerek célja DM Review's felmérése: A BI rendszerek alkalmazásának főbb céljai : Vevői megelégedettség növelése 6% Költség csökkentés 53% Forgalom növekedés - 48% Nyereség növelés - 41% Piaci részesedés növelése - 37% Termék fejlesztési startégia kijelölése - 30%

OLAP/DW rendszerek piaca - évi 3 milliárd dolláros piac - több szereplős - főbb területek: ERP CRM Sales analysis planning - 85% sikeres projekt MicroStrategy, MS, Oracle - megbizhatóság - kb /3 részben kihasználtak - nem dominál a Web-OLAP - piaci részesedés: MS Oracle Essbase MicroStrategy OLAP elterjedtsége teljesítmény viszonyok

Adatelemzési eszközök DM+DW DATAWAREHOUSE DATAMART OLAP eszközök spec. elemzők (STATISTICA) Alap elemző eszközök DBMS SQL kiterjesztések táblázatkezelők SQL összetettség procedurális nyelv

Adatelemzés SQL-ben szórás SELECT SQRT(AVG(POWER(x.ar (SELECT AVG(y.ar) FROM auto_eladas),))) FROM auto_eladas; Gyakorisági tábla (évenként a Fiat autók relatív aránya) SELECT ev, SUM(CASE WHEN tipus= FIAT THEN 1 ELSE 0 END) / SUM(1) FROM auto_eladas GROUP BY ev;

Adatelemzés SQL-ben korreláció (a Fiat és Opel autók havi darabszámai között) SELECT CORR (dbf,dbo) FROM ( SELECT ev, SUM(CASE WHEN tipus= FIAT THEN 1 ELSE 0 END) / SUM(1) dbf, SUM(CASE WHEN tipus= OPEL THEN 1 ELSE 0 END) / SUM(1) dbo FROM auto_eladas GROUP BY ev ) WHERE dbf * dbo IS NOT NULL; differencia képzés Havi összforgalom változás SELECT T1.ho, T1.db T.db dbdiff FROM ( SELECT ho, SUM(ertek) db FROM auto_eladas GROUP BY ho ) T1 INNER JOIN ( SELECT ho, SUM(ertek) db FROM auto_eladas GROUP BY ho ) T ON (T1.ho = T.ho + 1 and T1.ev = T.ev) OR (T1.ho =1 and T.ho =1 and T1.ev = T.ev + 1)

Adatelemzés SQL-ben keresztreferencia tábla (autótípusok éves darabszámai) SELECT SUM (CASE WHEN ev = 006 THEN db ELSE 0 END) e06, SUM (CASE WHEN ev = 007 THEN db ELSE 0 END) e07, SUM (CASE WHEN ev = 008 THEN db ELSE 0 END) e08, SUM (CASE WHEN ev = 009 THEN db ELSE 0 END) e09, --- FROM auto_eladas GROUP BY tipus differencia maximuma Legnagyobb havi összforgalom változás SELECT MAX(dbdiff) FROM (SELECT T1.ho, T1.db T.db dbdiff FROM ( SELECT ho, SUM(ertek) db FROM auto_eladas GROUP BY ho ) T1 INNER JOIN ( SELECT ho, SUM(ertek) db FROM auto_eladas GROUP BY ho ) T ON (T1.ho = T.ho + 1 and T1.ev = T.ev) OR (T1.ho =1 and T.ho =1 and T1.ev = T.ev + 1))

Adatelemzési módszerek Regresszió Feladat: adott mérési pontra legjobban illeszkedő görbe megkeresése Adottak: mérési pontok, függvényosztály (paraméteresen) Feladat: a mérési pontokra legjobban illeszkedő paraméterek meghatározása Optimalizálási feladat: Célfüggvény: illeszkedési hiba: eltérések négyzetösszege Optimalizálási módszerek: Derivált zérushelye Gradiens módszer Sztohasztikus keresés {( x { f i ( p E( p, y i i ) i )}, x)} = i ( f ( p i, x i ) y i )

Adatelemzési módszerek Lineáris regresszió többváltozós lineáris regresszió: a mérési pontokat legjobban közelítő függvény meghatározása egy függő változó feltételes várható érték becslésére szolgál E(y x 1 x..) = F(x 1,x,.., α 1, α,..) y = F(x 1,x,.., α 1, α,..) + ε lineáris regresszió : a paraméterekben lineáris az F függvény y = α 1 x 1 + α x + α 3 + ε y = α 1 x 1 + α x + α 3 + α 4 x 1 + α 5 x + ε a feltétel szerint ε egy 0 várható értékű, azonos paraméterű normál eloszlású

Adatelemzési módszerek Lineáris regresszió a paraméterek várható értékének meghatározása a legkisebb négyzetek elvével történik elemi esetre: y i = α 1 x i1 + α x i + α 3 + ε i ε i = y i - (a 1 x i1 + a x i + a 3 ) E(ε i ) = 0 Σ ε i minimális a szélsőérték szükséges feltétele a deriváltak zérus értéke a1 Σ i (y i - (a 1 x i1 + a x i + a 3 )) = 0 a Σ i (y i - (a 1 x i1 + a x i + a 3 )) = 0 a3 Σ i (y i - (a 1 x i1 + a x i + a 3 )) = 0

Adatelemzési módszerek egy változós esetre: Lineáris regresszió a1 Σ i (y i - (a 1 x i + a )) = 0 a Σ i (y i - (a 1 x i + a )) = 0 a1 Σ i (y i + a 1 x i + a + a 1 a x i y i a 1 x i - y i a ) = 0 a1 Σ i (a 1 x i + a 1 a x i y i a 1 x i + a - y i a + y i ) = 0 a Σ i (a + a 1 a x i y i a + a 1 x i - y i a 1 x i + y i ) = 0 a 1 Σ i x i + a Σ i x i Σ i y i x i = 0 a n + a 1 Σ i x i Σ i y i = 0 a 1 = ( n Σ i x i y i - Σ i x i Σ i y i ) / (n Σ i x i - Σ i x i Σ i x i ) a = ( Σ i y i a 1 Σ i x i ) / n

Adatelemzési módszerek Lineáris regresszió Minta {(.,4.),(4.,6.), (6.,4.5)} és f(a,b,x) = ax+b Excel megvalósítás: - elemi lépésekben - regressziós görbével

Adatelemzési módszerek Minta generálása adott eloszlás függvényhez sűrűség fv. eloszlás fv. érték

Centrális határeloszlás tétele: Nagy n-re a mért empirikus átlagok normális eloszlást mutatnak A x = (a a )/ σ változó N(0,1) normál eloszlású lesz Adatelemzési módszerek Normál eloszlás A N(0,1) eloszlás esetén az x >.8 pontok lehetetlen eseményeknek tekintetők várható érték szórásnégyzet

Adatelemzési módszerek Zajok szűrése Zajok kiszűrésének módszere: az elosztást N(0,1)-re hozva a.5-nél nagyobb abszolút értékek zajoknak tekinthetők Példa: 46, 48, 38, 45, 47, 58, 44, 45, 43, 44 46 0, 458 0,04 5,73333 0,03946 48, 45,8 4,84 5,07803 0,433685 38-7,8 60,84-1,53761 45-0,8 0,64-0,1577 47 1, 1,44 0,36556 58 1, 148,84,40498 44-1,8 3,4-0,35483 45-0,8 0,64-0,1577 43 -,8 7,84-0,55196 44-1,8 3,4-0,35483 a a-a a (a-a ) σ x

Adatelemzési módszerek Véletlenszerűség ellenőrzése Wald-Wolfowitz teszt: figyeli a sorozatok (runs) eloszlását (ne legyen se túl kevés, se túl sok sorozat) Induló adatsor: mérési értékek Lépések: - a átlag kiszámítása - sig(a-a ) val helyettesítjük a-kat - n +, n - (elemek db), R (sorozatok száma) meghatározása - a =1 + n + n - /(n + + n - ) - σ = (a -1)(a -)/(n + +n - -1). - z = (R-a ) / σ - ha z > z 0 akkor nem véletlen a sorozat (~.5)

Adatelemzési módszerek Véletlenszerűség ellenőrzése Példa: 3, 5, 1, 7, 9, 8, 1, 17, 87,, 18, 4 Excel megvalósítás: - elemi lépésekben - regressziós görbével

Adatelemzések statisztikai háttere A statisztikusok is ideális világból indulnak ki. Null-hipotézis elve: a mérési eltérés csak a véletlen műve A vizsgálat tárgya: - milyen paraméterű az ideális eloszlás? - mennyire teljesül a null-hipotézis? A mérési adatokon próbákat lehet végrehajtani a hipotézis ellenőrzésére, a hipotézis konfidencia szintjének megállapítására Az elemzés megadja, hogy milyen konfidencia értékkel fog a paraméter egy megadott konfidencia intervallumba esni.

Adatelemzések statisztikai háttere Hipotézis vizsgálat, T-eloszlás Feltétel: legyenek X i független normál eloszlású változók, (µ,σ) paraméterekkel. Ekkor a minta átlaga (n: mintaszám): minta szórásnégyzete: Ekkor normál(0,1) eloszlású: S X µ σ n Illetve Chi-négyzet eloszlású: ( n 1) S σ X i X = n ( X i X ) = n 1 Emiatt T Student eloszlású lesz: X µ S n

Adatelemzések statisztikai háttere Hipotézis vizsgálat, T-teszt Egyváltozós eset. - null hipotézis: az eloszlás várható értéke: µ - feladat: a tapasztalati eloszlás illeszkedik-e? - vizsgált eloszlás: t = X µ S - függetlenségi tényező: n 1 n

Kétváltozós eset. Adatelemzések statisztikai háttere Hipotézis vizsgálat, T-teszt A feladat adott kontroll és mérési eloszlás mellett eldönteni, hogy a mérési eloszlás mennyire illeszkedik a kontrollra t = ( n 1 1) S n 1 1 X 1 X + ( n 1) S + n n1 + n n n 1 Függetlenségi tényező: n1 + n

Adatelemzések statisztikai háttere Hipotézis vizsgálat, T-teszt T-tábla használata: - az oszlop jelöli a konfidenciát - a sor jelöli a függetlenségi értéket - a cella adja meg az előírt maximum t értékek (ha a tábla érték nagyobb mint a számított, akkor megtartjuk a hipotézist) FD 0.1 0.05 0.01 -------------------------------------------- 5.0.57 4.03 6 1.94.45 3.71 7 1.89.37 3.50 9 1.83.6.68 0 1.7.09.85 30 1.70.04.75 5% a kockázat, hogy úgy vetjük el a hipotézist, hogy mégis igaz

Adatelemzések statisztikai háttere Hipotézis vizsgálat, T-teszt Adott az alábbi adatsor: 483, 50, 498, 496, 50, 483, 494, 491, 505, 486. Kérdés: tekintető-e 5%-os kockázat mellett a eloszlás m=500 várható értékűnek? t = X µ S n X=494, S = 8.05, µ=500, n=10, df=9 t=.36, tablazat:.6 megoldás: nem fogadható el a hipotézis

Adatelemzések statisztikai háttere Hipotézis vizsgálat, T-teszt Adott az alábbi adatsor, két eltérő helyen élő egyedhalmaz súlyértékei: X1: 5; 57; 6; 55; 64; 57; 56; 55 X: 41; 34; 33; 36; 40; 5; 31; 37; 34; 30; 38. Kérdés: tekintető-e azonosnak a két eloszlás 5%-os kockázat mellett? t = ( n 1 1) S n 1 1 X 1 X + ( n 1) S + n n1 + n n n 1 X1=57.5, X=34.45 n1=8, n=11 S1 =15.36, S =1.87 t=11.1, táblázat=.11 megoldás: nem fogadható el a hipotézis