Adatelemzés és adatbányászat MSc
|
|
- Anikó Patakiné
- 9 évvel ezelőtt
- Látták:
Átírás
1 Adatelemzés és adatbányászat MSc. téma Adatelemzés, statsztka elemek áttekntése Adatelemzés módszertana probléma felvetés módszer, adatok meghatározása nyers adatok adatforrás meghatározása adat tsztítás nyers adatok eredmény számítások végzése eredmények megjelenítése értékelés
2 Adatelemzés módszerek Elemzés célja: Az adatsor tartalmának olyan formában történő reprezentálása, amely megkönnyít a vzsgált problémakör szempontjából releváns részek felsmerését Módszerek: - lényeg kemelés (összesítő adatok) - formátum átalakítás (grafkus reprezentálás) Adatelemzés módszerek Adatelemzés nehézsége: Forrásadatok meghatározása és kemelése Adatok konzsztenca ellenőrzése Zajok kküszöbölése Módszerek használata Paraméterek meghatározása Nagy adatmennység kezelése, tömörítés Megfelelő reprezentácó kválasztása Eredmények valdálása A megfelelő elemzés megfelelően releváns és kellően nagy adatmennységen nyugszk
3 Adatelemzés módszerek Az elemzések rendszernt statsztka alapokon nyugszanak Módszeresség előnye: - döntéshez jogalapot ad - csökkent a bzonytalanságot Módszerek: - várható érték, szórás - eloszlások, sűrűség függvények - nterpolácók, extrapolácók - regresszó analízs A gyakorlatban több modellt s k kell próbáln a probléma megoldásához A cél: jó döntés meghozatala bzonytalan nformácók mellett Adatelemzés módszerek Statsztka alapfogalmak smétlése Adott {a } mntahalmazra értelmezhető: - emprkus átlag : = Σ a /n, - medán : - módusz : - várható érték : a - szórásnégyzet : σ = (Σ (a a ) )/ (n - ) Sokszor több populácó együttesével (mxture) kell dolgozn 3
4 Adatelemzés módszerek A statsztka modellek alkalmazásának előfeltétele: - zajok kszűrése (outlers) - homogén populácók vzsgálata - véletlenszerűség ellenőrzése - normál eloszlásra alakítás várható érték szórásnégyzet Normál eloszlás Adatelemzés módszerek Valószínűség változókat vezethetünk be Centráls határeloszlás tétele: Nagy n-re a mért emprkus átlagok normáls eloszlást mutatnak A x = (a a )/ σ változó N(0,) normál eloszlású lesz A N(0,) eloszlás esetén az x >.8 pontok lehetetlen eseményeknek tekntetők 4
5 Adatelemzés módszerek Zajok szűrése Zajok kszűrésének módszere: az elosztást N(0,)-re hozva a.5-nél nagyobb abszolút értékek zajoknak teknthetők Példa: 46, 48, 38, 45, 47, 58, 44, 45, 43, ,, -7,8-0,8,, -,8-0,8 -,8 -, ,8 0,04 4,84 60,84 0,64,44 48,84 3,4 0,64 7,84 3,4 5, , , , ,5376-0,577 0,36556, , ,577-0,5596-0,35483 a a-a a (a-a ) σ x Adatelemzés módszerek Véletlenszerűség ellenőrzése Wald-Wolfowtz teszt: fgyel a sorozatok (runs) eloszlását (ne legyen se túl kevés, se túl sok sorozat) Induló adatsor: mérés értékek Lépések: - a átlag kszámítása - sg(a-a ) val helyettesítjük a-kat - n +, n - (elemek db), R (sorozatok száma) meghatározása - a = + n + n - /(n + + n - ) - σ = (a -)(a -)/(n + +n - -). - z = (R-a ) / σ - ha z > z 0 akkor nem véletlen a sorozat (~.5) 5
6 Adatelemzés módszerek Véletlenszerűség ellenőrzése Példa: 3, 5,, 7, 9, 8,, 7, 87,, 8, 4 Adatelemzés módszerek Regresszó Feladat: adott mérés pontra legjobban lleszkedő görbe megkeresése Adottak: mérés pontok, függvényosztály (paraméteresen) Feladat: a mérés pontokra legjobban lleszkedő paraméterek meghatározása Optmalzálás feladat: Célfüggvény: lleszkedés hba: eltérések négyzetösszege Optmalzálás módszerek: Dervált zérushelye Gradens módszer Sztohasztkus keresés {( x, y )} { f ( p, x)} E( p ) = ( f ( p, x ) y ) 6
7 Adatelemzés módszerek Lneárs regresszó többváltozós lneárs regresszó: a mérés pontokat legjobban közelítő függvény meghatározása egy függő változó feltételes várható érték becslésére szolgál E(y x x..) = F(x,x,.., α, α,..) y = F(x,x,.., α, α,..) + ε lneárs regresszó : a paraméterekben lneárs az F függvény y = α x + α x + α 3 + ε y = α x + α x + α 3 + α 4 x + α 5 x + ε a feltétel szernt ε egy 0 várható értékű, azonos paraméterű normál eloszlású Adatelemzés módszerek Lneárs regresszó a paraméterek várható értékének meghatározása a legksebb négyzetek elvével történk elem esetre: y = α + α + α 3 + ε ε = y - (a + a + a 3 ) E(ε ) = 0 Σ ε mnmáls a szélsőérték szükséges feltétele a derváltak zérus értéke a (y - (a + a + a 3 )) = 0 a (y - (a + a + a 3 )) = 0 a3 (y - (a + a + a 3 )) = 0 7
8 Adatelemzés módszerek egy változós esetre: Lneárs regresszó a (y - (a + a )) = 0 a (y - (a + a )) = 0 a (y + a + a + a a y a - y a ) = 0 a (a + a a y a + a - y a + y ) = 0 a (a + a a y a + a - y a + y ) = 0 a + a y = 0 a n + a y = 0 a = ( n y - y ) / (n - ) a = ( y a ) / n Adatelemzés módszerek Lneárs regresszó Mnta {(.,4.),(4.,6.), (6.,4.5)} és f(a,b,x) = ax+b 8
9 Statsztka próbák A statsztkusok s deáls vlágból ndulnak k. Null-hpotézs elve: a mérés eltérés csak a véletlen műve A vzsgálat tárgya: - mlyen paraméterű az deáls eloszlás? - mennyre teljesül a null-hpotézs? A mérés adatokon próbákat lehet végrehajtan a hpotézs ellenőrzésére, a hpotézs konfdenca szntjének megállapítására Az elemzés megadja, hogy mlyen konfdenca értékkel fog a paraméter egy megadott konfdenca ntervallumba esn. Adatelemzések statsztka háttere Hpotézs vzsgálat, T-eloszlás Feltétel: legyenek X független normál eloszlású változók, (µ,σ) paraméterekkel. Ekkor a mnta átlaga (n: mntaszám): X X = n mnta szórásnégyzete: ( X ) X S = n X µ Ekkor normál(0,) eloszlású: σ n ( n ) S Illetve Ch-négyzet eloszlású: Ematt T Student eloszlású lesz: σ X µ S n 9
10 Adatelemzések statsztka háttere Hpotézs vzsgálat, T-teszt Egyváltozós eset. - null hpotézs: az eloszlás várható értéke: µ - feladat: a tapasztalat eloszlás lleszkedk-e? - vzsgált eloszlás: t = X µ S - függetlenség tényező: n n Kétváltozós eset. Adatelemzések statsztka háttere Hpotézs vzsgálat, T-teszt A feladat adott kontroll és mérés eloszlás mellett eldönten, hogy a mérés eloszlás mennyre lleszkedk a kontrollra t = ( n ) S + ( n ) S n + n X X n + n n n Függetlenség tényező: n + n 0
11 Adatelemzések statsztka háttere Hpotézs vzsgálat, T-teszt T-tábla használata: - az oszlop jelöl a konfdencát - a sor jelöl a függetlenség értéket - a cella adja meg az előírt maxmum t értékek (ha a tábla érték nagyobb mnt a számított, akkor megtartjuk a hpotézst) FD % a kockázat, hogy úgy vetjük el a hpotézst, hogy mégs gaz Adatelemzések statsztka háttere Hpotézs vzsgálat, T-teszt Adott az alább adatsor: 483, 50, 498, 496, 50, 483, 494, 49, 505, 486. Kérdés: tekntető-e 5%-os kockázat mellett a eloszlás m=500 várható értékűnek? t = X µ S n X=494, S = 8.05, µ=500, n=0, df=9 t=.36, tablazat:.6 megoldás: nem fogadható el a hpotézs
12 Adatelemzések statsztka háttere Hpotézs vzsgálat, T-teszt Adott az alább adatsor, két eltérő helyen élő egyedhalmaz súlyértéke: X: 5; 57; 6; 55; 64; 57; 56; 55 X: 4; 34; 33; 36; 40; 5; 3; 37; 34; 30; 38. Kérdés: tekntető-e azonosnak a két eloszlás 5%-os kockázat mellett? t = ( n ) S + ( n ) S n + n X X n + n n n X=57.5, X=34.45 n=8, n= S =5.36, S =.87 t=., táblázat=. megoldás: nem fogadható el a hpotézs Adatelemzések SQL háttere ROLLUP tag: A részletező adatok mellett a magasabb szntű összegek megadásra kerülnek SELECT deptno, job, count(*), sum(sal) FROM emp GROUP BY ROLLUP(deptno,job); DEPTNO JOB COUNT(*) SUM(SAL) CLERK MANAGER PRESIDENT ANALYST CLERK MANAGER
13 Adatelemzések SQL háttere CUBE tag: A részletező adatok mellett az összes tetszőleges szntű összegek s megadásra kerülnek ELECT deptno, job, count(*), sum(sal) FROM emp GROUP BY CUBE(deptno,job); DEPTNO JOB COUNT(*) SUM(SAL) CLERK MANAGER PRESIDENT CLERK MANAGER CLERK MANAGER PRESIDENT Adatelemzések SQL háttere A számtásokat több segédopcó támogatja (CASE, al-select,..) SELECT COUNT(*) as numvalues, MAX(freqnull) as freqnull, MIN(mnval) as mnval, SUM(CASE WHEN state = mnval THEN freq ELSE 0 END) as nummnvals, MAX(maxval) as maxval, SUM(CASE WHEN state = maxval THEN freq ELSE 0 END) as nummaxvals, SUM(CASE WHEN freq = maxfreq THEN ELSE 0 END) as nummodes, FROM (SELECT state, COUNT(*) as freq FROM orders GROUP BY state) osum CROSS JOIN (SELECT MIN(freq) as mnfreq, MAX(freq) as maxfreq, MIN(state) as mnval, MAX(state) as maxval, SUM(CASE WHEN state IS NULL THEN freq ELSE 0 END) as freqnull FROM (SELECT state, COUNT(*) as freq FROM orders GROUP BY state) osum) summary 3
14 Adatok mportálása Excelbe Adatforrás megadása (ODBC) Adatok Külső adatok mportálása Adatbázs lekérdezés RDBMS grafkon ODBC DM ODBC drver Excel adatsor Bejelentkezes Adatok mportálása Excelbe QBE felulet vagy SQL 4
15 Adatok mportálása Excelbe Grafkon feleptese Dagram Excelben Parameterek Forrasadat - adattartomany - adatsor Dagram bealltasa cm tengely racsvonal jelmagyarazat felratok Mntak oszlop vonal korckk Dagram terulet formazas mntazat terulet szegely betutpus Tengely formazasa Racsok formazasa Adatsor formazasa Felratok formazasa Trendvonal felvetele 5
16 Dagram Excelben cc,5 ccy,5 Adatsor Lneárs (Adatsor) 0,5 0 fat opel skoda ccx Auto tpusok adata fat opel skoda darab atlag ar Statsztka próbák A hpotézs vzsgálat az smert normál eloszláshoz kapcsolódk Excel-ben a normsdst() függvény adja vssza az eloszlás értékét Konddenca = ABS(normsdst(z)-normsdst(-z)) 6
Adatelemzés és adatbányászat MSc
Adatelemzés és adatbányászat MSc 1. téma IR és adatelemzési alapok Információ szintjei Kell-e targonca? Mennyi targonca kell? Mennyi kezelők kellenek? Mit szállítsanak ma? Mikorra vigyék át? Hova kell
s n s x A m és az átlag Standard hiba A m becslése Információ tartalom Átlag Konfidencia intervallum Pont becslés Intervallum becslés
A m és az átlag Standard hba Mnta átlag 1 170 Az átlagok szntén ngadoznak a m körül. s x s n Az átlagok átlagos eltérése a m- től! 168 A m konfdenca ntervalluma. 3 166 4 173 x s x ~ 68% ~68% annak a valószínűsége,
Hipotézis vizsgálatok. Egy példa. Hipotézisek. A megfigyelt változó eloszlása Kérdés: Hatásos a lázcsillapító gyógyszer?
01.09.18. Hpotézs vzsgálatok Egy példa Kérdések (példa) Hogyan adhatunk választ? Kérdés: Hatásos a lázcsllapító gyógyszer? Hatásos-e a gyógyszer?? rodalomból kísérletekből Hpotézsek A megfgyelt változó
Táblázatok 4/5. C: t-próbát alkalmazunk és mivel a t-statisztika értéke 3, ezért mind a 10%-os, mind. elutasítjuk a nullhipotézist.
1. Az X valószínőség változó 1 várható értékő és 9 szórásnégyzető. Y tıle független várható értékkel és 1 szórásnégyzettel. a) Menny X + Y várható értéke? 13 1 b) Menny X -Y szórásnégyzete? 13 1 összesen
Statisztikai próbák. Ugyanazon problémára sokszor megvan mindkét eljárás.
Statsztka próbák Paraméteres. A populácó paraméteret becsüljük, ezekkel számolunk.. Az alapsokaság eloszlására van kkötés. Nem paraméteres Nncs lyen becslés Nncs kkötés Ugyanazon problémára sokszor megvan
Variancia-analízis (ANOVA) Mekkora a tévedés esélye? A tévedés esélye Miért nem csinálunk kétmintás t-próbákat?
Varanca-analízs (NOV Mért nem csnálunk kétmntás t-próbákat? B Van különbség a csoportok között? Nncs, az eltérés csak véletlen! Ez a nullhpotézs. és B nncs különbség Legyen, B és C 3 csoport! B és C nncs
Regresszió. Fő cél: jóslás Történhet:
Fő cél: jóslás Történhet: Regresszó 1 változó több változó segítségével Lépések: Létezk-e valamlyen kapcsolat a 2 változó között? Kapcsolat természetének leírása (mat. egy.) A regresszós egyenlet alapján
ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!
ORVOSI STATISZTIKA Az orvos statsztka helye Élettan Anatóma Kéma Lehet kérdés?? Statsztka! Az orvos döntéseket hoz! Mkor jó egy döntés? Mennyre helyes egy döntés? Mekkora a tévedés lehetősége? Példa: test
20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek!
SPEC 2009-2010. II. félév Statsztka II HÁZI dolgozat Név:... Neptun kód: 20 PONT Aláírás:... A megoldások csak szöveges válaszokkal teljes értékőek! 1. példa Egy üzemben tejport csomagolnak zacskókba,
Tanult nem paraméteres próbák, és hogy milyen probléma megoldására szolgálnak.
8. GYAKORLAT STATISZTIKAI PRÓBÁK ISMÉTLÉS: Tanult nem paraméteres próbák, és hogy mlyen probléma megoldására szolgálnak. Név Illeszkedésvzsgálat Χ próbával Illeszkedésvzsgálat grafkus úton Gauss papírral
Lineáris regresszió. Statisztika I., 4. alkalom
Lneárs regresszó Statsztka I., 4. alkalom Lneárs regresszó Ha két folytonos változó lneárs kapcsolatban van egymással, akkor az egyk segítségével elıre jelezhetjük a másk értékét. Szükségünk van a függı
4 2 lapultsági együttható =
Leíró statsztka Egy kísérlet végeztével általában tetemes mennységű adat szokott összegyűln. Állandó probléma, hogy mt s kezdjünk - lletve mt tudunk kezden az adatokkal. A statsztka ebben segít mnket.
VARIANCIAANALÍZIS (szóráselemzés, ANOVA)
VARIANCIAANAÍZIS (szóráselemzés, ANOVA) Varancaanalízs. Varancaanalízs (szóráselemzés, ANOVA) Adott: egy vagy több tetszőleges skálájú független változó és egy legalább ntervallum skálájú függő változó.
Statisztika - bevezetés Méréselmélet PE MIK MI_BSc VI_BSc 1
Statisztika - bevezetés 00.04.05. Méréselmélet PE MIK MI_BSc VI_BSc Bevezetés Véletlen jelenség fogalma jelenséget okok bizonyos rendszere hozza létre ha mindegyik figyelembe vehető egyértelmű leírás általában
Adatsorok jellegadó értékei
Adatsorok jellegadó értéke Varga Ágnes egyetem tanársegéd varga.ag14@gmal.com Terület és térnformatka kvanttatív elemzés módszerek BCE Geo Intézet Terület elemzés forgatókönyve vacsora hasonlat Terület
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 8 VIII. REGREssZIÓ 1. A REGREssZIÓs EGYENEs Két valószínűségi változó kapcsolatának leírására az eddigiek alapján vagy egy numerikus
ORVOSI STATISZTIKA. Az orvosi statisztika helye. Egyéb példák. Példa: test hőmérséklet. Lehet kérdés? Statisztika. Élettan Anatómia Kémia. Kérdések!
ORVOSI STATISZTIKA Az orvos statsztka helye Életta Aatóma Kéma Lehet kérdés?? Statsztka! Az orvos dötéseket hoz! Mkor jó egy dötés? Meyre helyes egy dötés? Mekkora a tévedés lehetősége? Példa: test hőmérséklet
MATEMATIKAI STATISZTIKA KISFELADAT. Feladatlap
Közlekedésmérnök Kar Jármőtervezés és vzsgálat alapja I. Feladatlap NÉV:..tk.:. Feladat sorsz.:.. Feladat: Egy jármő futómő alkatrész terhelésvzsgálatakor felvett, az alkatrészre ható terhelı erı csúcsértékek
A sokaság/minta eloszlásának jellemzése
3. előadás A sokaság/mnta eloszlásának jellemzése tpkus értékek meghatározása; az adatok különbözőségének vzsgálata, a sokaság/mnta eloszlásgörbéjének elemzése. Eloszlásjellemzők Középértékek helyzet (Me,
Gazdaságtudományi Kar. Gazdaságelméleti és Módszertani Intézet. Korreláció-számítás. 1. előadás. Döntéselőkészítés módszertana. Dr.
Korrelácó-számítás 1. előadás Döntéselőkészítés módszertana Dr. Varga Beatr Két változó között kapcsolat Függetlenség: Az X smérv szernt hovatartozás smerete nem ad semmlen többletnformácót az Y szernt
Gyakorló feladatok a Kísérletek tervezése és értékelése c. tárgyból Lineáris regresszió, ismétlés nélküli mérések
Gakorló feladatok a Kísérletek tervezése és értékelése c. tárgból Lneárs regresszó, smétlés nélkül mérések 1. példa Az alább táblázat eg kalbrácós egenes felvételekor mért adatokat tartalmazza: x 1.8 3
Nagy számok törvényei Statisztikai mintavétel Várható érték becslése. Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem
agy számok törvényei Statisztikai mintavétel Várható érték becslése Dr. Berta Miklós Fizika és Kémia Tanszék Széchenyi István Egyetem A mérés mint statisztikai mintavétel A méréssel az eloszlásfüggvénnyel
Minősítéses mérőrendszerek képességvizsgálata
Mnősítéses mérőrendszerek képességvzsgálata Vágó Emese, Dr. Kemény Sándor Budapest Műszak és Gazdaságtudomány Egyetem Kéma és Környezet Folyamatmérnök Tanszék Az előadás vázlata 1. Mnősítéses mérőrendszerek
Az entrópia statisztikus értelmezése
Az entrópa statsztkus értelmezése A tapasztalat azt mutatja hogy annak ellenére hogy egy gáz molekulá egyed mozgást végeznek vselkedésükben mégs szabályszerűségek vannak. Statsztka jellegű vselkedés szabályok
Statisztika feladatok
Statsztka ok Informatka Tudományok Doktor Iskola Bzonyítandó, hogy: azaz 1 Tekntsük az alább statsztkákat: Igazoljuk, hogy torzítatlan statsztkák! Melyk a leghatásosabb közöttük? (Ez az együttes eloszlásfüggvényük.)
A multikritériumos elemzés célja, alkalmazási területe, adat-transzformációs eljárások, az osztályozási eljárások lényege
A multkrtérumos elemzés célja, alkalmazás területe, adat-transzformácós eljárások, az osztályozás eljárások lényege Cél: tervváltozatok, objektumok értékelése (helyzetértékelés), döntéshozatal segítése
x, x R, x rögzített esetén esemény. : ( ) x Valószínűségi Változó: Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel:
Feltételes valószínűség: Teljes valószínűség Tétele: Bayes Tétel: Valószínűségi változó általános fogalma: A : R leképezést valószínűségi változónak nevezzük, ha : ( ) x, x R, x rögzített esetén esemény.
e (t µ) 2 f (t) = 1 F (t) = 1 Normális eloszlás negyedik centrális momentuma:
Normális eloszlás ξ valószínűségi változó normális eloszlású. ξ N ( µ, σ 2) Paraméterei: µ: várható érték, σ 2 : szórásnégyzet (µ tetszőleges, σ 2 tetszőleges pozitív valós szám) Normális eloszlás sűrűségfüggvénye:
Széchenyi István Egyetem. Informatika II. Számítási módszerek. 5. előadás. Függvények ábrázolása. Dr. Szörényi Miklós, Dr.
5. előadás Függvények ábrázolása Dr. Szörényi Miklós, Dr. Kallós Gábor 2013 2014 1 Tartalom Az elkészítés lépései, áttekintés Példa: egy ismert matematikai függvény és integráljának ábrázolása Technikai
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 4 IV. MINTA, ALAPsTATIsZTIKÁK 1. MATEMATIKAI statisztika A matematikai statisztika alapfeladatát nagy általánosságban a következőképpen
Intelligens elosztott rendszerek
Intellgens elosztott rendszerek VIMIAC2 Adatelőkészítés: hhetőségvzsgálat normálás stb. Patak Béla BME I.E. 414, 463-26-79 atak@mt.bme.hu, htt://www.mt.bme.hu/general/staff/atak Valamlyen dőben állandó,
Kutatásmódszertan és prezentációkészítés
Kutatásmódszertan és prezentációkészítés 10. rész: Az adatelemzés alapjai Szerző: Kmetty Zoltán Lektor: Fokasz Nikosz Tizedik rész Az adatelemzés alapjai Tartalomjegyzék Bevezetés Leíró statisztikák I
Biometria az orvosi gyakorlatban. Korrelációszámítás, regresszió
SZDT-08 p. 1/31 Biometria az orvosi gyakorlatban Korrelációszámítás, regresszió Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Korrelációszámítás
OLS regresszió - ismétlés Mikroökonometria, 1. hét Bíró Anikó A tantárgy tartalma
OLS regresszó - smétlés Mroöonometra,. hét Bíró Anó A tantárg tartalma Leggaorbb mroöonometra problémá és azo ezeléséne megsmerése Egén vag vállalat adato Keresztmetszet és panel elemzés Vállalat, pacelemzés
Mintavétel fogalmai STATISZTIKA, BIOMETRIA. Mintavételi hiba. Statisztikai adatgyűjtés. Nem véletlenen alapuló kiválasztás
STATISZTIKA, BIOMETRIA. Előadás Mintavétel, mintavételi technikák, adatbázis Mintavétel fogalmai A mintavételt meg kell tervezni A sokaság elemei: X, X X N, lehet véges és végtelen Mintaelemek: x, x x
Véletlen jelenség: okok rendszere hozza létre - nem ismerhetjük mind, ezért sztochasztikus.
Valószín ségelméleti és matematikai statisztikai alapfogalmak összefoglalása (Kemény Sándor - Deák András: Mérések tervezése és eredményeik értékelése, kivonat) Véletlen jelenség: okok rendszere hozza
Alap-ötlet: Karl Friedrich Gauss ( ) valószínűségszámítási háttér: Andrej Markov ( )
Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel: 463-6-80 Fa: 463-30-9 http://www.vizgep.bme.hu Alap-ötlet:
Varianciaanalízis. Egytényezős kísérletek (Más néven: egyutas osztályozás, egyszempontos varianciaanalízis ANOVA)
Varancaanalízs A varancaanalízs során kettőnél több sokaság középértékenek mnta alapán történő összehasonlítása történk zért nevezk a kétmntás t-próba általánosításának A nullhpotézs eldöntéséhez használuk
y ij = µ + α i + e ij
Elmélet STATISZTIKA 3. Előadás Variancia-analízis Lineáris modellek A magyarázat a függő változó teljes heterogenitásának két részre bontását jelenti. A teljes heterogenitás egyik része az, amelynek okai
Kabos: Statisztika II. t-próba 9.1. Ha ismert a doboz szórása de nem ismerjük a
Kabos: Statisztika II. t-próba 9.1 Egymintás z-próba Ha ismert a doboz szórása de nem ismerjük a doboz várhatóértékét, akkor a H 0 : a doboz várhatóértéke = egy rögzített érték hipotézisről úgy döntünk,
TÉRBELI STATISZTIKAI VIZSGÁLATOK, ÁTLAGOS JELLEMZŐK ÉS TENDENCIÁK MAGYARORSZÁGON. Bihari Zita, OMSZ Éghajlati Elemző Osztály OMSZ
TÉRBELI STATISZTIKAI VIZSGÁLATOK, ÁTLAGOS JELLEMZŐK ÉS TENDENCIÁK MAGYARORSZÁGON Bhar Zta, OMSZ Éghajlat Elemző Osztály OMSZ Áttekntés Térbel vzsgálatok Alkalmazott módszer: MISH Eredmények Tervek A módszer
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék Kísérlettervezés Cél: a modell paraméterezése a valóság alapján
ADATREDUKCIÓ I. Középértékek
ADATREDUKCIÓ I. Középértékek Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték
Nemparaméteres eljárások
Nemparaméteres eljárások Bevezetés Az ntervallum vagy a hányados skálán végzett méréseknél az adatokból számolhatunk átlagot, szórásnégyzetet, szórást Fontos módszerek alapulnak ezeknek a származtatott
ADATREDUKCIÓ I. Középértékek
ADATREDUKCIÓ I. Középértékek Adatredukcó 1. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz mn középérték
Kísérlettervezési alapfogalmak:
Kísérlettervezés alapfogalmak: Tényező, faktor (factor) független változó, ható tényező (kezelés, gyógyszer, takarmány, genotípus, élőhely, stb.) amnek hatását a kísérletben vzsgáln vagy összehasonlítan
y ij = µ + α i + e ij STATISZTIKA Sir Ronald Aylmer Fisher Példa Elmélet A variancia-analízis alkalmazásának feltételei Lineáris modell
Példa STATISZTIKA Egy gazdálkodó k kukorica hibrid termesztése között választhat. Jelöljük a fajtákat A, B, C, D-vel. Döntsük el, hogy a hibridek termesztése esetén azonos terméseredményre számíthatunk-e.
Statisztika elméleti összefoglaló
1 Statisztika elméleti összefoglaló Tel.: 0/453-91-78 1. Tartalomjegyzék 1. Tartalomjegyzék.... Becsléselmélet... 3 3. Intervallumbecslések... 5 4. Hipotézisvizsgálat... 8 5. Regresszió-számítás... 11
Digitális Domborzat Modellek (DTM)
Dgtáls Domborzat Modellek (DTM) DTM fogalma A földfelszín számítógéppel kezelhető topográfa modellje Cél: tetszőleges pontban magasság érték nterpolálása a rendelkezésre álló támpontok alapján Interpolácós
Adatok statisztikai értékelésének főbb lehetőségei
Adatok statisztikai értékelésének főbb lehetőségei 1. a. Egy- vagy kétváltozós eset b. Többváltozós eset 2. a. Becslési problémák, hipotézis vizsgálat b. Mintázatelemzés 3. Szint: a. Egyedi b. Populáció
A mérési eredmény megadása
A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk meg: a determinisztikus és a véletlenszerű
biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás
Kísérlettervezés - biometria II. foglalkozás előadó: Prof. Dr. Rajkó Róbert Matematikai-statisztikai adatfeldolgozás A matematikai-statisztika feladata tapasztalati adatok feldolgozásával segítséget nyújtani
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 3 III. VÉLETLEN VEKTOROK 1. A KÉTDIMENZIÓs VÉLETLEN VEKTOR Definíció: Az leképezést (kétdimenziós) véletlen vektornak nevezzük, ha Definíció:
Anyagvizsgálati módszerek Mérési adatok feldolgozása. Anyagvizsgálati módszerek
Anyagvizsgálati módszerek Mérési adatok feldolgozása Anyagvizsgálati módszerek Pannon Egyetem Mérnöki Kar Anyagvizsgálati módszerek Statisztika 1/ 22 Mérési eredmények felhasználása Tulajdonságok hierarchikus
Hipotézis STATISZTIKA. Kétmintás hipotézisek. Munkahipotézis (H a ) Tematika. Tudományos hipotézis. 1. Előadás. Hipotézisvizsgálatok
STATISZTIKA 1. Előadás Hipotézisvizsgálatok Tematika 1. Hipotézis vizsgálatok 2. t-próbák 3. Variancia-analízis 4. A variancia-analízis validálása, erőfüggvény 5. Korreláció számítás 6. Kétváltozós lineáris
STATISZTIKA. Egymintás u-próba. H 0 : Kefir zsírtartalma 3% Próbafüggvény, alfa=0,05. Egymintás u-próba vagy z-próba
Egymintás u-próba STATISZTIKA 2. Előadás Középérték-összehasonlító tesztek Tesztelhetjük, hogy a valószínűségi változónk értéke megegyezik-e egy konkrét értékkel. Megválaszthatjuk a konfidencia intervallum
1. Adatok kiértékelése. 2. A feltételek megvizsgálása. 3. A hipotézis megfogalmazása
HIPOTÉZIS VIZSGÁLAT A hipotézis feltételezés egy vagy több populációról. (pl. egy gyógyszer az esetek 90%-ában hatásos; egy kezelés jelentősen megnöveli a rákos betegek túlélését). A hipotézis vizsgálat
ADATBÁZISOK I. Az esetleges hibákat kérlek a csongor@csongorbokay.com címen jelezd! Utolsó módosítás: 2013. március 20.
ADATBÁZISOK I. Szerkesztette: Bókay Csongor Az esetleges hibákat kérlek a csongor@csongorbokay.com címen jelezd! Utolsó módosítás: 2013. március 20. Ez a Mű a Creative Commons Nevezd meg! - Ne add el!
Bevezetés a biometriába Dr. Dinya Elek egyetemi tanár. PhD kurzus. KOKI,
Bevezetés a bometrába Dr. Dnya Elek egyetem tanár PhD kurzus. KOKI, 205.0.08. ADATREDUKCIÓ I. Középértékek Adatredukcó. M a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények:
Kísérlettervezés alapfogalmak
Kísérlettervezés alapfogalmak Rendszermodellezés Budapest University of Technology and Economics Fault Tolerant Systems Research Group Budapest University of Technology and Economics Department of Measurement
ALAKOS KÖRKÉS PONTOSSÁGI VIZSGÁLATA EXCEL ALAPÚ SZOFTVERREL OKTATÁSI SEGÉDLET. Összeállította: Dr. Szabó Sándor
MISKOLCI EGYETEM Gépgyártástechnológa Tanszék Mskolc - Egyetemváros ALAKOS KÖRKÉS PONTOSSÁGI VIZSGÁLATA EXCEL ALAPÚ SZOFTVERREL OKTATÁSI SEGÉDLET Összeállította: Dr. Szabó Sándor A orgácsoló megmunkálásokhoz
Microsoft Excel 2010. Gyakoriság
Microsoft Excel 2010 Gyakoriság Osztályközös gyakorisági tábla Nagy számú mérési adatokat csoportokba (osztályokba) rendezése -> könnyebb áttekintés Osztályokban szereplő adatok száma: osztályokhoz tartozó
Hipotézis vizsgálatok
Hipotézis vizsgálatok Hipotézisvizsgálat Hipotézis: az alapsokaság paramétereire vagy az alapsokaság eloszlására vonatkozó feltevés. Hipotézis ellenőrzés: az a statisztikai módszer, amelynek segítségével
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI
FEGYVERNEKI SÁNDOR, Valószínűség-sZÁMÍTÁs És MATEMATIKAI statisztika 9 IX. ROBUsZTUs statisztika 1. ROBUsZTUssÁG Az eddig kidolgozott módszerek főleg olyanok voltak, amelyek valamilyen értelemben optimálisak,
Kiválasztás. A változó szerint. Rangok. Nem-paraméteres eljárások. Rang: Egy valamilyen szabály szerint felállított sorban elfoglalt hely.
Kiválasztás A változó szerint Egymintás t-próba Mann-Whitney U-test paraméteres nem-paraméteres Varianciaanalízis De melyiket válasszam? Kétmintás t-próba Fontos, hogy mindig a kérdésnek és a változónak
Számítógépes döntéstámogatás. Statisztikai elemzés
SZDT-03 p. 1/22 Számítógépes döntéstámogatás Statisztikai elemzés Werner Ágnes Villamosmérnöki és Információs Rendszerek Tanszék e-mail: werner.agnes@virt.uni-pannon.hu Előadás SZDT-03 p. 2/22 Rendelkezésre
MÉRÉSI EREDMÉNYEK PONTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI
MÉRÉSI EREDMÉYEK POTOSSÁGA, A HIBASZÁMÍTÁS ELEMEI. A mérési eredmény megadása A mérés során kapott értékek eltérnek a mérendő fizikai mennyiség valódi értékétől. Alapvetően kétféle mérési hibát különböztetünk
Matematikai geodéziai számítások 6.
Matematikai geodéziai számítások 6. Lineáris regresszió számítás elektronikus távmérőkre Dr. Bácsatyai, László Matematikai geodéziai számítások 6.: Lineáris regresszió számítás elektronikus távmérőkre
Biomatematika 12. Szent István Egyetem Állatorvos-tudományi Kar. Fodor János
Szent István Egyetem Állatorvos-tudományi Kar Biomatematikai és Számítástechnikai Tanszék Biomatematika 12. Regresszió- és korrelációanaĺızis Fodor János Copyright c Fodor.Janos@aotk.szie.hu Last Revision
Bevezetés a hipotézisvizsgálatokba
Bevezetés a hipotézisvizsgálatokba Nullhipotézis: pl. az átlag egy adott µ becslése : M ( x -µ ) = 0 Alternatív hipotézis: : M ( x -µ ) 0 Szignifikancia: - teljes bizonyosság csak teljes enumerációra -
Adatbázis használat I. 2. gyakorlat
Adatbázis használat I. 2. gyakorlat Tudnivalók Oracle 10g a weben: http://www.oracle.com/technetwork/databa se/database10g/downloads/index.html FF kiírásokat legkésőbb a jövő hétre hozni! 2011. 02. 15.
Matematikai geodéziai számítások 6.
Nyugat-magyarországi Egyetem Geoinformatikai Kara Dr. Bácsatyai László Matematikai geodéziai számítások 6. MGS6 modul Lineáris regresszió számítás elektronikus távmérőkre SZÉKESFEHÉRVÁR 2010 Jelen szellemi
Cellák. Sorok számozás Oszlop betű Cellák jelölése C5
Táblázatkezelés Cellák Sorok számozás Oszlop betű Cellák jelölése C5 Típusok Szám Különleges számok: Tudományos: 1E2, 5E-3 Szöveg Dátum Logikai Tört: kettedes, negyedes, stb. A cella értéke nem változik
Hipotézisvizsgálat az Excel adatelemző eljárásaival. Dr. Nyéki Lajos 2018
Hipotézisvizsgálat az Excel adatelemző eljárásaival Dr. Nyéki Lajos 2018 Egymintás t-próba Az egymintás T-próba azt vizsgálja, hogy különbözik-e a változó M átlaga egy megadott m konstanstól. Az a feltételezés,
Statisztikai következtetések Nemlineáris regresszió Feladatok Vége
[GVMGS11MNC] Gazdaságstatisztika 10. előadás: 9. Regressziószámítás II. Kóczy Á. László koczy.laszlo@kgk.uni-obuda.hu Keleti Károly Gazdasági Kar Vállalkozásmenedzsment Intézet A standard lineáris modell
Biostatisztika VIII. Mátyus László. 19 October
Biostatisztika VIII Mátyus László 19 October 2010 1 Ha σ nem ismert A gyakorlatban ritkán ismerjük σ-t. Ha kiszámítjuk s-t a minta alapján, akkor becsülhetjük σ-t. Ez további bizonytalanságot okoz a becslésben.
Valószínűségszámítás összefoglaló
Statisztikai módszerek BMEGEVGAT Készítette: Halász Gábor Budapesti Műszaki és Gazdaságtudományi Egyetem Gépészmérnöki Kar Hidrodinamikai Rendszerek Tanszék, Budapest, Műegyetem rkp. 3. D ép. 334. Tel:
Több valószínűségi változó együttes eloszlása, korreláció
Tartalomjegzék Előszó... 6 I. Valószínűségelméleti és matematikai statisztikai alapok... 8 1. A szükséges valószínűségelméleti és matematikai statisztikai alapismeretek összefoglalása... 8 1.1. Alapfogalmak...
ELTE TáTK Közgazdaságtudományi Tanszék ÖKONOMETRIA. Készítette: Elek Péter, Bíró Anikó. Szakmai felelős: Elek Péter június
ÖKONOMETRIA ÖKONOMETRIA Készült a TÁMOP-4.1.-08//A/KMR-009-0041pályázat projekt keretében Tartalomfejlesztés az ELTE TátK Közgazdaságtudomány Tanszékén az ELTE Közgazdaságtudomány Tanszék, az MTA Közgazdaságtudomány
A maximum likelihood becslésről
A maximum likelihood becslésről Definíció Parametrikus becsléssel foglalkozunk. Adott egy modell, mellyel elképzeléseink szerint jól leírható a meghatározni kívánt rendszer. (A modell típusának és rendszámának
ADATBÁZISOK gyakorlat: SQL 2. rész SELECT
ADATBÁZISOK 9-10. gyakorlat: SQL 2. rész SELECT SELECT utasítás általános alakja SELECT [DISTINCT] oszloplista FROM táblanévlista [WHERE feltétel] [GROUP BY oszloplista [HAVING feltétel] ] [ORDER BY oszloplista];
STATISZTIKA III. Oktatási segédlet
MISKOLCI EGYETEM Gazdaságtudomány Kar Üzlet Informácógazdálkodás és Módszertan Intézet Üzlet Statsztka és Előrejelzés Tanszék STATISZTIKA III. Oktatás segédlet 003. MISKOLCI EGYETEM Gazdaságtudomány Kar
IDA ELŐADÁS I. Bolgár Bence október 17.
IDA ELŐADÁS I. Bolgár Bence 2014. október 17. I. Generatív és dszkrmnatív modellek Korábban megsmerkedtünk a felügyelt tanulással (supervsed learnng). Legyen adott a D = {, y } P =1 tanító halmaz, ahol
ALAPOK. 0 és 255 közé eső számértékek tárolására. Számértékek, például távolságok, pontszámok, darabszámok.
ADATBÁZIS-KEZELÉS ALAPOK Főbb Adattípusok: Igen/Nem Bájt Ez az adattípus logikai adatok tárolására alkalmas. A logikai adatok mindössze két értéket vehetnek fel. (Igen/Nem, Igaz/Hamis, Férfi/Nő, Fej/Írás
Táblázatkezelés (Excel)
Táblázatkezelés (Excel) Tartalom felépítés kezelés egyéb lehetőségek hasznos kiegészítések Készítette: Bori Tamás 2 Felépítés I.: A program felépítése hagyományos MS GUI: menü eszköztár szabjuk testre!
Statisztika I. 8. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 8. előadás Előadó: Dr. Ertsey Imre Minták alapján történő értékelések A statisztika foglalkozik. a tömegjelenségek vizsgálatával Bizonyos esetekben lehetetlen illetve célszerűtlen a teljes
A könyv tartalomjegyzéke
A könyv tartalomjegyzéke Elıszó Bevezetés Adatbázis-kezelı rendszerek Adatmodellezés Alapfogalmak Egyedhalmaz, egyed Kapcsolat, kapcsolat-elıfordulás, kapcsolat típusa Tulajdonság, tulajdonságérték, értékhalmaz
A valószínűségszámítás elemei
A valószínűségszámítás elemei Kísérletsorozatban az esemény relatív gyakorisága: k/n, ahol k az esemény bekövetkezésének abszolút gyakorisága, n a kísérletek száma. Pl. Jelenség: kockadobás Megfigyelés:
(Independence, dependence, random variables)
Két valószínűségi változó együttes vizsgálata Feltételes eloszlások Két diszkrét változó együttes eloszlása a lehetséges értékpárok és a hozzájuk tartozó valószínűségek (táblázat) Példa: Egy urna 3 fehér,
Least Squares becslés
Least Squares becslés A négyzetes hibafüggvény: i d i ( ) φx i A négyzetes hibafüggvény mellett a minimumot biztosító megoldás W=( d LS becslés A gradiens számítása és nullává tétele eredményeképp A megoldás
METROLÓGIA ÉS HIBASZÁMíTÁS
METROLÓGIA ÉS HIBASZÁMíTÁS Metrológa alapfogalmak A metrológa a mérések tudománya, a mérésekkel kapcsolatos smereteket fogja össze. Méréssel egy objektum valamlyen tulajdonságáról számszerű értéket kapunk.
Mérési adatok illesztése, korreláció, regresszió
Mérési adatok illesztése, korreláció, regresszió Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti mintában,
Statisztika I. 12. előadás. Előadó: Dr. Ertsey Imre
Statisztika I. 1. előadás Előadó: Dr. Ertsey Imre Regresszió analízis A korrelációs együttható megmutatja a kapcsolat irányát és szorosságát. A kapcsolat vizsgálata során a gyakorlatban ennél messzebb
Bevezetés. 1. előadás, 2015. február 11. Módszerek. Tematika
Bevezetés 1. előadás, 2015. február 11. Zempléni András Valószínűségelméleti és Statisztika Tanszék Természettudományi Kar Eötvös Loránd Tudományegyetem Áringadozások előadás Heti 2 óra előadás + 2 óra
Várható érték:... p Módusz:...
NEVEZETES ELOSZLÁSOK. Bernoull-eloszlás: B(, p p ha x = Súlyfüggvény:... P( X = x; p =...ahol: q=-p q ha x = 0 ha p q Várható érték:... p Módusz:... 0 ha p q Varanca:... pq Relatív szórás:... q p. ÁBRA.
Ötvözetek mágneses tulajdonságú fázisainak vizsgálata a hiperbolikus modell alkalmazásával
AGY 4, Kecskemét Ötvözetek mágneses tulajdonságú fázsanak vzsgálata a hperbolkus modell alkalmazásával Dr. Mészáros István egyetem docens Budapest Műszak és Gazdaságtudomány Egyetem Anyagtudomány és Technológa
Support Vector Machines
Support Vector Machnes Ormánd Róbert MA-SZE Mest. Int. Kutatócsoport 2009. február 17. Előadás vázlata Rövd bevezetés a gép tanulásba Bevezetés az SVM tanuló módszerbe Alapötlet Nem szeparálható eset Kernel
INFORMATIKA. PRÓBAÉRETTSÉGI 2004. május KÖZÉPSZINT. Pontozási és javítási útmutató
PRÓBAÉRETTSÉGI 2004. május INFORMATIKA KÖZÉPSZINT Pontozási és javítási útmutató A feladatok pontozását a mellékelt pontozási és javítási útmutatók alapján lehet elvégezni. A feladatokban szereplő részpontok
10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK
MATEMATIK A 9. évfolyam 10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK KÉSZÍTETTE: CSÁKVÁRI ÁGNES Matematika A 9. évfolyam. 10. modul: FÜGGVÉNYEK, FÜGGVÉNYTULAJDONSÁGOK Tanári útmutató 2 MODULLEÍRÁS A modul
Adatbázisok I. Az SQL nyelv
Adatbázisok I Az SQL nyelv SQL (Structured Query Language) Deklaratív nyelv, 1974-ben publikálták Halmaz orientált megközelítés, a relációs algebra műveleteinek megvalósítására Előzménye a SEQUEL (IBM)(Structured