Mérés adatok feldolgozása 202.03.0. Méréselmélet PE_MIK MI_BSc, VI_BSc
Bevezetés A mérés adatok külöböző formába, általába ömlesztve jeleek meg Ezeket az adatokat külöböző szempotok szert redez kértékel kell az elemzés érdekébe Cél azo statsztka alapműveletek bemutatása, melyek segítségével az adatok redezése, elsődleges feldolgozása elvégezhető Adatfeldolgozás/2
Bevezetés A mérés adatok elsődleges megjeleés formája: redezetle számhalmaz a regsztrálóról kapott dő szert részbe redezett eredméyek sokasága külöböző megfgyelésekek még dő szert sem redezett halmaza lajstrom egyed eleme az egyes adatok jele Adatfeldolgozás/3
Elem műveletek Számlálás legegyszerűbb művelet megfgyelések száma,,,, az de az adatsorszámára utal Ragsorba redezés övekvő vagy csökkeő érték szert redezés általába övekvő ragsorba redezett értékek szokásos jelölése: () legksebb elem m () legagyobb elem ma () pl. ötödk legagyobb elem (-4) Adatfeldolgozás/4
Elem műveletek mutá lajstrom általába em redezett, így () a ragsorolás egybe ragszám hozzáredelését s jelet ragszám: poztív egész szám, mely megadja a ragsorba redezett adat sorszámát: R k, ha (k) egyforma agyságú adatok eseté átlagrag törtérték s lehet rag kapcsolt rag kmaradó ragszámok Adatfeldolgozás/5
Elem műveletek Összegzés (szummázás) adatok értékeek összeadása Adatfeldolgozás/6
Középértékek alkalmazása Középértékek meghatározása cél azoos fajta adatok helyettesítése egy jellemző számértékkel követelméyek: közepes helyet foglaljaak el számszerű adatok halmazáak legyeek tpkus értéke köyű matematka meghatározhatóság értelmezhetőség robosztusság érzéketleség kugró adatokra Adatfeldolgozás/7
Középértékek alkalmazása középértékek számított átlag helyzet számta módusz harmokus medá mérta égyzetes Adatfeldolgozás/8
Számta középérték Defícó: tulajdosága ( + + + ) 2 K közepes értéket vesz fel m ma egyed értékekre égyzetes mmum ( ) 0 ( ) 2 m leárs traszformálhatóság ~ ~ a + b ~ a + b Adatfeldolgozás/9
Számta középérték súlyozott átlag ahol a w súlyok tetszőleges számértékek, és + + + w w w w 2 2 K Adatfeldolgozás/0 w w w
Számta középérték rekurzív átlag (futó átlag) r r ( 0 ) 0 ( k) ( k ) + [ ( k) ( k ) ] ( k ) + ( k) r k r k ahol k k számú adat alapjá vett átlag r ( ) (k) az k-adk mérés adat k r k k, 2,K K Adatfeldolgozás/
Számta középérték rekurzív átlag előye o le alkalmazás mde megfgyelés utá eredméy az átlag korrekcója adatok módosítása eseté: beszúrás törlés csere korr + + + ( + + ) + + korr korr ( ) Adatfeldolgozás/2 el be
Számta középérték Mozgó átlag az deáls és a rekurzív átlagba az egyes tagok egyforma súllyal szerepelek a súlyozott átlagba a súlyok em azoosak, de egy adott átlagolás sorá álladóak ha az adatok dőbe lassa változak, akkor az átlagolásba em célszerű mde tagot egy forma súllyal szerepeltet; célszerű a régebb tagokat egyre kevésbé fgyelembe ve Adatfeldolgozás/3
Számta középérték két megoldás a rég értékek elhagyása, az átlagképzést csak az utolsó meghatározott számú mérésre hajtjuk végre - ablakos átlagolás k k N + ( ) m k ( ) N ahol N az ablak -szélesség vagy ahol m ( ) w k ( k) ( ) w( k ) / N ha 0 < N 0 egyébkét Adatfeldolgozás/4
Számta középérték a rég értékek fokozatosa (epoecálsa) csökkeő súllyal szerepelek az átlagolásba, felejtő átlagolás m k k k τ τ ( k) ( ) w( k ) ( ) ahol ( ) w τ τ τ 0 τ az átlagolás felejtés dőálladója ha 0 egyébkét Adatfeldolgozás/5
Tovább számított középértékek tovább számított átlagok: harmokus h / mérta/geometra égyzetes K g q + K 2 + 2 Adatfeldolgozás/6
Számított középértékek Számított átlagértékek jellemző: közepesek em mdg tpkusak (lehet, hogy az adatok között em s szerepel olya értékű) érzékeyek a kugró értékekre hbás, lletve kmaradó adatok erőse befolyásolják az értéküket Adatfeldolgozás/7
Helyzet középértékek Módusz a legtöbbször előforduló érték elvleg jellemző az adott sokaságra tpkusság em egyértelmű em bztos, hogy létezk lehet, hogy több s va em érzékey a rtká előforduló kugró értékekre robusztus em feltétleül közepes Adatfeldolgozás/8
Helyzet középértékek Medá középső adat sorba redezés! páratla elemszámál Me ((+)/2) páros elemszámál Me ( (/2) + (/2+) )/2 közepes érték robusztus Adatfeldolgozás/9
Tovább adatjellemzők Kvatlsek osztópotok, amelyek a ragsorba redezett adatok 2, 3,, k-ad részét jellemzk q (k) j jelet a j-dk k-ad redű kvatlst ( j, 2,, k-), azaz azt a változó értéket, amelyél az összes előforduló érték j/k-ad része ksebb: () () q j (k) (+) () / j/k az osztópotokat a megfelelő érték kválasztásával vagy két szomszédos érték átlagolásával kapjuk meg Adatfeldolgozás/20
Tovább adatjellemzők fotosabb kvatlsek medá felező Me q (2) tercls harmadoló kvartls egyedelő Q j q j (4) kvtls ötödölő decls tzedelő D j q j (0) percetls századoló P j q j (00) kvatlsek száma mdg eggyel kevesebb, mt aháy részre osztja a sokaságot külöféle kvatlsek értéke azoos lehet Adatfeldolgozás/2
Tovább adatjellemzők Mometumok származtatott mutatószámok meghatározására alkalmasak r-ed redű mometum: r-ed redű cetráls mometum: m m r r ( ) ( ) c r r Adatfeldolgozás/22
Szóródás Tovább adatjellemzők Szóródás a külöböző középértékek jellemzk a sokaságot, de em adak formácót az adatok homogetásáról szóródás a sokaság egyedeek külöbözősége, mérés adatok tartomáya elemzés: a szóródás okaak és tedecáak kmutatása Adatfeldolgozás/23
Tovább adatjellemzők Szóródás szóródás jellemzése törtéhet külöböző mérőszámokkal: szóródás terjedeleme terkvartls terjedelem átlagos (abszolút) eltérés szórás Adatfeldolgozás/24
Tovább adatjellemzők Szóródás terjedelem a legagyobb és a legksebb adat közt külöbség T ma - m köye számítható a kugró szélsőértékek befolyásolják terkvartls terjedelem alsó és felső kvartls külöbsége: TQ Q 3 Q az értékek középső 50%-áak tervalluma Adatfeldolgozás/25
Tovább adatjellemzők Szóródás Átlagos abszolút eltérés cél a középértéktől való eltérés bemutatása a számta átlagtól való eltérések algebra összege ulla az átlagos abszolút eltérés: belátható, hogy eek értéke akkor lesz mmáls, ha a medához vszoyítjuk az eltéréseket: δ Me m Adatfeldolgozás/26
Szórás Elmélet szórás ahol σ ( ) 0 a keresett paraméter deáls értéke a mérések száma, de azaz az elmélet szórás meghatározásához elvleg smer kellee a meghatározadó értéket és ge agy számú mérést kellee végezük ez csak specáls esetbe lehetséges 0 2 Adatfeldolgozás/27
Szórás Varaca elmélet szóráségyzet 2 σ ( ) 0 2 eltérés-égyzetösszeg SS ( 0 ) 2 szórás határa 0 σ µ Adatfeldolgozás/28
Szórás Tapasztalat szórás s ( ) 2 ; Korrgált tapasztalat szórás s ahol a mérések átlaga 2 ( ) ; a mérések száma, de véges érték Adatfeldolgozás/29
Szórás a becslés egyszerűsített képlete: 2 2 2 2 s Adatfeldolgozás/30 gyakorlat/tapasztalat eltérés-égyzetösszeg ( ) SS 2 2 2
Szórás leárs traszformácó hatása az eltéréségyzetösszegre és a szórásra ~ a + b SS 2 ( a + b ( + )) a b b( ) ~ bss 2 σ a + b b σ ha a b σ σ akkor ~ 0 σ ~ stadardzált változó Adatfeldolgozás/3
Szórás relatív szórás (százalékos relatív szórás) s rel s 00 ahol a középérték középérték szórása s s ahol a mérések száma középérték relatív szórása s rel s 00 Adatfeldolgozás/32
Adatok megjeleítése Adatok megjeleítése adatbázsok, adattáblák, táblázatok felsorolás szempotok dősoros (sorok sorredje kötött) keresztmetszet (sorok sorredje tetszőleges) kombácók agy tömegű adatok redezése csoportosítás (osztályozás) összehasolítás Adatfeldolgozás/33
Adatok megjeleítése csoportosítás az adatokak egy vagy több szempot szert osztályozása szempotok: a vzsgálat szempotjából léyeges jellemzők egyértelmű besorolhatóság! több szempot: kombatív csoportosítás áttekthetőség Adatfeldolgozás/34
Adatok megjeleítése összehasolítás adatok egymás mellé redezése elemzés célból összehasolítható adatok: csak a vzsgálat szempotjából érdekes jellemzőkbe eltérő adatok összehasolítás törtéhet dőbel változás alapjá keresztmetszet elhelyezkedés alapjá összehasolítás művelete háyados-képzés (relatív) - dőbel külöbség-képzés (abszolút) - keresztmetszet Adatfeldolgozás/35
Adatok megjeleítése Vszoyszámok relatív összehasolítás számszerűsítése két egymással összefüggésbe lévő adat háyadosa V A B vszoyszám vzsgált adat / vszoyítás alap kfejezés formá együtthatós százalékos, ezrelékes képzett egység Adatfeldolgozás/36
Adatok megjeleítése legfotosabb fajtá: teztás külöböző, de egymással kapcsolatba álló adatok képzett mértékegység megoszlás részsokaság vszoya az egészhez, %, koordácós két részsokaság vszoya, %, damkus dőbel változás kfejezése Adatfeldolgozás/37
Adatok megjeleítése Adatok ábrázolása túl sok adat eseté ehéz az áttektés azoos értékek összeszámolása: egyszerű gyakorság sor vszoylag ks számú adat eseté jó közel hasoló értékek összevoása egy csoportba, majd a csoportok elemszámaak ábrázolása: osztályközös gyakorság sor vagy relatív gyakorság hsztogram Adatfeldolgozás/38
Adatok ábrázolása Relatív gyakorság hsztogram osztályok számáak meghatározása: általába 5 20 között, az adatok számáak és az adatok egyformaságáak függvéyébe k + 3,3lg túl kevés osztály összemossa a jellegzetességeket túl sok osztály üres osztály megjeleése, értelmezhetőség godok Adatfeldolgozás/39
Adatok ábrázolása osztályok szélessége a legagyobb és a legksebb adat közt külöbség osztva az osztályok tervezett számával, kerekítve egyforma szélesség ytott osztályok a legalsó és a legfelső osztály esetébe érdemes az adatok smeretébe megfotol, komoly torzítást okozhatak a rosszul megválasztott beosztás Adatfeldolgozás/40
Adatok ábrázolása határok rögzítése legksebb mérés eredméy fgyelembe vételével megállapítjuk az alsó határt a többt ebből következőe vesszük fel határra e eshesse adat! Adatfeldolgozás/4
Adatok ábrázolása Adatok ábrázolása bo-plot (bo ad whsker) módszerrel kugró érték mamáls érték felső kvartls (adatok 25%-a) 50%-os valószíűségű érték (tapasztalat medá) alsó kvartls (adatok 25%-a) mmáls érték Adatfeldolgozás/42
Adatok ábrázolása gyaús, kugró eredméyek kezelése: v-teszt: ahol a gyaús eredméy s elleőrzés szgfkaca táblázattal (ahol az összes mérés száma!): v s a több adatból számolt átlag a több adatból számolt szórás sz.h. 3 46,7 4 0, 5 6,5 6 5,3 Adatfeldolgozás/43
Idősoros tábla Év A számítástechka ágazatba működő társas vállalkozások száma és teljesítméye Vállalkozások száma (db) Nettó árbevétel (mft) Alkalmazásba állók (fő) 2000 6 307 262 459 20 90 200 7 76 364 660 24 055 2002 8 295 466 627 26 536 2003 9 462 498 390 28 482 2004 9 920 527 404 33 9 Adatfeldolgozás/44
Keresztmetszet tábla Megevezés Hardverszaktaácsadás Nemszerver szgép Szerver sz.szgép Kéz szgép Nemszerver gép Szerver agygép Összese 2 447 75 55 4 70 2 76 Szoftverkadás 5 277 526 24 44 96 6 67 Egyéb szoftverszaktaácsadás, - ellátás 27 933 2 52 23 2 770 32 639 Adatfeldolgozás 0 940 300 94 6 305 645 Adtabázstevékeység, ole kadás Irodagép-, számítógépjavítás Egyéb számítástechka tevékeység 2 035 202 5 67 2 420 2 960 233 98 35 0 3 336 20 475 783 285 29 327 2 899 Összese 72 067 4 73 980 344 745 80 867 Adatfeldolgozás/45
Iteztás vszoyszámok adatok db/000 fő-be és fő/000 fő-be kfejezve Ország Személy számítógép Iteret kapcsolattal redelkező gép Iteret felhaszáló Ausztra 374 7 462 Csehország 77 27 268 Legyelország 06 20 232 Magyarország 08 36 58 Oroszország 89 4 4 Romáa 83 2 9 Szlováka 80 2 256 Szlovéa 30 2 376 Ukraja 9 2 8 Adatfeldolgozás/46
Iteztás vszoyszámok adatok db/000 fő-be és fő/db-ba kfejezve Ország egyees fordított Ausztra 374 2,7 Csehország 77 5,6 Legyelország 06 9,4 Magyarország 08 9,3 Oroszország 89,2 Romáa 83 2,0 Szlováka 80 5,6 Szlovéa 30 3,3 Ukraja 9 52,6 Adatfeldolgozás/47
Vszoyszámok Év A számítástechka ágazatba működő társas vállalkozások száma és damkus vszoyszáma Vállalkozások száma (db) Bázs vszoyszám (2000 00) Lácvszoyszám (előző év 00) 2000 6 307 00% --- 200 7 76 4% 4% 2002 8 295 32% 6% 2003 9 462 50% 4% 2004 9 920 57% 05% Adatfeldolgozás/48