Intellgens elosztott rendszerek VIMIAC2 Adatelőkészítés: hhetőségvzsgálat normálás stb. Patak Béla BME I.E. 414, 463-26-79 atak@mt.bme.hu, htt://www.mt.bme.hu/general/staff/atak
Valamlyen dőben állandó, esetleg lassan vagy gyorsan változó folyamat, jelenség árfolyam tanulmány kredt hőmérséklet Szenzor1 Szenzor1 SzenzorK Lokáls Lokáls Lokáls ntell- ntell- ntellgenca genca genca Közont feldolgozás közont ntellgenca
Sokszor nem ka kellő hangsúlyt az adatok előfeldolgozása Tkus eljárások: 1. Hhetőségvzsgálat 2. Klógó adatok detektálása, törlése 3. Adatótlás 4. Normálás stb.
Szenzor1: A megfgyelt ember magassága 199 cm Szenzor2: A megfgyelt ember tömege 89 kg Szenzor3: A megfgyelt ember tömege egy na alatt 18,2 kg-t nőtt Szenzor4: A megfgyelt ember magassága 195 cm Szenzor5: A megfgyelt ember tömege 6 kg Szenzor6: A megfgyelt ember magassága 275 cm Szenzor7: A megfgyelt ember magassága 197 cm Szenzor8: A megfgyelt ember magassága 189 cm Szenzor9: A megfgyelt ember tömege egy na alatt,7 kg-t csökkent
Hhetőségvzsgálat: 1. Tudnunk kell valamt a jelenkről (a ror nformácó l. az emberek magasságának, tömegének alsó és felső korláta a magasság és a tömeg szokásos összefüggése, a lehetséges eltérés mértéke 2. A mért jelenkből levonunk következtetést a szokásos lmtekről, összefüggésekről (m a tkus, m a klógó adat? ha sok adatot mérünk, akkor kereshetünk tkus csoortokat (klasztereket, lmteket, összefüggéseket az adatokban
Normálás: A normálás sokszor nagymértékben gyorsítja, ontosabbá, esetenként lehetővé tesz a feldolgozást Demóélda: olnomáls regresszó y nose 2 3 1 2 3 5, 1, 2, 3 olyft (, y,3-5.1.2.3.4.5.6.7.8.9 1 5-5 1 1 1 1 1 1.1 1.1 1.1 1.1 1.1 1.1 1 4, 1, 2, 3 olyft (1, y,3
y ( ( ( nose 2 3 1 2 3 először (,1 másodszor (1.,1.1 1. Valód értékek = 1 =-1 P 2 =189 3 =-2 Becsült - ϵ (,1-ben -,68-1,29 189,7-2,56 Becsült - ϵ (1,11 19.538-58.613.481.99 5.861.166-195.37 Warnng: Polynomal s badly condtoned. Add onts wth dstnct X values, reduce the degree of the olynomal, or try centerng and scalng as descrbed n HELP POLYFIT.
Ugyanez a demóélda neuronhálós tanítással (eltolás nélkül = a 2. eochnál ér el a legjobb közelítést,,1212 MSE
Eltolással =1. A 35. eochnál ér el a legjobb közelítést, 1,8199 MSE Több mnt egy nagyságrenddel rosszabb közelítés! (Egyes esetekben ennél lényegesen lassabb futást s taasztalhatunk, sokkal rosszabb végeredménnyel!
Egyszerű normálás eljárások } mn{ } ma{ } mn{ ~ ( ( ( ( ( P P 1 ( 1 P P 1 2 ( 2 ( 1 1 ˆ ˆ ~ ( ( Nulla várhatóértékűre és egységny szórásúra normálás (skalár komonensenként eset [,1] tartományra normálás
A aramétervektor skalár komonensenek együttes normálása C Cφ j 1 P P 1 1 P P 1 1 φ j j ( ( ( ( φ1 φ2... φn ( dag 1 2 N T ~ ( 1/ 2 T ( ( ( nulla várhatóértékű és kovarancamátra egységmátr
Klógó (outler adatok detektálása A klógó adatok erősen meghamsíthatják a tanítás eredményét 3 2 1-1.1.2.3.4.5.6.7.8.9 1 8 6 4 2-2.1.2.3.4.5.6.7.8.9 1 zöld: gaz görbe, fekete: a neuronháló által tanult modell Az alsó ábrán 3 erősen klógó (outler adatont matt torzított a tanítás eredménye (a több ont, lletve a háló mérete azonos
Klógó (outler adatok detektálása 1. Az adatok szórását felhasználva Adatmodellünk: az adat egy átlagos érték körül szór, és mnél távolabb van az átlagtól, annál kevésbé valószínű, hogy reáls (nem klógó emberek magassága, bankszámlabetét, vagy énz kvétel, elektromos fogyasztás stb. Normáls ( átlagú, várható értékű, egységny szórású Gauss P(<16% P(2< 2,3% P(3<,14% P(4<,3% - l.
Az adatok szórását felhasználva Példa: adatsorunknál (1 adat az átlagtól több mnt 4-val eltérő adatot klógónak mnősítjük. N adatszám átlag szórás klógó adat lmt 1 29,7 4,85 49,1 7 6 5 4 3 2 1 1 15 2 25 3 35 4 45 Jön még két adat (2 klógó: X(11=66 X(12=1 N adatszám átlag szórás klógó adat lmt 1+2 3,7 9,17!!! 67.4 1 8 6 4 2 1 2 3 4 5 6 7 8 9 1
N/4 adat Paraméterérték N/4 adat 2. Az adatok sorrendezését felhasználva (Order statstc flterng Outlerek UOF = Q3 + 3 * IQ 13 11 9 7 N/4 adat N/4 adat Q3 Q2=medán Q1 IQ=Q3-Q1 Az adatok közéső (tkus fele 5 3 15
Az adatok sorrendezését felhasználva Ugyanaz a élda, mnt az előbb: 1 adat, majd lusz kettő; 66 és 1: N 1 Q1 Q2 Q3 Q4 26,7 29,9 32,4 41,1 IQ 5,6 49,2 Q3+3*IQ 7 6 5 4 3 2 1 adatok Q1 körül: 26.55, 26.74, 26.75 1 15 2 25 3 35 4 45 adatok Q3 körül: 32.22, 32.36, 32.58 N Q1 Q2 Q3 Q4 IQ Q3+3*IQ 1 8 6 4 Q1 Q3 12 26,8 29,9 32,6 1 5,8 5,1 2 1 2 3 4 5 6 7 8 9 1
Hányos, hbás adatok, adatótlás Mvel mndg kevés az adat: ha hányzk egyk-másk komonense, rendszernt akkor sem ér meg eldobn, jobb ótoln a hányt. Ennek alkalmas eszköze lehet a klaszterezés, csoortok keresése a mért adatok közt. Demóélda: Két araméterrel jellemezzük a mntánkat: Egyes mntáknak hányzk az egyk komonense (vagy annyra torz, hogy nem vesszük fgyelembe. Például az n-dk mnta másodk aramétere hányzk: n n1? k k1 k 2
A kétdmenzós adathalmaz eloszlása 1 2
n-dk mnta: n1 =, de hányzk az n2 araméter. Nézzük meg, melyk n2 legvalószínűbb értéke az 2 eloszlás alaján:.2 X2 eloszlása a teljes mntahalmazon -> 2 legvalószínűbb értéke -4.18.16.14.12.1.8.6.4.2-1 -8-6 -4-2 2 4 6 8 1 1 Az 1=-hoz tartozó mnta valószínűleg a 3-as klaszterbe tartozk! -> ma. valószínűségel 2=3 5 2. klaszter 1. klaszter 3. klaszter 1-5 -1-1 -8-6 -4-2 2 4 6 8 1
Másodk demóélda Eredet ké 2%-ban hbás elek (1-1 színkomonens elveszett 5 1 15 2 25 3 35 4 5 1 15 2 25 3
Balról-jobbra: a hbás ké, a globáls araméterekkel javított és a klaszterezett, majd klaszterenként araméterekkel javított 2%-ban hbás elek (1-1 színkomonens elveszett 5 5 5 1 1 1 15 15 15 2 2 2 25 3 35 4 25 3 35 4 25 3 35 4 5 1 15 2 25 3 5 1 15 2 25 3 5 1 15 2 25 3