Rendelkezésre állás odellek Dr. Tapolcai János tapolcai@tit.be.hu http://opti.tit.be.hu/~tapolcai/ 1
Hiba források hardware hibák Hálózati eszközök eghibásodása (hardware failures) Típushibák gyártás és kivitelezés alatti tervezési hibákból száraztathatóak Tesztelésnél kell őket kiszűrni Elhasználódás Processzor, eória, alaplap, iterface-ek Mozgó alkatrészek: hűtő ventilátor, háttértár, tápegység A terészeti jelenségek, is jellezően ezekre az eszközökre vannak a legnagyobb hatással.» agas páratartalo, agas hőérséklet, földrengés kondenzátorok, tranzisztorok, biztosítékok 2
Hiba források Software hibák Szoftver hibák (software failures) hibás tervezés nagy koplexitásúak és összetettek helytelen ipleentáció Pl. változó nevek elgépelése A fordító gyakran észreveszi Hibás eória űvelet 3
Hiba források Operátor hibák általános operátori feladatokból eredő hibák (aintanace errors) rendszerek és hardware eszközök fel- és átkonfigurálása javításokból következő hibás beállítások frissítések és javítócsoagok telepítéséből eredő ne egfelelő űködés 4
Hiba források Operátor hibák Ne tervezett javítás hibás beállításokból adnak az útválasztók cízésénél rossz cí vagy prefixu rossz interfész azonosító rossz link etrikák rossz időzítők, sorok» Diffserv forgalo korlátozók (Traffic Conditioners) Policers, classifiers, arkers, shapers Rossz biztonsági beállítás törvényes forgalo blokkolása egyéb a űködtetéshez kapcsolódó hibák: véletlen balesetből adódó fizikai hibák (reset) hozzáférési probléák (elfelejtett jelszó) Tervezett javítás (planned aintanance) túl hosszura nyúlt upgrade 5
Hiba források Operátor hibák topológia /éretezés /ipleentációs tervezési hibák; Routerekbe gyenge processzor kerül túl hosszú vezetékekből eredő agas bithibaarány helytelen topológia a védeli útvonalakból eredő redundancia hiánya Kopatibilitási hibák gyártók és verziók között különböző szolgáltatók vagy AS (Autonoous syste) között Pl. autonó rendszerek (AS, Autonoous Syste) közötti eltérő útválasztási konfigurációk, bebocsátás vezérlés (Adission Control) beállítások felelhetnek hálózati leállásokért. 6
Hiba források felhasználók által okozott hibák (user failures) Rosszindulatú táadásokból eredő hibák fizikai eszközök ellen Betörés, robolás csoópontok ellen Feltörik a gépet, vírusok DoS (denial-of-service) táadás (Interneten gyakori) Megpróbálja túlterhelni a routereket egyszerre sok helyről IP address spoofing - IP cí haisítás Pl: Ping of Death a ping csoag 65535 byte lehet. 1996 gyakran le lehetett úgy fagyasztani a gépeket ha ennél hosszabb ping csoagot küldtél. Ne várt felhasználói viselkedésből eredő hibák Rövid távú Rendezvények Mobilitás Hosszú távú új népszerű site-ok, alkalazások 7
Hiba források Környezeti hatások kábel szakadás építkezésnél rádió jelek legyengülése felépül egy épület Felhők, szog, köd Madarak, repülő elektroágneses interferencia Elektroágneses zaj - napviharok árakiaradás levegő nedvesség tartala és a hőérséklet Elrolik a légkondicionáló katasztrófák Tűz, földrengés, terror táadás, áradás, cunai, villá
Michnet ISP Gerinchálózat 11/97 11/98 Melyik lehet a 3 leggyakoribb hiba? Hardware Proble Maintenance Software Proble Power Outage Fiber Cut/Cicuit/Carrier Proble Interface Down Routing Probles Malicious Attack Congestion/Sluggish 9
Michnet ISP Gerinchálózat 11/97 11/98 ok tipus db [%] Maintenance Operator 272 16.2 Power Outage Environental 273 16.0 Fiber Cut/Cicuit/Carrier Proble Environental 261 15.3 Unreachable Operator 215 12.6 Hardware Proble Hardware 154 9.0 Interface Down Hardware 105 6.2 Routing Probles Operator 104 6.1 User 5% Miscellaneous Unknown 86 5.9 Unknown/Undeterine d/no proble Unknown 32 5.6 Environental 31% Operator 35% Congestion/Sluggish User 65 4.6 Malicious Attack Malice 26 1.5 Software Proble Software 23 1.3 Malice 2% Unknow n 11% Softw are 1% Hardw are 10 15%
2002 esettanulány D. Patterson et. al.: Recovery Oriented Coputing (ROC): Motivation, Definition, Techniques, and Case Studies, UC Berkeley Coputer Science Technical Report UCB//CSD-02-1175, March 15, 2002, 11
Hiba források - Összefoglalás Operátor hibák (hibás konfiguráció) Egyszerű egoldások szükségesek Esetenként az összes hiba 90%-át is elérik Tervezett kiesések Éjszaka futnak Esetenként a hibák 20%-át is elérik DoS táadás Egyre rosszabb lesz a jövőben Szoftver eghibásodások 10 illió soros forráskódok Link kiesések Bári, ai iatt egy pont-pont összeköttetés egszakadhat 12
Motiváció egbízható optikai hálózatok tervezésére Tőzsdei kereskedele Bankkártya fizetés On-line színház és koncert jegyek Repülőjegy foglalás 13
Megbízhatóság Hiba Egy ele helyes űködésének egszűnése. Definíció szerinte a hiba egy adott t f időpillanatban következik be Megbízhatóság, Reliability, R(t) Egy rendszer vagy szolgáltatás folyaatos, hibaentes űkodése Annak a valószínűsége, hogy egy rendszer egfelelően (hibaentesen) űködik a [0 t] intervalluban. 14
Megbízhatóság (2) Megbízhatóság, R(t) 1- F(t) (eloszlás függvény) segítségével definiáljuk Egyszerű odell: exponenciális eloszlású valószínűségi változók Tulajdonságai: nenövekvő R(0) 1 li R( t) 0 t R(t) R(a) 1 R( t) 1 F( t) 1(1 e ) e t t 0 a t 15
Hálózat javítható alrendszerekkel Egy javítható rendszer leírására használt odell Rendelkezésre állás A(t) Annak a valószínűsége, hogy egy javítható rendszert űködő állapotban találunk egy adott t időpillanatban A(t) = P(idő = t, rendszer = UP) Rendelkezésre ne állás, U(t) Annak a valószínűsége, hogy egy javítható rendszert hibás állapotban találunk egy adott t időpillanatban U(t) = P(idő = t, rendszer = DOWN) A(t) + U(t) = 1 a t pillanatban Hiba UP DOWN Eszköz űködik Eszköz űködik Eszköz űködik Az eszköz eghibásodott, a javítása folyaatban. t 16
Ele rendelkezésre állás egadása A leggyakrabban használt ód MTTR - Mean Tie To Repair MTTF - Mean Tie to Failure MTTR << MTTF MTBF - Mean Tie Between Failures MTBF=MTTF+MTTR Gyors javítás esetén az MTBF kb egegyezik az MTTF értékkel Gyakran FIT-ben adva (Failures in Tie), MTBF[h]=10 9 /FIT Egy ásik jelölés (ne fogjuk használni) MUT - Mean Up Tie Like MTTF MDT - Mean Down Tie Like MTTR MCT - Mean Cycle Tie MCT=MUT+MDT 17
Rendelkezésre állás Rendelkezésre állás Kilencesek száa Ne egfelelő űködési idő évente* Ne egfelelő űködési idő havonta** Ne egfelelő űködési idő hetente*** 90% 1 kilences 36.52 nap 73.04 óra 16.80 óra 95% - 18.26 nap 36.52 óra 8.40 óra 98% - 7.30 nap 14.60 óra 3.36 óra 99% 2 kilences 3.65 nap 7.30 óra 1.68 óra 99.5% - 1.83 nap 3.65 óra 50.40 perc 99.8% - 17.53 óra 87.66 perc 20.16 perc 99.9% 3 kilences 8.77 óra 43.83 perc 10.08 perc 99.95% - 4.38 óra 21.91 perc 5.04 perc 99.99% 4 kilences 52.59 perc 4.38 perc 1.01 perc 99.999% 5 kilences 5.26 perc 25.9 ásodperc 6.05 ásodperc 99.9999% 6 kilences 31.56 ásodperc 2.62 ásodperc 0.61 ásodperc Karbantartott Jól karbantartott Hibavédett Nagy egbízhatóságú 99.99999% 7 kilences 3.16 ásodperc 0.26 ásodperc 1. ásodperc 18
Eszközök életciklusa Beüzeelési időszak: növekvő rendelkezésre állás (csökkenő kiesések) Teljesítény optializálás Stabil üzeelési időszak: a rendelkezésre állás nagyjából állandó szinten arad, jó esetben ez a leghosszabb időszak Elhasználódás: aikor a rendelkezésre állás lecsökken az alkatrészek elöregedése iatt. Változó hosszúságú 19
Rendelkezésre állás kiértékelése A hibák exponenciális eloszlással jönnek Független azonos eloszlású valószínűségi változók Eléleti szepontból ez táadható és gyakran Weibull eloszlást használnak eghibásodási ráta (idő független) A eghibásodott eszközök helyreállítási ideje exponenciális eloszlású Független azonos eloszlású valószínűségi változók gyakran Weibull eloszlást használnak helyreállítási ráta (idő független) F( t) 1 e t 20
Két állapotú Markov odell (1) 1 UP 1 DN 0 1 1 MTTF 1 MTTR Átenet valószínűségek átrix alakban P állapotátenet átrix (sztochasztikus átrix) Hoogén Markov-lánc (időben ne változik) Az állapotátenet átrix k lépés után: P k Stacionárius eloszlás egy sorvektor π, elyre P π létezik (és ekkor egyértelű is) Exp val változók átlaga 21
Két állapotú Markov odell (2) 22 UP 1 DN 0 1 1 1 1 P A A U U A U A A U A U A 1 hogy / tudjuk, ) (1 1 1 ) ( ) ( Állapotátenet átrix: Stacionárius eloszlás: ) (, U A DOWN UP
23 Két állapotú Markov odell 1 A(t) A ss = MTTR MTTF MTTF A ss 1 1 1 Ha nincs helyreállítás (=0) a rendelkezésre állás egegyezik a egbízhatósággal ) ( ) ( 0 ) ( t R e e A t t t t
Hiba ráta becslése - Katonai kézikönyv Kezdetben csak elektroos eszközökre Katonai kézikönyv MIL-HDBK-217 (Military Handbook, Reliability Prediction of Electronic Equipent) Mikroelektronikai árakörök Félvezetők passzív eleek Görbéket próbálnak illeszteni a egfigyelésikre. R( t) ahol p = eszköz eghibásodási rátája e p t 24
Hiba ráta becslése - Telcordia szabvány Figyelebe veszi az üzebetartási körülényeket Terepen ért adatokat laboratóriuban tesztelt adatokat AT&T Bell Labs. Azóta Telcordia szabványnak hívják France Teleco (CNET93) és British Teleco (HRD5) is továbbfejlesztette 25
Eszköz rendelkezésr állás IP router IP router: route processor MTBF[h] = 200 10 3 MTTR[h] = 4 Pow. Supply, housing, conditioning IP Router (siplified odel, configuration exaple ) SW library HW coon parts Not used IP router: SW MTBF[h] = 30 10 3 MTTR[h] = 0.0004 (SW restart) MTTR[h] = 0.02 (SW reload) MTTR[h] = 0.25 (no autoatic restart) 8 slot available IP router: interface card MTBF[h] = 85 10 3 MTTR[h] = 4 1 X 4 port OC3/STM1 POS line card 2 X 1 portgigabit Ethernet odule 4 X 1 port OC48/STM16 POS line card 26
Eszköz rendelkezésr állás DXC az SDH/SONET rétegben DXC-nek több portja, int az IP routereknek Control OEO SDH DXC/ADM: MTBF[h] = 1 10 6 MTTR[h] = 4 SDH Synchronous Digial Hierarchy Trunk Transponder Tributary Transponder SONET - Synchronous Optical NETworking DXC digital cross connect ADM add-drop ultiplexer OEO optical electrical optical conversion 27
Ele rendelkezésre állás (WDM réteg) Aerial cable MTBF[k]=1.75 10 5 MTTR=6 Buried cable MTBF[k]=2.6 10 5 MTTR=12 Transponder Cable/ Fibre Subarine cables MTBF[k]=4.64 10 6 MTTR=540 WDM OXC (OEO) or OADM MTBF=1 10 5 MTTR=6 Aplifier WDM line syste OXC redundant: 1+1 protected MTBF=6 10 6 MTTR=4 MTBF=400 10 3 MTTR=6 MTBF=250 10 3 MTTR=6 MTBF=160 10 3 MTTR=6 OXC WDM wavelength division ultiplexing OXC optical cross connect OADM optical add-drop ultiplexer 28
Egyetlen WDM fényút (üzei út) Soros szabály: A Transponder i1 A i Aplifier WDM line syste 3.65 nap/év kiesés MTBF=4 10 5 MTTR=6 Ground cable (200 k) MTBF[k]=2.63 10 5 MTTR=12 MTBF=2.5 10 5 MTTR=6 MTBF=1.6 10 5 MTTR=6 OXC WDM OXC MTBF=1 10 5 MTTR=6 As-d = AOXC * Atr * AMUX * Acable * Aap * AMUX * Atr * AOXC = 0.99994 * 0.999985 * 0.9999625 * 0.99087 * 0.999976 * 0.9999625 * 0.999985 * 0.99994 = 0.99994 * 0.99074 * 0.99994 = 0.99062 29
1+1 védele (diszjunkt útpár) 200k fényút 0.99074 53 perc/év kiesés Párhuzaos szabály: A 1 (1 A i1 i ) As-d = AOXC * [1-(1-Apath1) *(1-Apath2)] * AOXC = 0.99994 * [1-(1-0.99074)*(1-0.99074)] * 0.99994 = 0.99979 30
References Dr. Chidung LAC, Telecounication network reliability D. Arci, et.al, Availability odels for protection techniques in WDM networks Coputer Networking: A Top Down Approach Featuring the Internet, 3rd edition. Ji Kurose, Keith Ross Addison-Wesley, July 2004. J. Vasseur, M. Pickavet, and P. Deeester. Network recovery: Protection and Restoration of Optical, SONET-SDH, IP, and MPLS. Morgan Kaufann Publishers, 2004. Coputer Networking: A Top Down Approach Featuring the Internet, 3 rd edition. Ji Kurose, Keith Ross Addison-Wesley, July 2004. 31