Motiváció Rendelkezésre állás kiértékelése Tapolcai János tapolcai@tmit.bme.hu On-line szinház és koncert jegyek Tőzsdei kereskedelem Bankkártya fizetés Repülőjegy foglalás 2 Alapfogalmak I. Hálózat hibajavítás mellett Hiba (Failure) az a pillanat amelytől egy váratlan esemény hatására az eszköz nem képes ellátni a feladatát Megbízhatóság (R, Reliability) annak a valószínűsége, hogy egy adott eszköz egy adott időintervallumban nem fog meghibásodni. Rendelkezésre állás (A, Availability) annak a valószínűsége, ű hogy egy adott eszköz egy adott pillanatban működik Rendelkezésre nem állást (U, Unavailability) U -A Meghibásodás valószínűsége UP DOWN eszköz teljesen képes ellátni a feladatát eszköz meghibásodott, a helyreállítás még folyamatban van t 3 4
Rendelkezésre állás A(t) Pr { time t, system UP } U(t) Pr { time t, system DOWN } A(t) + U(t) Alapfogalmak II. MTTR (Mean Time To Repair) Hibajavításig várható középidő MTTF (Mean Time to Failure) Hibáig várható középidő MTTR << MTTF MTBF (Mean Time Between Failures) Hibák közötti ötti középidő MTBFMTTF+MTTR ha a hibajavításnál nincsen késleltetés R(t) [ t] hosszú meghibásodás mentes időintervallum valószínűsége 5 6 Alapfogalmak III. MUT (Mean Up Time) Megfelelő lő működési középidő Megfelel a MTTF, amennyiben a kiesést meghibásodás okozza MDT (Mean Down Time) Nem megfelelő működési középidő Megfelel a MTTR, amennyiben a kiesést meghibásodás okozza MCT (Mean Cycle Time): Ciklus középidő MCTMUT+MDT Eszközök életciklusa beüzemelési időszak: alacsony a rendelkezésre állás, hetek hónapokban mérhető Stabil üzemelési időszak: a rendelkezésre állás nagyjából állandó szinten marad, jó esetben ez a leghosszabb időszak elhasználódás: amikor a rendelkezésre állás lecsökken az alkatrészek elöregedése miatt. Változó hosszúságú FIT (Failures in Time) MTBF[h]^9/FIT 7 8
Rendelkezésre állás kiértékelése A hibák exponenciális eloszlással jönnek Elméleti szempontból ez támadható és gyakran Weibull eloszlást használnak meghibásodási ráta (idő független) UP Markov modellek DN MTTF MTTR A meghibásodott eszközök helyreállítási ideje exponenciális eloszlású gyakran Weibull eloszlást használnak helyreállítási ráta (idő független) Állapotegyenleteket írjuk fel rá folyamegyenletek 9 Markov lánc megoldása Írjuk fel az állapot átmenet valószínűségeket átmenet mátrix: P A Markov-lánc homogén (átmenetek nem függnek az időtől) Ak-lépéses átmenet-valószínűség mátrixa P k Ilyenkor a stacionárius eloszlás π,, egy (sor)vektor, amelyre teljesül π π π mindig létezik, (mi esetünkben ez egyértelmű is) P Két állapotú Markov modell UP stacionárius eloszlás: DN Átmenet mátrix: ( A U ) ( A U ) A A ( ) + U A U P U + A A + 2
Két állapotú Markov modell UP MTTF MTTR DN Két állapotú Markov modell A ss + ASS A(t) MTTF + + MTTF + MTTR Ha nincs helyreállítás () a rendelkezésre állás megegyezik a megbízhatósággal At () R () t e t/ MTTR 3 4 Állandosult állapot Rendelkezésre állás Rendelkezésre állás Kilencesek száma Nem megfelelő működési idő évente* Nem megfelelő működési idő havonta** Nem megfelelő működési idő hetente*** UP DOWN Várható működési idő E[U(t)] MUT MTTF Várható tókiesési i idő E[D(t)] MDT MTTR ASS + MUT MUT + MDT MTTF MTTF + MTTR t 5 9% kilences 36.52 nap 73.4 óra 6.8 óra 95% - 8.26 nap 36.52 óra 8.4 óra 98% - 7.3 nap 4.6 óra 3.36 óra 99% 2 kilences 3.65 nap 7.3 óra.68 óra Karbantartott 99.5% -.83 nap 3.65 óra 5.4 perc 99.8% - 7.53 óra 87.66 perc 2.6 perc Jól karbantartott 99.9% 9% 3 kilences 877óra 8.77 43.83 perc.88 perc 99.95% - 4.38 óra 2.9 perc 5.4 perc 99.99% 4 kilences 52.59 perc 4.38 perc. perc Hibavédett 99.999% 5 kilences 5.26 perc 25.9 másodperc 6.5 másodperc 99.9999% 6 kilences 3.56 másodperc 2.62 másodperc.6 másodperc 99.99999% 7 kilences 3.6 másodperc.26 másodperc. másodper c Nagy megbízhatóságú 6
Megbízhatóság becslő modellek Kezdetben csak elektromos eszközökre ök Katonai kézikönyv MIL-HDBK-27 (Military Handbook, Reliability Prediction of Electronic Equipment) Mikroelektronikai áramkörök Félvezetők passzív elemek Görbéket próbálnak illeszteni a megfigyelésikre. R ( t ) e ahol p eszköz meghibásodási rátája p t Telcordia szabvány Figyelembe veszi az üzembetartási körülményeket Terepen mért adatokat laboratóriumban tesztelt adatokat AT&T Bell Labs. Azóta Telcordia szabványnak hívják France Telecom (CNET93) és British Telecom (HRD5) is továbbfejlesztette 7 8 IP router: route processor MTBF[h] 2 3 MTTR[h] 4 Pow. Supply, housing, conditioning IP router: interface card MTBF[h] 85 3 MTTR[h] 4 IP router IP Router (simplified model, dlconfiguration example ) IP router: SW MTBF[h] 3 3 SW MTTR[h] : library optimista becslés SW újraindítás.4 HW common parts Átlagos becslés 8 slot SW teljes újra töltés available.2 ovatos becslés nincs automatikus tik 2 X portgigabit Ethernet module újraindítás 4 X port OC48/STM6 POS line card.25 sed Not us X4 port OC3/STM POS line card 9 Control OEO SDH/SONET Trunk Transponder Tributary Transponder SDH DXC/ADM: MTBF[h] 6 MTTR[h] 4 DXC-nél sokkal nagyobb a port-szám 2
Légkábel MTBF[km]75 3 MTTR6 Föld kábel MTBF[km]263 3 MTTR2 Trans- ponder Cable/ Fibre WDM Tengeri kábel MTBF[km]464 3 MTTR54 WDM OXC (OEO)orOADM OADM MTBF 3 MTTR6 Amplifier WDM line system MTBF4 3 MTBF25 3 MTBF6 3 MTTR6 MTTR6 MTTR6 ODXC redundant: + protected MTBF6 6 MTTR4 OXC Jelzés rendszer (Control Plane) meghibásodása ASON/ASTN hasonló az IP router SW. A következmények mások IP router: SW meghibásodáskor valamennyi csomag elveszik ASTN CP meghibásodáskor a meglévő kapcsolatok nem sérülnek Kivéve amikor a kapcsolatokhoz állandóan megerősítő üzentet kell küldeni (pl. RSVP) 2 22 Hiba források hardware hibák Hálózati eszközök ök meghibásodása (hardware failures) Típushibák gyártás és kivitelezés alatti tervezési hibákból származtathatóak Tesztelésnél kell őket kiszűrni Elhasználódás Processzor, memória, alaplap, iterface-ek Mozgó alkatrészek: hűtő ventilátor, háttértár, tápegység A természeti jelenségek, is jellemzően ezekre az eszközökre vannak a legnagyobb hatással.» magas páratartalom, magas hőmérséklet, földrengés kondenzátorok, tranzisztorok, biztosítékok Hiba források Software hibák Szoftver hibák (software failures) hibás tervezés nagy komplexitásúak és összetettek helytelen implementáció Pl. változó nevek elgépelése A fordító gyakran észreveszi Hibás memória művelet 23 24
Hiba források Operátor hibák II. általános lá operátori feladatokból eredő hibák (maintanace errors) rendszerek és hardware eszközök fel- és átkonfigurálása javításokból következő hibás beállítások frissítések és javítócsomagok telepítéséből eredő nem megfelelő működés Hiba források Operátor hibák II. Nem tervezett javítás hibás beállításokból adnak az útválasztók címzésénél rossz cím vagy prefixum rossz interfész azonosító rossz link metrikák rossz időzítők, sorok» Diffserv forgalom korlátozók (Traffic Conditioners) Policers, classifiers, markers, shapers Rossz biztonsági beállítás törvényes forgalom blokkolása egyéb a működtetéshez kapcsolódó hibák: véletlen balesetből adódó fizikai hibák (reset) hozzáférési problémák (elfelejtett jelszó) Tervezett javítás (planned maintanance) túl hosszura nyúlt upgrade 25 26 Hiba források Operátor hibák II. topológia /méretezés é /implementációs ió tervezési hibák; Routerekbe gyenge processzor kerül túl hosszú vezetékekből eredő magas bithibaarány helytelen topológia a védelmi útvonalakból eredő redundancia hiánya Kompatibilitási hibák gyártók és verziók között különböző szolgáltatók vagy AS (Autonomous system) között Pl. autonóm rendszerek (AS, Autonomous System) közötti eltérő útválasztási konfigurációk, bebocsátás vezérlés (Admission Control) beállítások felelhetnek hálózati leállásokért. 27 Hiba források felhasználók által okozott hibák (user failures) Rosszindulatú támadásokból eredő hibák fizikai eszközök ellen Betörés, rombolás csomópontok ellen Feltörik a gépet, vírusok DoS (denial-of-service) támadás (Interneten gyakori) Megpróbálja túlterhelni a routereket egyszerre sok helyről IP address spoofing - IP cím hamisítás Pl: Ping of Death a ping csomag 65535 byte lehet. 996 gyakran le lehetett úgy fagyasztani a gépeket ha ennél hosszabb ping csomagot küldtél. Nem várt felhasználói viselkedésből eredő hibák Rövid távú Rendezvények Mobilitás Hosszú távú új népszerű site-ok, alkalmazások 28
Hiba források - Természeti okokból eredő hibák (environmental) kábel szakadás építkezésnél rádió jelek legyengülése g felépül egy épület Felhők, szmog, köd Madarak, repülő elektromágneses interferencia Elektromágneses zaj - napviharok áramkimaradás levegő nedvesség tartalma és a hőmérséklet Elromlik a légkondicionáló katasztrófák Tűz, földrengés, terror támadás, áradás, tsunami, villám Michnet ISP Gerinchálózat /97 /98 Melyik lehet a 3 leggyakoribb hiba? Maintenance Power Outage Interface Down Routing Problems Hardware Problem Software Problem Fiber Cut/Cicuit/Carrier Problem Malicious Attack Congestion/Sluggish 29 3 Michnet ISP Gerinchálózat /97 /98 ok tipus db [%] Maintenance Operator 272 6.2 Power Outage Environmental 273 6. Fiber Cut/Cicuit/Carrier Problem Environmental 26 5.3 Unreachable Operator 25 2.6 Hardware Problem Hardware 54 9. Interface Down Hardware 5 6.2 Routing Problems Operator 4 6 6. Miscellaneous Unknown 86 5.9 Unknown/Undetermine d/no problem Unknown 32 5.6 Congestion/Sluggish User 65 4.6 Malicious Attack Malice 26.5 Software Problem Software 23.3 Environmental 3% Malice 2% Unknow n % User 5% Softw are % Operator 35% Hardw are 5% 3 Esettanulmány trendek Outages/ System Years 2 by Primary Cause 8 6 4 2 985 987 989 % of Outages by Primary Cause 9 8 7 6 5 4 3 2 985 987 989 unknown environment operations maintenance hardware software MTTF javult 32
22 esettanulmány D. Patterson et. al.: Recovery Oriented Computing (ROC): Motivation, Definition, Techniques, and Case Studies, UC Berkeley Computer Science Technical Report UCB//CSD-2-75, March 5, 22, Leggyakoribb okok Konfigurációs hibák (operator errors) Egyszerű megoldások kellenek Esetenként 9% Tervezett javítás (planned maintenance) Éjszakára szokták ütemezni van úgy, hogy 2% a hibáknak DoS támadás A jövőben csak romlani fog a helyzett Szoftver hibák millió soros kodók Link hibák Nem csak szakadás, minden amitől egy pont-pont összeköttetés nem működik védelem 33 34 Több elem rendelkezésre állása Ismerjük az egyes elemek rendelkezésre állását célunk megbecsülni a rendszer rendelkezésre állását Feltételezzük hogy az elemek meghibásodása független Soros elemek Rendelkezésre állás A A x A 2 x... x A n R t e e e e t 2 t 3 t n () K t 2 3 n 35 36
Soros elemek megbízhatóságának egyszerű közelítése Rendelkezésre állás A A x A 2 x... x A n A (- U ) x (- U 2 ) x... x (- U n ) A u ( u ) + u u ( u ) u u u ( u ) +... n i n m i n m o i n ii, n n m ii, n, i m n m o ii, n, i m, i o U i <<-U i U u nn 2 3 n n Transponder 2km MTBF4 4 MTTR6.997445 WDM fényút Föld kábel MTBF[km] 26.3 4 MTTR2 MTBF25 4 MTTR6 Amplifier WDM line system MTBF6 4 MTTR6 WDM OXC (OEO) or OADM MTBF 4 MTTR6 OXC 37 38 Referenciák Andrea Bobbio Dependability & Maintainability i Theory and Methods Jim Gray Dependability in the Internet Era J.-P. Vasseur, M. Pickavet, P. Demeester, Network Recovery. Protection and Restoration of Optical, SONET-SDH, IP, and MPLS, Morgan Kaufmann Publishers, San Francisco 24. S. Verbrugge, D. Colle, P. Demeester, R. Huelsermann, M. Jaeger, General Availability Model for Multilayer Transport Networks, DRCN 25. Máthé Dániel, Hálózatok rendelkezésre állásának vizsgálata, diplomunka, BME 27 39