Megbízható összeköttetések tervezése Dr. Babarczi Péter egyetemi adjunktus babarczi@tmit.bme.hu http://lendulet.tmit.bme.hu/~babarczi/ 1 Motiváció Kiesési kártérítés (óránként) Tőzsdei kereskedelem $6,450,000 Hitelkártya tranzakciók $2,600,000 Ebay (1 kiesés 22 óra) $225,000 Amazon.com $180,000 Csomagszállítás $150,000 Otthoni vásárlás $113,000 Katalógus vásárlás $90,000 Repülőjegy foglalás $89,000 Cellás szolgáltatások $41,000 On-line hálózati díjak $25,000 ATM szolgáltatás díjak $14,000 Sources: InternetWeek4/3/2000+FibreChannel: A Comprehensive Introduction, R.Kembel2000, p.8....based on a survey done by Contingency Planning Research." 2 1
Hiba Megbízhatóság (Reliability) Egy elem helyes működésének megszűnése. Definíció szerinte a hiba egy adott t f időpillanatban következik be Megbízhatóság, Reliability, R(t) Annak a valószínűsége, hogy egy rendszer megfelelően (hibamentesen) működik a [0 t] intervallumban. 3 Hibaforrások Hardver meghibásodások Típushibák Elhasználódás Szoftver meghibásodások Helytelen implementáció Operátor hibák Hibás konfiguráció Hibás topológia, méretezés Felhasználó okozta hibák DoS (denial-of-service) támadás Nem várt felhasználói viselkedés Környezeti hatások Kábelszakadás Katasztrófák 4 2
Rendelkezésre állás (Availability) Rendelkezésre állás (Availability) annak a valószínűsége, hogy egy javítható rendszert működő állapotban találunk egy adott t időpillanatban. A leggyakrabban használt modell MTTR - Mean Time To Repair (tipikusan órák) MTTF - Mean Time to Failure (tipikusan hónapok, évek) MTBF - Mean Time Between Failures MTBF=MTTF+MTTR Példa: MTTR [h] = 4 MTBF [h] = 10 5 A = (10 5-4)/10 5 = 0.99996 5 Rendelkezésre állás ideje Rendelkezésre állás Kilencesek száma Átlagos kiesés évente Átlagos kiesés havonta Átlagos kiesés hetente 90% 1 kilences 36.52 nap 73.04 óra 16.80 óra 95% - 18.26 nap 36.52 óra 8.40 óra 98% - 7.30 nap 14.60 óra 3.36 óra 99% 2 kilences 3.65 nap 7.30 óra 1.68 óra 99.5% - 1.83 nap 3.65 óra 50.40 perc 99.8% - 17.53 óra 87.66 perc 20.16 perc 99.9% 3 kilences 8.77 óra 43.83 perc 10.08 perc 99.95% - 4.38 óra 21.91 perc 5.04 perc 99.99% 4 kilences 52.59 perc 4.38 perc 1.01 perc 99.999% 5 kilences 5.26 perc 25.9 másodperc 6.05 másodperc 99.9999% 6 kilences 31.56 másodperc 2.62 másodperc 0.61 másodperc Karbantartott Jól karbantartott Hibavédett Nagy megbízhatóságú 99.99999% 7 kilences 3.16 másodperc 0.26 másodperc 0.06 mp 6 3
Megbízható összeköttetések kiépítésének célkitűzései Magas rendelkezésre állás (availability) Gyors reakció a meghibásodásokra Skálázhatóság Karbantarthatóság (menedzsment) Gazdaságos erőforrás használat Bonyolultság Egyszerűség Gazdaságos erőforrás használat és hibamenedzsment komplexitás közötti kompromisszum (trade-off) 7 Megbízható összeköttetések követelményei Egy ellenálló hálózattal szemben elvárható i. A felhasználó megkapja az általa előfizetett szolgáltatás minőséget (QoS) a be- és kilépési csomópontok között, pl. torlódás, késleltetés, max, kiesés (virtuális ii. iii. áramkörkapcsolás) Hatékony sávszélesség kihasználás (túlterhelt linkek elkerülése) (forgalom terelés) Meghibásodások után is elfogadható módon kell működnie (védelmi és helyreállítási módszerek) Csomagkapcsolás esetén minden csomag akár más úton is haladhat Virtuális áramkörkapcsolás kell az IP réteg alá (2.5 réteg: Multi-Protocol Label Switching, MPLS) 8 4
(i) Multi-Protocol Label Switching működése 1a. Routing protokollok (e.g. OSPF-TE, IS-IS-TE) topólogiai információkat terjesztenek 1b. Label Distribution Protocol (LDP) beállítja a csomagtovábbítási táblákat 4. egress LER leválasztja a csomagról az MPLS fejlécet IP IP 2. Ingress Label Edge Router (LER) csomagokat kap, amelyeket fejléccel lát el 3. Label Switching Router (LSR) továbbítás közben címcserét hajt végre label swapping 9 Optical Cross-connects (OXC) Generalized MPLS kapcsolási funkciók Fényszálanként, Fiber-Switch Capable (FSC) Hullámhosszanként. Lambda Switch Capable (LSC) Optikai ADM vagy Optical Cross-connect (OXC) Időrésenként, Time Division Multiplexing Capable (TDMC) SONET/SDH ADM/Digital Cross-connects Csomagonként, Packet Switch Capable (PSC) Router/ATM Switch/Frame Relay Switch PSC TDMC TDMC LSC FSC LSC 10 5
(ii) Forgalom terelés Az útvonalválasztási döntések felügyelete és optimalizálása a forgalom terelés (TE) segítségével lehetséges. TE estén az egyes folyamokat esetenként hosszabb útvonalon vezetjük el, pl. a hálózat jobb sávszélesség kihasználásának érdekében. 6 7 8 9 Interference 1 2 3 4 5 11 (iii) Link-, csomópont-, SRLGfüggetlen utak Él-független útvonal találása Dijkstra legrövidebb útkereső algoritmusával Két lépcsős megközelítés sokszor csapda szituáció Suurballe algoritmus él-független útpárt talál polinom időben Minimális költségű az összes útpár között (ha létezik) Csomópont-független utak a csomópont szétvágási technika alkalmazásával (segédgráf) 12 6
Közös kockázatú csoportok (Shared Risk Link Group) Az SRLG-k a hálózati eszközök (linkek, csp-ok, alkatrészek, szoftver, stb.) meghibásodásai közötti összefüggőséget modellezik Két link azonos SRLG-be tartozik, mert Ugyanabban a fizikai hierarchiában helyezkednek el, mely a hálózat geográfiai jellemzőit veszi figyelembe (azonos kábelben több fényszál is megy), vagy azonos logikai hierarchiában találhatóak, amelyek a fényutak fizikai topológián való tényleges elvezetésére vonatkozik. 13 Fizikai hierarchia Ugyanabban az aknában, kábelben, alagútban, stb. Van-e csomópontokéhoz hasonló transzformáció? Nincs: nem mindegyik SRLG ábrázolható segédgráf segítségével SRLG-diszjunkt útvonalak találása NP-teljes http://www-ee.engr.ccny.cuny.edu/www/web/ellinas/meshroutingonm.pdf 14 7
Logikai hierarchia Összefüggőség = Közös kockázat Krishnaiyan Thulasiraman and Muhammad S. Javed, Guoliang (Larry) Xue, Circuits/Cutsets Duality and a Unified Algorithmic Framework for Survivable Logical Topology Design in IP-over-WDM Optical Networks, Infocom 2009, pp. 1026-1034 15 Hozzárendelt védelem Egy-egy megfeleltetés az üzemi és védelmi erőforrások között Csak egy adott összeköttetés védelmére használhatjuk 1 1 1 1 2 1 1 1 1 Védelmi kapacitás a közös élen: A + B DE: nincsenek jelzések a hiba után 16 8
Megosztott védelem Ha két üzemi út (hiba) független, akkor a hozzájuk tartozó védelmi kapacitás megosztható Egyszerre legfeljebb az egyik szeretné meghibásodás esetén használni 1 1 1 1 1 1 1 1 1 Védelmi kapacitás a közös élen: max{a,b} DE: valós idejű jelzések 17 Védelmi kapacitások osztályozása Szabad kapacitás Védelmi kapacitás Üzemi utak által lefoglalt kapacitás Üzemi úttól függően Szabad kapacitás Megosztható Nem megosztható Üzemi utak által lefoglalt kapacitás Hozzárendelt védelem Megosztott védelem 18 9
Helyreállítási idő valós idejű feladatok a meghibásodás után 1. fázis: Hiba detektálás (hálózattól és nem a védelmi módszertől függ) 2. fázis: Hiba lokalizáció (t l ) 3. fázis: Szétterjesztés (t n ) Hibamenedzsment 4. fázis: Hiba korreláció (t c ) 5. fázis Helyreállítás Védelmi út választás (t p ) Eszköz konfiguráció (t d ) 19 Helyreállítási ciklus Várakozás (időzítő v. token) Detektálás Hibajelentő üzenet küldése Helyreállítási idő Szétterjesztés Adatforgalom elindul Út kiválasztás és konfiguráció idő Lokalizáció Korreláció hiba Hibamenedzsment Az összeköttetés működik A hibát detektálták a felelős csomópontok A védelmi út kiépült A szolgáltatás újra működik Példa megosztott védelem esetén: t l = 10 ms, t n = 20-30 ms, t c = 20-30 ms, t p = 0-30 ms, t d = 50 ms, t R = 100-150ms 20 10
Gazdaságos erőforrás használat helyreállítási idő Hozzárendelt védelem Megosztott védelem (előre tervezett helyreállítás) Dinamikus helyreállíáts 100 % 150 ms 100 % 150 ms 100 % 150 ms R T R T? T 0 % 0 ms 0 % 0 ms 0 % 0 ms Védelem: meghibásodás előtt teszünk lépéseket a hiba esetén kieső összeköttetések gyors javítására Dinamikus helyreállítás: a hiba után próbáljuk meg a meghibásodott összeköttetéseket javítani 21 Link-, szegmens- és út védelem 1 2 3 4 5 6 1 2 3 4 5 6 hiba 7 8 9 7 8 9 Üzemi út Linkvédelem: lokális, loop back 1 2 3 4 5 6 hiba 1 2 3 4 5 6 hiba 7 8 9 7 8 9 Útvédelem: globális, gazdaságos Szegmensvédelem: kettő közötti kompromisszum 22 11
Hozzárendelt 1+1 út védelem A jelet párhozamosan az üzemi úton (working path) és a védelmi úton (protection path) útvonalon küldjük Ha az egyik út megszakad a másikra kapcsolunk Kapcsolás csak a célcsomópontban történik Egyszerű, erőforrás igénye nagy (100% redundancia) R T S D Kapcsolás 23 Hozzárendelt 1:1 útvédelem A párhozamosan két útvonalat foglalunk le Ha az üzemi út megszakad a védelmi útra átkapcsolnak a végcsomópontok A védelmi úton alacsony prioritású (best effort) forgalmat tudunk küldeni Melyet kiürítünk hiba esetén (preemption) Kapcsolás Kapcsolás R T S D 24 12
Hozzárendelt 1:n útvédelem Védelmi erőforrások közös halmaza adott n védelmi útnak Kisebb erőforrás igény DE: Kisebb rendelkezésre állás Mennyi az 1:1 rendelkezésre állása? A w, A p A=1-(1-A w )(1-A p )=A w +A p -A w A p És a 1:2 esete? A w1, A w2, A p S D A=A w1 A w2 +(1-A w1 )A w2 A p +A w1 (1-A w2 )A p 25 1PPF Azonnali helyreállítás 1+1 út védelem (1PP) funkciónak nevezzük az összeköttetés azon tulajdonságát, hogy képes link hibákat túlélni az üzemi és védelmi út(ak)on úgy, hogy minden védelmi útvonal előre számolt, jelzésekkel előre felépített, és az adatot folyamatosan küldjük minden úton az összeköttetés teljes időtartama alatt (hot stand-by). 26 13
Diversity Coding (DC) 1PPF Jobb sávszélesség kihasználás (két egységnyi adat minden kommunikációs körben) Redundáns adat küldése a védelmi (szaggatott éleken) Egyszeres hibákat túlél A védelmi adatot XOR művelettel állítjuk elő az üzemi adatokból Egy harmadik, negyedik diszjunkt út már igencsak hosszú Minden forrás cél párra egy optimális osztási érték (4-5 körül) R T 27 Védőkörök (p-cycles) Előre tervezett, de már megosztott védelem (jelzések szükségesek) Előre definiáljunk a védőköröket a hálózatban Egy link vagy rajta van valamely körön (on-cycle) Vagy húrja (straddling) R T London Amsterdam Brussels Hamburg Berlin Frankfurt Prague Paris Strasbourg Munich Zurich Vienna Lyon Milan Zagreb Rome 28 14
Védőkörök - Működés Védelem hasonlóan, mint az UPSR és BLSR gyűrű topológiákon Különbség a húrok Ekkor az üzemi forgalmat két részre bontjuk 29 Védőkörök - Összefoglalás Az üzemi utat a legrövidebb úton elvezetjük A védőkörök csak a megosztott kapacitást használják Védő-körön egy egység kapacitás Egy egységnyi üzemi kapacitást véd, ha az üzemi út a körön megy Két egységnyi üzemi kapacitást véd, ha húr A húron nem kell megosztott kapacitást foglalni Rengeteg húr lehet Hatékonyan használja ki a hálózati erőforrásokat A helyreállításnál csak két kapcsolás történik Két csomópontban a körön 30 15
Hibafüggő védelem (Failure Dependent Protection, FDP) Meghibásodás esetén Hiba pontos lokalizálása (mtrail) A megszakadt összeköttetések mentén a kapacitásfoglalások feloldása (stub release) Új védelmi útvonalak kiépítése Egy üzemi útnak több (hibától függő) védelmi útvonala van 31 Hibafüggő védelem (Failure Dependent Protection, FDP) Előnyök Optimális erőforrás használat valamennyi védelmi módszer között Hátrányok Bonyolultabb mechanizmust igényel, például pontos hibalokalizációt Nagyobb jelzésrendszeri terhelés a meghibásodás után R T 32 16