Hibatűrés. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hasonló dokumentumok
Hibatűrés. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hibatűrés. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hibatűrés. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Hibatűrés. Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Biztonságkritikus rendszerek architektúrája (2. rész)

Biztonságkritikus rendszerek Gyakorlat: Architektúrák

Biztonságkritikus rendszerek architektúrája

A hibakezelés tesztelése: Hibainjektálás

Szolgáltatásbiztos rendszerek: Architektúra tervezési példák

Biztonságkritikus rendszerek architektúrája

Architektúra tervezési példák: Architektúrák biztonságkritikus rendszerekben

A szolgáltatásbiztonság alapfogalmai

Mintapélda: Rendszertesztelés a SAFEDMI projektben

A szolgáltatásbiztonság alapfogalmai

A szolgáltatásbiztonság alapfogalmai

Bokor Péter. DECOS Nemzeti Nap október 15. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Szoftver architektúra tervek ellenőrzése

Biztonsági folyamatirányító. rendszerek szoftvere

Operációs rendszerek. Bemutatkozás

OpenCL alapú eszközök verifikációja és validációja a gyakorlatban

Robusztusság tesztelés

Rendszermodellezés. Modellellenőrzés. Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék

Autóipari beágyazott rendszerek. Kockázatelemzés

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

Verifikáció és validáció Általános bevezető

Az UPPAAL egyes modellezési lehetőségeinek összefoglalása. Majzik István BME Méréstechnika és Információs Rendszerek Tanszék

Szoftver karbantartási lépések ellenőrzése

A fejlesztési szabványok szerepe a szoftverellenőrzésben

Beágyazott információs rendszerek

Modell alapú tesztelés mobil környezetben

Processzusok (Processes), Szálak (Threads), Kommunikáció (IPC, Inter-Process Communication)

Csoportos üzenetszórás optimalizálása klaszter rendszerekben

Bevezetés a párhuzamos programozási koncepciókba

3. Biztonságkritikus rendszerek

Programozó- készülék Kezelőkozol RT óra (pl. PC) Digitális bemenetek ROM memória Digitális kimenetek RAM memória Analóg bemenet Analóg kimenet

Számítógép-rendszerek fontos jellemzői (Hardver és Szoftver):

A modellellenőrzés érdekes alkalmazása: Tesztgenerálás modellellenőrzővel

Architektúra, megszakítási rendszerek

Autóipari beágyazott rendszerek. Komponens és rendszer integráció

Miskolci Egyetem Alkalmazott Informatikai Intézeti Tanszék A minőségbiztosítás informatikája. Készítette: Urbán Norbert

Elosztott rendszer architektúrák

Alapszintű formalizmusok

Szoftver karbantartás

A modellellenőrzés érdekes alkalmazása: Tesztgenerálás modellellenőrzővel

Fogalomtár Etikus hackelés tárgyban Azonosító: S2_Fogalomtar_v1 Silent Signal Kft. Web:

Utolsó módosítás:

Specifikáció alapú teszttervezési módszerek

Specifikáció alapú teszttervezési módszerek

TxRail-USB Hőmérséklet távadó

Szoftver újrafelhasználás

Megbízhatósági analízis

Szenzorhálózatok programfejlesztési kérdései. Orosz György

Digitális technika VIMIAA01 9. hét Fehér Béla BME MIT

Digitális technika VIMIAA01 9. hét

Szoftverminőségbiztosítás

30 MB INFORMATIKAI PROJEKTELLENŐR

Nagy bonyolultságú rendszerek fejlesztőeszközei

Digitális eszközök típusai

Szárazföldi autonóm mobil robotok vezérlőrendszerének kialakítási lehetőségei. Kucsera Péter ZMNE Doktorandusz

Szoftver értékelés és karbantartás

IBM felhő menedzsment

Intelligens biztonsági megoldások. Távfelügyelet

8.3. AZ ASIC TESZTELÉSE

Multi-20 modul. Felhasználói dokumentáció 1.1. Készítette: Parrag László. Jóváhagyta: Rubin Informatikai Zrt.

Új kompakt X20 vezérlő integrált I/O pontokkal

Neurális hálózatok bemutató

Az IEC PRP & HSR protokollok használata IEC61850 kommunikációjú védelmi automatika hálózatokban

TANMENET 2018/2019. tanév

Optimalizáció ESX-től View-ig. Pintér Kornél ügyfélszolgála3 mérnök

Magic xpi 4.0 vadonatúj Architektúrája Gigaspaces alapokon

Élettartam teszteknél alkalmazott programstruktúra egy váltóvezérlő példáján keresztül

Új generációs informatikai és kommunikációs megoldások ANMS. távközlési hálózatok informatikai hálózatok kutatás és fejlesztés gazdaságos üzemeltetés

TxBlock-USB Érzékelőfejbe építhető hőmérséklet távadó

Elosztott rendszerek. Az elıadás. Az elosztott rendszer definíciója. Köztesrétegként felépülı elosztott rendszer

NAGY TELJESÍTM. Szerzők Dévai. István Automatizálási. és s Alkalmazott Informatikai Tanszék

A hálózattervezés alapvető ismeretei

Szoftverminőségbiztosítás

SZOFTVER-MINŐSÉGBIZTOSÍTÁS BIZTONSÁGKRITIKUS RENDSZEREK. Széchenyi István Egyetem. Alapfogalmak

Az informatikai katasztrófa elhárítás menete

Felhők teljesítményelemzése felhő alapokon

Foglalkozási napló a 20 /20. tanévre

Az iskolai rendszerű képzésben az összefüggő szakmai gyakorlat időtartama. 10. évfolyam Adatbázis- és szoftverfejlesztés gyakorlat 50 óra

Mikrorendszerek tervezése

Párhuzamos programozási platformok

Az MTA Cloud a tudományos alkalmazások támogatására. Kacsuk Péter MTA SZTAKI

Norway Grants. Az akkumulátor mikromenedzsment szabályozás - BMMR - fejlesztés technológiai és műszaki újdonságai. Kakuk Zoltán, Vision 95 Kft.

Autóipari beágyazott rendszerek. Integrált és szétcsatolt rendszerek

Operációs Rendszerek II.

Programrendszerek tanúsítása szoftverminőség mérése

Hibadetektáló rendszer légtechnikai berendezések számára

Tesztelési szintek Tesztautomatizálás

Számítógép architektúrák záróvizsga-kérdések február

Jogi Behajtási Keretrendszer és moduljai üzemeltetése

Párhuzamos programozási platformok

Hálózati operációs rendszerek II.

Orvosi készülékekben használható modern fejlesztési technológiák lehetőségeinek vizsgálata

(kernel3d vizualizáció: kernel245_graph.mpg)

IV.3. MODELL-ALAPÚ MÓDSZER KIDOLGOZÁSA IT INFRASTRUKTÚRÁK ROBOSZTUSSÁGÁNAK ELEMZÉSÉHEZ KOCSIS-MAGYAR MELINDA

Alagútmérés, automatikus mérésfeldolgozás Robot mérőállomás programozás RTS (Robotic Total Station)

Intervenciós röntgen berendezés teljesítményszabályozójának automatizált tesztelése

Átírás:

Hibatűrés Majzik István Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Tanszék http://www.mit.bme.hu/ 1

Hibatűrés különféle hibák esetén Hardver tervezési hibák (< 1%): Tipikusan nem számítanak rá (jól tesztelt komponensek) Eltérő tervezésű hardver lenne szükséges Hardver állandósult működési hibák (~10%): Hardver redundancia (pl. tartalék processzor) Hardver időleges működési hibák (~70-80%): Szoftver redundancia (pl. állapotmentés és helyreállítás) Idő redundancia (pl. utasítás újravégrehajtás) Információ redundancia (pl. hibajavító kódolás) Szoftver tervezési hibák (~20-30%): Szoftver redundancia (pl. eltérő tervezésű modulok) 2

Hibatűrés állandósult hardver hibák esetén 3

Hardver redundancia Többszörözés: Kettőzés: Hibadetektáló & diag. egység Hibadetektálás összehasonlítással Normál modul Hibatűrés: Diagnosztikai támogatás és átkapcsolás Bemenet Tartalék modul Átkapcsoló egység Kimenet TMR: Triple-modular redundancy Hiba maszkolása többségi szavazással Szavazó kritikus elem (de egyszerű) Bemenet 1. modul 2. modul Szavazó egység Kimenet NMR: N-modular redundancy 3. modul Hiba maszkolása többségi szavazással Missziós idő túlélése nagyobb esélyű, utána javítás jöhet Repülőgép fedélzeti eszközök: 4MR, 5MR (Többségi szavazás) 4

A redundancia szintje Eszköz (szerver) szint: Lazán csatolt Nagy rendelkezésre állású szerver fürtök (feladatátvételi fürtök) pl. HA Linux Szoftver támogatás: állapotszinkronizálás, feladatátvétel Kártya szint: Futásidőbeli átkonfigurálás hot-swap pl. compactpci, HDD Szoftver támogatás: konfigurációkezelés Alkatrész szint: Szorosan csatolt Alkatrész szintű többszörözés pl. TMR, önellenőrző áramkörök 5

Példa: Eszköz szintű redundancia Internet Firewall Pri. DNS Kliensek ISP 1. Web DC1 ISP 2. Firewall Sec. DNS DC2 7

Példa: Kártya szintű redundancia Duplikált processzor Hibajavító kódolás RAID konfiguráció CPU1 CPU2 MEM ECC D1 D2 Kettőzött busz, paritás Monitor PS1 PS2 I/O I/O Monitorprocesszor Kettőzött tápegység Kettőzött I/O alrendszer 8

Példa: RAID Tükrözött diszkek Hibajavító kódolás Azonosítható a hibás diszk: Paritás elég a javításhoz Konkurens hozzáférés a blokkokhoz Paritásdiszk sem szűk keresztmetszet 10

Példa: További RAID konfigurációk RAID-6 Kétféle elosztott paritás Két diszk kiesése is tolerálható Helyreállítás alatt is van redundancia RAID 0+1 Kombinált: Teljesítmény és hibatűrés ötvözése Diszkek összefűzve (RAID-0), majd ez tükrözve (RAID-1) Egy hiba esetén a tükrözés megszűnik RAID 1+0 Diszkek tükrözve (RAID-1), majd ez összefűzve (RAID-0) RAID 5+0 RAID-5 összefűzve RAID 5+1 RAID-5 tükrözve 11

Hibatűrés időleges hardver hibák esetén 12

Időleges hardver hibák kezelése Megoldás: Szoftver alapú Ismételt végrehajtás esetén a hiba nem jelentkezik Hibahatások kiküszöbölése a fontos A hiba kezelhető hibamentes állapot beállításával (és ismételt végrehajtással) Feladatok (fázisok): 1. Hibadetektálás 2. Hibahatás felmérése 3. Helyreállítás 4. Hibaok (meghibásodás) kezelése 13

1. Hibadetektálás Alkalmazásfüggetlen mechanizmus: Pl. processzor, MMU, operációs rendszer szintjén Illegális utasítás Védelmi szintek, jogosultságok (pl. memória hozzáférés) Alkalmazásfüggő, ad-hoc módszer: Időzítések ellenőrzése Hihetőségvizsgálat Visszahelyettesítés (algoritmus) Struktúra ellenőrzés Diagnosztikai ellenőrzés 14

Indításkor: Részletes öntesztelés Példa: SAFEDMI Processzor ( core utasítások alapján) + watchdog timer Memória: teszt algoritmusok Működés közben: Periodikus tesztelés Kisebb erőforrásigényű technikákkal On-line ellenőrzések: Kommunikáció, konfigurálás: Hibadetektáló kódolás, adatok elfogadhatósági ellenőrzése Vezérlési funkciók: Vezérlési gráf ellenőrzése (jelzőszámok) Intenzív adatfeldolgozás: Duplikált végrehajtás és összehasonlítás 15

Hibamentes cella: Példa: Memória tesztelése Le/összeragadás tesztjéhez: Leragadási hibák: Tranzíciós hibák: March algoritmusok: 16

Példa: Szoftver önellenőrzés Végrehajtási útvonalak ellenőrzése Referencia: Vezérlési gráf alapján Forráskód: Vezérlési gráf: a: for (i=0; i<max; i++) { b: if (i==a) { c: n=n-i; } else { d: m=m-i; } e: printf( %d\n,n); } f: printf( Ready. ) c a b e f d 17

Példa: Szoftver önellenőrzés Végrehajtási útvonalak ellenőrzése Referencia: Vezérlési gráf alapján Aktuális futás: Jelzőszámok alapján ellenőrizhető Forráskód: Vezérlési gráf: a: S(a); for (i=0; i<max; i++) { b: S(b); if (i==a) { c: S(c); n=n-i; } else { d: S(d); m=m-i; } e: S(e); printf( %d\n,n); } f: S(f); printf( Ready. ) c a b e f d 18

Járulékos feladatok Keretrendszer hibadetektáláshoz (monitorozáshoz) Alkalmazásfüggő technikák beillesztése Detektálás ütemezése Hibajelzések kiadása Ismételt hibajelzések kiszűrése Függőségek kezelése (root cause analysis) Naplózás Megszűnő hiba jelzése Hozzáférés hibajelzésekhez Nézetek, szerepek Nyugtázás 19

2. Hibahatások felmérése (kárfelmérés) Hibadetektálás késleltetési ideje alatt a hiba terjed Pl. elosztott rendszer komponensei között, processzek között meghibásodás terjedés! hibadetektálás Hibaterjedés behatárolása Interface (kimeneti, bemeneti) ellenőrzés Erőforrásokhoz való hozzáférés korlátozása Atomi jellegű műveletek kialakítása Hibaterjedés felmérése: interakciók követése Interakciók naplózása Diagnosztikai ellenőrzések 20

Egyszerű technikák: 3. Helyreállítás Retry, restart, reboot; meleg reset, hideg reset; frame boundary Összetett technikák: Előrelépő helyreállítás: Hibamentes állapot beállítása szelektív korrekcióval A korrekció a detektált hiba és a hibahatás függvénye Előre figyelembe vett hibák esetén alkalmazható Visszalépő helyreállítás: Korábbi hibamentes állapot beállítása Hibától függetlenül megvalósítható Állapotmentés és visszaállítás szükséges minden komponensre Kompenzáció: Többlet információ alapján a hibahatás kompenzálható 21

Hibadetektálás Ábrázolás a rendszer állapotterében: v2 hiba bekövetkezése! hibadetektálás s(t) v1 állapotváltozó 22

Visszalépő helyreállítás Ábrázolás a rendszer állapotterében: v2! s(t) visszalépés állapotmentés v1 állapotváltozó 23

Előrelépő helyreállítás Ábrázolás a rendszer állapotterében: v2 e3! e1 e2 s(t) előrelépés v1 állapotváltozó 24

Kompenzáció Ábrázolás a rendszer állapotterében: v2! s(t) kompenzáció v1 állapotváltozó 25

A helyreállítási lehetőségek áttekintése Ábrázolás a rendszer állapotterében: v2 e3! e1 e2 s(t) visszalépés előrelépés kompenzáció állapotmentés v1 állapotváltozó 26

Visszalépő helyreállítás Állapotmentés alapján Checkpoint: állapotmentés (időpontja) Műveletek: Állapotmentés: időközönként, üzenetek után Visszaállítás: mentésből visszatöltés Eldobás: adott számú checkpoint mentése után Feltételezett hiba: időleges hardver hiba Pl: autosave Műveletek visszavonása alapján Műveletek naplózása szükséges Feltételezett hiba: a téves vagy szándékolatlan művelet Pl. többszintű undo Kombinált módszer 27

Visszalépő helyreállítás forgatókönyvei t! t! t! t 28

Checkpoint tartományok a1 b1 c1 a2 b2 c2! t Optimalizálás szempontjai: Korlátos méretű tár az állapotmentéshez Visszalépéssel újra elvégzendő (elvesztett) számítások Hibadetektálás lappangási ideje 29

Helyreállítás elosztott rendszerekben Üzenetek metszik a helyreállított állapotok által kijelölt vágatot: P1 t P1 t P2 t P2 t Függő üzenet: Előtte elküldött Utána feldolgozott Inkonzisztens üzenet: Utána elküldött Előtte feldolgozott 30

Állapotmentések visszalépő helyreállításhoz CPU Memória Diszk Külső tár Távoli memória RAID, NAS Stabil tár Távoli stabil tár Jellegzetes használati esetek: Hosszú számítási idejű alkalmazások Tudományos számítások, folyamatos működésű alkalmazások Commodity computing : Skálázhatóság olcsó hardverekkel Adat analízis alkalmazások: Pl. Google: Átlagban 5 számítógép kiesése egy-egy Map-Reduce job végrehajtása alatt Nagyméretű infrastruktúrák: 4000 számítógépből álló hálózat: 6 óránként egy-egy diszk kiesése 31

Elvárt tulajdonságok Stabil tár koncepciója Perzisztens Atomi hozzáférésű Autonóm működésű Hibajavítást alkalmazó Információrejtést alkalmazó Többféle megvalósítás lehetséges 32

Kihívások visszalépő helyreállítás esetén Komponensek visszaléptethetősége Pl. CPU állapot mentése és visszatöltése Determinisztikus működés Környezettel való együttműködés kezelése Bemenet: naplózás Kimenet: késleltetés vagy ellensúlyozás Megbízhatóság és helyreállítási garancia Hibadetektálás hibafedésének növelése, késleltetési idejének csökkentése Mentés helyének megbízhatósága (replikák) Hatékonyság növelése Konkurens állapotmentés Másolatok használata (shadow update, recovery cache) Többszintű állapotmentés ( soft és hard checkpoint) 33

Alapelv: Többszintű állapotmentés Gyakori mentés gyors memóriába (memória chkpt.) Ritka mentés perzisztens tárba (stabil tár) Detektált hiba Helyreállítás próba Helyreállítás memória chkpt-ból n Sikeres helyreállítás? i Helyreállítás stabil tárból Memória chkpt. másolása stabil tárba OK i Sikeres helyreállítás? n Hibajelzés OK 34

Mentések hatékonysága Itt a hatékonyság: referencia (hibamentes) futási idő hibakezeléssel mért futási idő V=90% vonal: A hibadetektálás 99% hibafedése esetén 90%-os bizalom az eredmények helyességében a vonal feletti területen 99% hibafedésű hibadetektálás van Újra és újra futtatás, míg ugyanaz az eredmény ki nem jön 35

Példák visszalépő helyreállítás megvalósítására (ld. gyakorlat) Felhasználói állapotmentés C nyelvű, alacsony szintű megoldással Állapotmentés az SA Forum köztesrétegben (HA middleware), C nyelvű implementáció Állapotok (objektumok) mentése J2SE alkalmazásokban Állapotmentés és helyreállítás adatbáziskezelő rendszerekben 36

4. Meghibásodás (hibaok) kezelése Időleges hibák: Előre- vagy visszalépő helyreállítás elég Állandósult hibák: Helyreállítás nem lesz sikeres (újra detektált hiba) Ez egy mechanizmus lehet az állandósult hiba felismerésére Hiba lokalizálás (diagnosztika) után beavatkozás kell: Újrakonfigurálás: Hibás komponens feladatainak átvétele Javítás, csere Graceful degradation: Csökkentett funkcionalitású működés, de a kritikus funkciókat megtartva 37

Példa: SAFEDMI hibakezelése Működési módok: Startup, Normal, Configuration Hibadetektálás esetén: Tranziens hiba feltételezése Visszalépés Startup állapotba és részletes önteszt Állandósult hiba lehetőségének kezelése: Visszalépés Suspect állapoton keresztül: Hibaszámlálás (adott idő alatt korlátozott számú visszalépés megengedett) A hibaszám túllépése esetén Safe állapotba lépés (leállítás) 38

Hibatűrés szoftver tervezési hibák esetén 39

Szoftver tervezési hibák Ismételt végrehajtás nem segít (állandósult a hiba) Redundáns modulok: Eltérő tervezés szükséges Variánsok: azonos specifikáció, de eltérő algoritmus és/vagy adatstruktúrák (diverzitás) más fejlesztési környezet, programnyelv elszigetelt fejlesztés az azonos hibák bekövetkezésének csökkentésére Variánsok végrehajtásának technikái: N-verziós programozás (NVP: N-version programming) Javító blokkok (RB: Recovery block) N-önellenőrző programozás (NSCP: N-self-checking programming) Önkonfiguráló optimista programozás (SCOP: Self-configuring optimistic programming) 40

1. N-verziós programozás (NVP) Aktív statikus redundancia: Minden variáns végrehajtása (tipikusan párhuzamosan) Ugyanazon bemenetek Többségi szavazás Elfogadható értéktartományt kell megadni a kimenetekre Szavazó egyszeres hibapont (SPOF), de egyszerű Kritikus komponens: Szavazó és a futtató környezet Variáns1 Bemenet Variáns2 Szavazó Kimenet Variáns3 Hibajelzés 41

2. Javító blokkok (RB) Passzív redundancia: Csak hiba esetén aktiválódik Variánsok kimenetének elfogadhatósági ellenőrzése Hiba esetén tartalék variáns (soros) végrehajtása Bemenet Állapotmentés Variáns végrehajtása Állapot visszaállítás i Elfogadhatósági ellenőrzés n n Van-e még variáns? i Kimenet Hibajelzés 42

Összehasonlítás Tulajdonság/típus N-verziós prg. Javító blokkok Ellenőrzés Szavazás, Elfogadhatóság relatív abszolút Végrehajtás Párhuzamos Soros Időigény Leglassabb variáns (vagy time-out) Hibák számától függő Redundancia Mindig Csak hiba esetén Tolerált hibák [N/2-1] N-1 Hibakezelés Maszkolás Helyreállítás 43

3. N-önellenőrző programozás (NSCP) Aktív dinamikus redundancia: N számú önellenőrző komponens Hibadetektálás esetén átkapcsolás az elsődlegesről a (következő) önellenőrző tartalékra Jellegzetes példa: Airbus A-320 fedélzeti számítógép Páronként önellenőrző végrehajtás (szoftver variánsok) Elsődleges pár működik, átkapcsolás hiba esetén Állandósult hardver hiba: Ismételten hibázó pár lekapcsol V1 V2 V3 V4 H H H H 44

4. Önkonfiguráló optimista programozás (SCOP) Adaptív redundancia: Csak a szükséges számú variáns Paraméterek: Hány variáns egyetértése (azonos kimenet) szükséges: a Hány variáns van: n Mennyi idő áll rendelkezésre: t Iteratív végrehajtás 1. Kezdetben a minimális számú (várhatóan egyetértő) variáns végrehajtása: a számú variáns 2. Kimenetek ellenőrzése komparálással: k egyezik Ha k=a, akkor kilépés: OK Ha k<a, akkor (optimista módon) a-k újabb variáns végrehajtása az egyetértés eléréséhez, és folytatás a 2. lépéssel Kilépés hibajelzéssel: Ha nincs több végrehajtható variáns, vagy letelt a t idő 45

Adat diverzitás Alapötlet: Azonos feldolgozási algoritmus, de eltérő adatszerkezetű variánsok (implementáció ezért némileg eltérő) Pl. vektor vagy láncolt lista Pl. más adatbázis kezelő, más lekérdezési mód Másolatok (replikák): Azonos szoftver komponensek, de eltérő állapotok lehetnek Pl. numerikus eltérések, más adatbázis példányok Végrehajtási módok: Újrapróbáló blokk (retry block): Javító blokkok analógiája: Passzív redundancia szerinti végrehajtás N másolat (N-copy programming): NVP analógiája: Aktív redundancia szerinti (párhuzamos) végrehajtás 46

RB/1/1 Hibrid architektúrák (áttekintés) Elfogadhatósági teszt után komparálás Diagnosztikai ellenőrzés után a hibás lekapcsol RB/2/1 Elfogadhatósági teszt után szavazás Ismételten eltérő lekapcsol (RB/1/1 lesz) NVP/1/1 Variánsok közötti szavazás Ismételten eltérő lekapcsol (komparálás marad) NVP/2/1 4 variáns esetén szavazás Típus / tolerált hardver működési hibák / tolerált szoftver tervezési hibák (maximális) száma Ismételten eltérő lekapcsol, újrakonfigurálás után NVP/1/1 lesz 47

Hibrid architektúrák 1. V1 V2 D RB/1/1 V1 V2 D RB/2/1 V1 V1 V1 V2 V2 V2 D D D = RB/1/1 Elfogadhatósági ellenőrzés után komparálás Diagnosztikai ellenőrzés után a hibás hardver lekapcsol RB/2/1 Elfogadhatósági ellenőrzés után szavazás Ismételten eltérő lekapcsol (RB/1/1 marad) 48

Hibrid architektúrák 2. NVP/1/1 NVP/2/1 V1 V2 V3 V1 V1 V1 D V2 V2 D V2 D D D D D V3 V3 NVP/1/1 Variánsok közötti szavazás Ismételten eltérő lekapcsol (komparálás marad) NVP/2/1 4 variáns esetén szavazás Ismételten eltérő lekapcsol (NVP/1/1 konfigurálható) 49

Összefoglalás 50

Hibatűrési technikák összehasonlítása Térbeli redundancia (%) TMR N-verziós programozás Javító blokkok 100 Kettőzés 10 Hibajavító kódolás Állapotmentés és helyreállítás Elosztott állapotmentés és helyreállítás Újrapróbálás Újratöltés Újraindítás 0.001 0.1 10 1000 Időbeli redundancia (s) 51

IEC 61508: Functional safety in electrical / electronic / programmable electronic safety-related systems Szoftver architektúra tervezés Szabvány szerinti módszerek 52

Hibatűrés verifikációja Meghibásodás (hiba) előidézése: Hibainjektálás Modell alapon (tervezés közben): Ellenőrzés szimulációval, modellellenőrzéssel Prototípus esetén (tesztelés, robusztusság tesztelés): Hardver hibainjektálás: Meghibásodás (hibaok) létrehozása: pl. busz jelek befolyásolása, tápfeszültség tüske előidézése, nehézion-besugárzás, hőterhelés Hardverfüggő, lassú, drága Szoftver hibainjektálás: Hibaállapot létrehozása (rendszerállapot megváltoztatása): pl. regiszterek, memóriabitek átállítása Szoftver tervezési hiba bevitele kód mutációval Rugalmas, gyors, olcsóbb Hibaoknak való megfelelés kérdéses Hibrid hibainjektálás Szoftver és hardver megoldások ötvözése 53

Hibainjektáló eszközök (példák) Modell alapú injektálás: VHDL, HDL szint: FOCUS, MEFISTO Komponens szint (CPU, diszk, memória): DEPEND Hardver hibainjektálás: Közvetlen hozzáférés jelekhez: RIFLE, GOOFI Besugárzás (nehéz-ion, neutron), hőkamra Szoftver hibainjektálás: Hardver hibaok hatásának szoftver emulációja: FIAT, FERRARI, FTAPE Alacsony szintű emuláció: DOCTOR, Xception Kód mutációs eszközök: FINE, DEFINE, G-SWFIT Protokoll rétegek hibái: ORCHESTRA, Neko, WS-FIT 54

Ár, valósághűség A hibainjektálás absztrakciós szintjei (hardver) Hibaszimuláció a forráskódban vagy modell szinten a fejlesztőeszközben Regisztertartalom módosítása, memóriakép felülírása Síneken haladó vagy áramkörök lábán megjelenő jelek módosítása Radioaktív sugárzás, ioninjektálás, tápfeszültség zavarása, hőmérséklet 55

Összefoglalás: Hibatűrés technikái 1. Állandósult hardver hibák Hardver redundancia: többszörözés 3. Időleges hardver hibák Információ redundancia: Pl. hibajavító kódolás Idő redundancia: Pl. utasítás ismétlés Szoftver alapú hibatűrés 1. Hibadetektálás 2. Hibahatás felmérés 3. Helyreállítás: visszalépő, előrelépő, kompenzáció 4. Hibaok kezelése 2. Szoftver tervezési hibák Eltérő tervezésű variánsok: Pl. NVP, RB, NSCP, SCOP 56