BME VIK TMIT. Digitális archiválás



Hasonló dokumentumok
Kiss Gergő, Kovács László, Micsik András, Moldován István

A Videotorium aggregációs szolgáltatásának kialakítása szabványos eszközökkel (OAI-PMH)

Az egységes tartalomkezelés üzleti előnyei

Adatbázis rendszerek Gy: Az adattárolás fejlődése

Enterprise extended Output Management. exom - Greendoc Systems Kft. 1

DIGITALIZÁLÁSI STRATÉGIÁJA

ELEKTRONIKUS DOKUMENTUMTÁROLÁSI SZOLGÁLTATÁS (EDT)

INFORMATIKA EGYRE NAGYOBB SZEREPE A KÖNYVELÉSBEN

Elektronikus számlázás. Czöndör Szabolcs

Elosztott könyvtári rendszerek megvalósítása a Z39.50 és az OAI protokoll használatával

Hogyan növelje kritikus üzleti alkalmazásainak teljesítményét?

MTA Könyvtára, MTA K TM Csillagászati Kutatóintézete. Debreceni Egyetem Egyetemi és Nemzeti Könyvtár. KFKI Rendszerintegrációs Zrt

Óbudai Egyetem Neumann János Informatikai Kar. Tóth Béla 2015.

2023 ban visszakeresné 2002 es leveleit? l Barracuda Message Archiver. Tóth Imre Kereskedelmi Igazgató Avisys Kft Barracuda Certified Diamond Partner

A KÖZÉPSZINTŰ ÉRETTSÉGI VIZSGA INFORMATIKA TÉMAKÖREI: 1. Információs társadalom

KÖVETKEZŐ GENERÁCIÓS NAGYVÁLLALATI TARTALOMKEZELŐ MEGOLDÁSOK Stratis Kft. / Autonomy üzleti reggeli / Mezei Ferenc üzletág-igazgató

Számítógépes munkakörnyezet II. Szoftver

IBM felhő menedzsment

e-folyóirat, e-könyv, e-könyvtár

Verziószám: 2.0. Kiadás időpontja: Érvényes alkalmazás: MÁSOLATKÉSZÍTÉSI REND

System i. 6. változat 1. kiadás

A hitelezési folyamatok hatékonyságának növelése - Autonomy alapú iratkezelés. Szűcs István HP Informatikai Kft. E-banking konferencia 2014 március 6.

Arconsult Kft. (1)

Microsoft SQL Server telepítése

Adatbázis rendszerek. dr. Siki Zoltán

Oracle9i Alkalmazás Szerver Üzleti folyamat integráció. Molnár Balázs Vezető értékesítési konzultáns Oracle Hungary

Elektronikus szövegek és adatok szolgáltatás és megőrzés

CCS Hungary, 2000 szeptember. Handling rendszer technikai specifikáció

Cloud Security. Homo mensura november Sallai Gyorgy

Szolgáltatás és Minőségfejlesztés a Corvinus Egyetemen Kiss György János Mogyorósi János

HITELES MÁSOLATKÉSZÍTÉSI REND

Felhőalkalmazások a. könyvvizsgálatban

Üzletmenet-folytonosság és katasztrófa helyzet kezelés (Honnan indultunk, miért változtunk, hova tartunk?)

Hálózati ismeretek. Az együttműködés szükségessége:

Non-stop hozzáférés az üzleti információkhoz bárhol, bármikor és bármilyen eszközzel

Beszámoló a 13. ECDL (European Conference on Digital Libraries) konferenciáról

vbar (Vemsoft banki BAR rendszer)

E-Számlázás az ECOD rendszeren belül. Horváth Péter, Senior Projekt Menedzser Synergon Retail Systems Kft.

Papír helyett elektronikus űrlap. Szabadság és interaktivitás az űrlapkezelésben

Telenor Magyarország Távközlési Zrt.

A J2EE fejlesztési si platform (application. model) 1.4 platform. Ficsor Lajos Általános Informatikai Tanszék Miskolci Egyetem

Informatika szóbeli vizsga témakörök

Rendszerkezelési útmutató

Web harvesztelés. Automatikus módszerekkel

13. óra op. rendszer ECDL alapok

Cloud computing. Cloud computing. Dr. Bakonyi Péter.

ÉRETTSÉGI TÉTELCÍMEK 2018 Informatika

Az INSPIRE előírásai szerinti hazai téradatok szolgáltatásának, forgalmazásának megoldandó kérdései. GIS OPEN konferencia

Fejlesztés, működtetés, felügyelet Hatékony infrastruktúra IBM szoftverekkel

Másolatkészítési szabályzat

GDPR az EU Általános Adatvédelmi Rendelete - minden vállalkozás életét érintő jogszabály -

Rendszermodernizációs lehetőségek a HANA-val Poszeidon. Groma István PhD SDA DMS Zrt.

Bevezetés. Adatvédelmi célok

Oktatás és tanulás online környezetben

(appended picture) hát azért, mert a rendszerek sosem

ADATMENTÉSSEL KAPCSOLATOS 7 LEGNAGYOBB HIBA

30 MB INFORMATIKAI PROJEKTELLENŐR

Szolgáltatás Orientált Architektúra és több felhasználós adatbázis használata OKF keretein belül. Beke Dániel

1. Szolgáltatásaink. Adatok feltöltése és elemzése. Digitális feltöltés. Analóg korong feltöltés

PhD dolgozatok repozitóriumi elhelyezése, DOI azonosítóval való megjelölése

Az ATON szakfolyóirat indítása

Üzletmenet folytonosság menedzsment [BCM]

A Békés Megyei Könyvtár Elektronikus Könyvtárának kialakítása

Elektronikus számlázás Gyakran Ismétlődő Kérdések

KnowledgeTree dokumentumkezelő rendszer

Cloud computing Dr. Bakonyi Péter.

A logisztikai légörvények áthidalása hang és kép másként

API tervezése mobil környezetbe. gyakorlat

Kérdés Kép Válasz HIBAS Válasz HELYES Válasz HIBAS Válasz HIBAS Kérdés Kép Válasz HIBAS Válasz HELYES Válasz HIBAS Válasz HIBAS Kérdés Kép Válasz

Backup/archive rendszerek

Hiteles Elektronikus Archívum

JAVA webes alkalmazások

Szoftverminőségbiztosítás

A USER Kft - mint Open Text partner - bemutatása

Folyamatok rugalmas irányítása. FourCorm Kft.

Tudásalapú információ-kereső rendszerek elemzése és kifejlesztése

Storage optimalizálás egyetemi hálózatokban

hardver-szoftver integrált rendszer, amely Xwindow alapú terminálokat szervez egy hálózatba

DSD DSD. Egy országos méretű orvosi adatbázissal kapcsolatos informatikai kihívások. Kovács László Pataki Balázs Pataki Máté MTA SZTAKI DSD

CodeMeter - A Digitális Jogkezelő

Adatbázis-kezelő rendszerek. dr. Siki Zoltán

Hogyan tegyük közkinccsé az adatainkat

Felhőszámítástechnika (Cloud Computing) helye és szerepe az on-line világ folyamataiban. Dr. Élő Gábor Széchenyi István Egyetem ITOK 2013

A háttértárak a program- és adattárolás eszközei.

Informatika 10. évf.

SQL Server High Availability

Információs társadalom

A DALNET24 projekt aktualitásai

Best Practices for TrusBest Practices for Trusted Digital Repositories in HOPE. ted Digital Repositories in HOPE.

Alternatív zártláncú tartalomtovábbítás értékesítőhelyek számára

Vonalkód olvasó rendszer. Specifikáció Vonalkód olvasó rendszer SoftMaster Kft. [1]

Symantec Backup Exec 11d SAN shared backup howto

Szolgáltatási szint megállapodás

Web-fejlesztés NGM_IN002_1

ELOSZTOTT DIGITÁLIS KÖNYVTÁRI PROJEKT EURÓPÁBAN

Számítógép felépítése

Web Services. (webszolgáltatások): egy osztott alkalmazásfejlesztési plattform

AZ ORSZÁGOS SZÉCHÉNYI KÖNYVTÁR DIGITALIZÁLÁSI TEVÉKENYSÉGE


REAL az MTA Könyvtárának repozitóriuma

Átírás:

Digitális archiválás

Motiváció A világ legsúlyosabb adatvesztései: 30-40 ezer (korábban 150 ezerre becsült) gmail felhasználó vesztette el átmenetileg a leveleit 2011 február végén 46 ezer brit ügyfél: Zurich Insurance gondatlansága folytán közúti szállítás közben eltűnt egy, az adatokat titkosítatlanul tároló mágnesszalag 2008-ban. 25 millió: 2007-ben brit kormány elvesztette 25 millió ember, a népesség felének adatait (név, szül. dátum, bankszámlaszám, tb. azonosító) egy adathordozón. 50 millió: 2007-ben 50 millió japán nyugdíjas adata tűnt el egy társ. biztosító hanyag könyvelési gyakorlata miatt, a kormányfő lemondott. 92 millió: ennyi e-mail üzenetet oroztak el az American Online-tól 2004-ben.

Adatok keletkezése Kutatók becslése szerint a világ információfogyasztása meghaladta az évi 9,57 zettabájtot. A kutatók szerint a szervereken áramló adatmennyiség kétévente duplázódik.

Várható adatforgalom

Adatok eloszlása

Adatok csoportosítása relevanciájuk szerint Vállalati környezetben az alábbi kategóriákat különböztetik meg: Érvényes adatok: az üzletmenet szempontjából fontos adatok, ezeket védeni, hozzáférhetőségüket biztosítani kell. Rendszerfájlok: nem nyúlnak hozzájuk. Beragadt, árva adatok: már nem érvényes adatok, de még szükség lehet rájuk, ezért archiválásuk fontos, ezt követően a produkciós rendszerből törlendőek. Redundáns alkalmazás adatok, log fájlok, dump fájlok, átmeneti fájlok: periodikus tisztításuk szükséges. Duplikált adatok: a redundáns adatokat törölni, az egyetlen megmaradt példányt pedig meg kell osztani, hozzáférhetővé kell tenni. Nem üzleti fájlok: törlésük szükséges, ezzel tárterület szabadítható fel.

Adatok életciklusa Rekordok esetén az adatok életciklusa: Létrehozás vagy beérkezés: az adat megjelenése a vállalati adattárolásban. Ez történhet azáltal, hogy egy belső dolgozó létrehozza az adott tartalmat, de az adat forrása lehet akár egy iktatásra kerülő nyomtatvány vagy egy beérkező e-mail is. Elosztás, terjesztés: az adat vállalaton belüli kezelése, az illetékesek számára hozzáférhetővé tétele. Használat: például üzleti döntések meghozatalakor, további tartalmak létrehozásához, vagy bármilyen más funkcióban. Gondozás: szükség esetén a tartalom frissítése, az adat vállalati előírásoknak megfelelő iktatása, a hozzáférési jogosultságok szabályozása, stb. Eltávolítás, megszüntetés: az adatok többnyire nem kerülnek valóban megsemmisítésre, de az elérhetőségük megszűnik, kikerülnek a produkciós környezetből.

Az archiválás feladata Adatok felosztása a használat szempontjából: Aktív adatok: gyakran használt, a mindennapi üzletmenetben módosított állományok, például egy alkalmazás adatbázisa, vagy egy fejlesztés alatt álló szoftver forráskód raktára. Referencia adatok: publikált, azaz többé már nem módosított állományok, például e-mail-ek, jelentések. Passzív adatok: a produkciós környezetben nem jelenlévő, nem használt, de archívumokból előkereshető tartalmak. Az archiválás feladata, hogy az üzletmenethez szükséges adatok nem reguláris körülmények között is hozzáférhetőek legyenek, illetve, hogy a produkciós környezetből kikerült tartalmak is szükség esetén elérhetők maradjanak.

Archiválási média lehetőségek merevlemez mágnesszalag optikai lemez szilárdtest memória (Solid State Device)

A merevlemez előretörése Régen az új adatok merevlemezre kerültek, és archiváláskor kerültek át szalagos tárolóra. A merevlemezek kapacitásának exponenciális növekedésével és az áruk zuhanásával lehetségessé vált, hogy az archivált tartalom is HDD-n legyen elérhető. Egy HDD tányérra jutó adatmennyiség egyre nő. Merevlemezek változása: Párhuzamosság. (SCSI, SATA) Egyes technológiák (pl. RAID) a hardver redundancia rendszerbe illesztésével hibatűrést biztosítanak. Egy MByte ára, lemez illetve rendszer szinten egyre csökken.

Mágnesszalag Olcsó tárkapacitás (kazetták fajlagos ára jóval kedvezőbb volt) Könnyű szállíthatóság Évtizedekben mérhető adatmegőrzési idő LTO Ultrium (2007-es) szabványa 800 GigaByte-os kazettákat és 120 MegaByte/s-os átviteli sebességet ír elő. Az átlagos pozícionálási idő 75 mp. PL. az IBM TS 3500-as szalagkönyvtár-rendszere akár 10 PetaByte adatot is képes tárolni

Optikai lemez Fő előny: olcsó Elterjedt: szériatartozéknak minősül valamennyi újonnan eladott PC-ben CD/DVD Blu-ray, HD DVD

Szilárdtest memória (Solid State Device) flash memória PC-k hagyományos merevlemezként ismerik fel Nem tartalmaznak mozgó alkatrészt, így energiafelvételük alacsonyabb. Rázkódásból adódó fizikai igénybevételt is sokkal jobban állják. Gyors az adatelérési sebességük, hiszen közvetlen elérésű memóriát tartalmaznak. Mobil számítógépek piacán versenyképesek.

Távoli mentési szolgáltatás Lényege, hogy szélessávú internet-kapcsolat segítségével egy távoli helyszínre másolhatóak a replikálni kívánt adatok. Költség megtakarítás a hardver beszerzés és üzemeltetés kiiktatásával. Másik előnye, hogy ha a vállalat telephelyét bármilyen katasztrófa éri, a mentett adatok biztonságban vannak. Hátrány: a bizalmas adatok harmadik fél kezébe kerülhetnek és a sávszélesség is korlátozó tényező. Mentési stratégiák

Másolatok biztonsága és hozzáférhetősége On-line Near-line Off-line Off-site vault Disaster Recovery Site

On-line hozzáférhetőség A rendszerhez szorosan csatolt, folyamatosan működő tárolók használata. A visszaállítás késedelem nélkül megkezdhető. Pl. az archiválásra használt belső merevlemezek. Tipikus példák továbbá a SAN és a NAS rendszerek. SAN (Storage Area Network) egy olyan architektúra, ahol távoli tároló eszközöket (pl. merevlemez tömböket, szalagkönyvtárakat) úgy csatlakoztatnak szerverekhez, hogy a szerverek azokat lokálisan csatoltnak lássák. NAS azaz Network-Attached Storage ezzel szemben inkább úgy viselkedik, mint egy hagyományos fájlszerver. Az on-line rendszerek használata gyors és kényelmes. Hátrányuk, hogy drágák és veszélyeztetettek a véletlen vagy szándékos törlésektől (vírus), felülírásoktól.

Near-line hozzáférhetőség A near-line rendszerek elnevezése a near-online, azaz majdnem on-line szavak összevonásából született. Azokat az architektúrákat nevezi így, melyek nem teljesítik az on-line rendszerek szigorú időzítési feltételeit, de emberi beavatkozás nélkül idővel hozzáférhetővé tudják tenni a kívánt tartalmakat. Pl. a szalagkönyvtárak, melyek saját nyilvántartásukból képesek kiválasztani a megfelelő kazettákat, és mechanikus robotkarjaik segítségével betölteni azokat.

Off-line hozzáférhetőség Az archivált adatokat tároló hordozó csak emberi közbeavatkozás segítségével érhető el. Gyakori megoldás például, hogy a mágnesszalagokat egy tűzálló széfben helyezik el. Tekintve, hogy a hordozó fizikailag hozzáférhetetlen a számítógép számára, ez a megoldás a korábbiaknál magasabb biztonsági szintet képvisel.

Off-site vault hozzáférhetőség Az elnevezés a vállalat telephelyétől távol eső helyszínen történő adathordozó tárolást fedi. Pl. a rendszeradminisztrátor a biztonsági mentéseket egy másik telephelyen őrzi, de akár egy külön erre a célra kialakított, katasztrófa védett, temperált bunkerben történő elhelyezést is jelenthet.

Disaster Recovery Site Egy katasztrófa bekövetkezése esetén a biztonsági mentések megléte önmagában nem biztosítja a rendszer helyreállításához szükséges feltételeket. Ehhez elengedhetetlen a megfelelő hardver park és jól konfigurált hálózat rendelkezésre állása. Természetesen ez a redundancia nagyon komoly költségeket ró az ezt igénylő vállalatokra.

Az üzletmenet-folytonosság hét szintje

0 szint 0. szint: Nincs off-site másolat Katasztrófa esetén a helyreállítás korlátlan ideig eltarthat, sőt, az is előfordulhat, hogy a teljes helyreállítás soha nem következik be.

1. szint 1. szint: Off-site biztonsági másolat tárolás A vállalatok többnyire mágnesszalagos mentéseket használnak, és azokat a telephelyüktől távol tárolják. Attól függően, hogy az újabb másolatok létrehozására milyen gyakorisággal kerül sor, az adatvesztés mértéke több napos, akár hetes intervallumra is kiterjedhet.

2. szint 2. szint: Adatmegőrzés távoli meleg infrastruktúrával (hotsite) A biztonsági másolatok az első szinthez hasonlóan kerülnek tárolásra. Amennyiben az elsődleges telephelyet valamilyen katasztrófa sújtja, akkor egy másik helyszínen rendelkezésre álló számítógépes infrastruktúra szolgál hardver platformként a helyreállításhoz. Ehhez többnyire egy nap körüli időtartam szükséges.

3. szint 3. szint: Adatmegőrzés kritikus adatok hálózati replikálásával Az üzletmenet-folytonosság harmadik szintjén álló vállalatok a második szint infrastruktúráját egészítik ki a legkritikusabb adatok hálózati replikálásával. Az így replikált adatok többnyire frissebbek, mint amit a legutóbbi szalagos mentések tartalmaznak, ezzel az adatvesztés mértéke csökkenthető.

4. szint 4. szint: Adatmegőrzés periodikus hálózati replikálással Többnyire már merevlemezes alapokra építkeznek. Szélessávú hálózati kapcsolat segítségével másolatot készítenek a produkciós adatokról a távoli telephelyen található tárolókra. (gyakoribb frissítés) A mágnesszalagok csak kiegészítő védelmet biztosítanak. A reguláris üzletmenet egy napon belül helyreállítható.

5. szint 5. szint: Tranzakciós integritás Ez a megoldás az adatok tranzakciós integritását biztosítja, azaz a vállalat két telephelyét fürtözve csatolják, és a sikeresen lezajlott tranzakciók replikálódnak egymásra. Két telephely alkalmazásszintű fürtözése

6. szint 6. szint: Zéró adatvesztés Azon cégek számára, melyek nem engedhetik meg maguknak a legkisebb adtavesztést sem, az alkalmazásszintű fürtözés sem kielégítő. Az ilyen esetekben a valós idejű adat- vagy szervertükrözés jelenthet megoldást, melyet már nem csupán az alkalmazásoknak, hanem az operációs rendszernek is támogatnia kell. Visszaállítás néhány órán belül. Két telephelyes fürtözés

7. szint 7. szint: Magas fokon automatizált üzletfolytonosság A hetedik legmagasabb szintet megvalósító vállalatok a helyreállítás teljes automatizálásával egészítik ki a hatodik szint technológiáját. Az emberi közbeavatkozás szükségességének hiánya nagymértékben meggyorsítja a helyreállítást, így a rendes üzemmenet akár egy órán belül helyreállhat.

Rekord és rekordmenedzsment Rekord definíciója: egy szervezet vagy egy személy jogszerű kötelezettségének végrehajtása vagy egy üzleti tranzakció lebonyolítása során létrehozott, iktatott és karbantartott tényanyag. Hagyományosan rekord alatt papír alapú dokumentumokat értettek, de valójában bármilyen fizikai (pl. videókazetta, fénykép, mikrofilm) vagy elektronikus formában létezhetnek. Rekordok kezelése: Létrehozás Karbantartás Rendelkezés felettük (pl. archiválás)

Törvényi megfelelőség A rekordok egy folyamat valamely lépésének eredményei, melyek bizonyítékként szolgálnak az adott lépés végrehajtásáról. A bizonyíték jellegből fakad, hogy számtalan törvényi előírás szabályozza a szervezetek rekordmenedzsmenttel kapcsolatos tevékenységeit. Az ezeknek a törvényi előírásoknak történő megfelelést angol terminológiával compliance-nek nevezik. (rekordmenedzsmenttel foglalkozó termékek marketing anyagában gyakran fordul elő ez a fogalom)

DIRKS DIRKS (Design and Implementation of Recordkeeping Systems) módszertan az ISO szervezet 15489-es, rekord menedzsmenttel foglalkozó szabványára épül. A metodika nyolc fő lépésre osztja a rekordkezelő rendszerek tervezésének, implementálásának és értékelésének teljes folyamatát.

Digitális tartalmak megőrzése Az elavulófélben lévő hordozók tartalmát modern eszközökre kell átmenteni, a biztonságos adatmegőrzési idő leteltét megelőzően. Minden adatot lehetőleg többszörözve kell tárolni, hiszen ha egyetlen példány van csupán, akkor a hordozó bármilyen sérülése esetén a tartalom elveszik. Biztosítani kell a hordozó beolvasásához szükséges technológiát, így a hardvert és a hardver pontos specifikációját.

Digitális tartalmak megőrzése 2. Biztosítani kell a beolvasott tartalom értelmezéséhez szükséges eszközöket, így az adatformátum részletes leírását és az adott formátum feldolgozásához alkalmas szoftvert. Ha az adatformátum visszaszorulóban van, a tartalmat alkalmas, a technológia pillanatnyi állása szerint elterjedt formába kell konvertálni. Ezt migrációnak is nevezik. Amennyiben valamilyen speciális szoftverkomponens is része a rendszernek, szükség lehet a futtató hardverkörnyezetet emuláló szoftver kifejlesztésére az újabb rendszerekre.

NAVA - Nemzeti Audiovizuális Archívum Nemzetközi minták: INA, BBC, Sound and Vision, EBU (nemzetközi) magyar nemzeti műsorszolgáltatói kötelespéldány archívum gyűjteményéhez online hozzáférést biztosít NAVA-pontokon megtekinthetők Archiválási munkafolyamat a NAVA-ban: Digitalizálás Darabolás Szelekció Transzkódolás Feldolgozás, meta adatok írása

Internet archívumok Az Interneten fellelhető tartalmak archiválásával több szervezet is foglalkozik. Az archívum tervezési kérdéseinél felvetődő kérdések: Mely oldalakat érdemes archiválni? A szerzői jogokat hogyan lehet tiszteletben tartani az archiválás során? Hogyan lehet összegyűjteni a menteni kívánt tartalmakat? Milyen rendszerrel oldható meg a hatalmas adatmennyiség tárolása? Hogyan biztosítható az archívumhoz való hozzáférés? Hogyan lehet egy ilyen projektet finanszírozni? A legismertebb internetes archívum az Internet Archive: http://www.archive.org/index.php. Ezen az oldalon könnyedén elérhető a legtöbb honlap számos korábbi változata 1996-ig visszamenőleg.

Hosszú távú megőrzésre szolgáló dokumentum archiváló rendszer

Gyűjtés Gyűjtő alrendszer: dokumentumokat gyűjtünk azzal a céllal, hogy megőrizzük az utókornak - nem tudjuk mennyi ideig ( akármeddig) - nem tudjuk, kik lesznek a jövőbeli felhasználók (nem ismerjük a felhasználás módját)

MS Word page layout nézet

Formázott text nézet Key Technical Problems of Long-term Digital Archiving of Documents Dr. Gabor Magyar Budapest University of Technology and Economics Dept. of Telecommunications and Media Informatics Budapest, Hungary email: magyar@tmit.bme.hu Abstract The paper analysis the technical aspects of long-term archiving of digital documents, based on functionality and fundamental categories. The long-term archiving of digital documents is a very challenging task, because of policy, legal, intellectual property rights, metadata, semantic support and other issues. The variety and complexity of digital documents as IT objects brings up a basic question: does it necessary to preserve the variety and complexity of the original objects? (What is äoriginalö in the space of digital documents?) The answer in general ĺnoĺ, essential attributes of a document are preserved when the document is transformed to different platforms. There are many reasons to change the format of a document, crossing technological boundaries (eg. platforms, operating systems, applications). The paper uses the categories of physical, logical, and conceptual layers in order to define generic properties that are true of all digital documents. The paper overviews the basic requirements in all three layers of categories, than describes the typical relationships among the properties of any object at these three layers. This approach gives an overall framework for general preserving strategy managing technical obsolescence and semantic mutations.

Word file forrás \fs24\lang1038\langfe1038\cgrid\langnp1038\langfenp1038 {\b\fs32\insrsid15163865\charrsid15689867 Key Technical Problems of Long-term Digital Archiving of Documents \par }\pard \qc \li0\ri0\sb240\nowidctlpar\faauto\rin0\lin0\itap0 {\fs28\insrsid15163865 Dr. Gabor Magyar \par }\pard \qc \li0\ri0\nowidctlpar\faauto\rin0\lin0\itap0 {\fs28\insrsid15163865 Budapest University of Technology and Economics \par Dept. of Telecommunications and Media Informatics \par Budapest, Hungary \par }{\i\fs28\insrsid15163865 email: magyar@tmit.bme.hu \par }\pard \qc \li0\ri0\sb120\sl360\slmult1\nowidctlpar\faauto\rin0\lin0\itap0 {\fs28\insrsid15163865 \par }\pard \qj \li0\ri0\sb120\sl360\slmult1\nowidctlpar\faauto\rin0\lin0\itap0 {\b\fs28\insrsid15163865\charrsid2762722 Abstract \par }{\fs28\insrsid15163865 The paper analysis the technical aspects of long-term archiving of digital documents, based on functionality and fundamental categories. The long-term archiving of digital documents is a very challenging task, because of policy, legal, intellectual property rights, metadata, semantic support and other issues. The variety and complexity of digital documents as IT objects brings up a basic question: does it necessary to preserve the variety and complexity of the original objects? (What is \'84original\'94 in the space of digital documents?) The answer in general \rquote no\rquote, essential attributes of a document are preserved when the document is transformed to different platforms. There are many reasons to change the format of a document, crossing technological boundaries (eg. platforms, operating systems, applications).

Mi az eredetiség? a digitális dokumentumok terében? Tökéletesen másolható bit by bit. Másolni kell a digitális dokumentumokat, mert nem időtálló, és változik a formátuma.

Meg kell őrizni az eredeti objektum változatosságát? Az alkalmazási céltól függ. Általában autentikus dokumentumok megőrzése a cél. Kommunikációs csatorna, ami információt továbbít a jövőbe.

Hogy megőrizz fizikai dokumentumot Őrizd jól. digitális dokumentumot Légy képes előállítani a tárolt adatokat, újraépíteni komponenseiből, interpretálni szintaktikáját.

Hogy megőrizz fizikai dokumentumot Őrizd jól. digitális dokumentumot biztosítsd a képességet a reprodukcióra

A digitális dokumentumok leírásának 3 szintű modellje fizikai logikai fogalmi

Conceptual layer Logical layer Physical layer

CVs CV1 CV2 -word állomány vagy -PDF állomány vagy -szkennelt állomány - stb.

beágyazott kép R E P O S I T O R Y kimenet: - nyomtatott (PDF, stb.) - Web - adat

összeállítási info Prof. Will Good E-mail: will.good @goodwill.eu URL: http://www.good.eu Positions: University of City 1990- Dept. of Informatics Senior lecturer Education: PhD in Informatics 1990 Thesis: Emerging Digital Archiving Systems MSc. in Computer Science 1987 Thesis: Statistical Programming Experienced in: EIS, development methods and tools Recently focusing on: New Media Archives Positions, memberships

OAI előzmények 1945 Vannevar Bush Memex (Hypertext) 1989 Tim Bernes Lee HyperText and CERN 1994 WWW Consortium (w3c.org) 1994 ERCIM Technical Reference Digital Library (EU) 1998 Networked Computer Science Tech. Ref. Library 1999 Universal Preprint Service 1999 Open Archives Initiative 2002 OAI Protocol for Metadata Harvesting 2.0

OAI elvek Eleinte: Tudományos publikációk közzététele, szabad elérésének biztosítása (preprints - content) Később: Dokumentumok elérhetőségének, megtalálhatóságának biztosítása (metadata harvesting) Data Provider Service Provider elkülönülés Olcsó (low barrier), egyszerű technológia

OAI archívum modell

OAI architektúra SP DP DP DP DP Internet SP SP DP DP DP SP

Adatgazda - Data Provider (DP) Olyan intézmény, amely az általa őrzött valóságos vagy digitális objektumokat leíró adatbázissal (katalógussal) rendelkezik, és azt az OAI-PMH protokoll előírásainak megfelelően azt szolgáltatni tudja és akarja.

Tűzfal Adatgazda architektúra OAI szerver Meta szerver URI Média szerver Backup Digitalizáló állomás Data provider (DP)

Az adatgazdák feladatai Nyílt, mindenki számára elérhető adatszolgáltatás (metaadatok) az az OAI-PMH protokoll szerint. Hagyományos archívumi (repository) funkciók ellátása Biztonságos tárolás Szükség esetén migráció Katalogizálás, feldolgozás Jogkezelés

Szolgáltatásgazda - Service Provider Olyan szolgáltató, amely az adatgazdáktól az OAI-PMH protokoll segítségével begyűjtött adatok alapján értéknövelt szolgáltatást, legegyszerűbb esetben közös kereshetőséget biztosít.

Tűzfal Szolgáltatásgazda architektúra OAI kliens Alkalmazás Meta szerver Service provider (SP)

A szolgáltatásgazdák feladatai Közös kereshetőség biztosítása, azaz több DP adatainak összefésülése, esetleg valamilyen specifikus szempont szerinti szűrése, csoportosítása, keresőfelület biztosítása. Tartalom kereskedelem/felhasználás elősegítése OAI-PMH interfész biztosítása (pl. Z39.50-ről) További metaadatok biztosítása Pl. Learning Object Metadata Automatikus tartalomelemzés

Protocol for Metadata Harvesting Kommunikációs protokoll: HTTP Egyszerű, támogatott, elterjedt, internet barát, tűzfal-tűrő kommunikációs protokoll Szintaxis: XML, XML séma Elterjedt, a struktúra megadását, önleíró állomány készítését is biztosító szintaxis Szemantika: DC, RDF, RDF séma Elfogadott szabvány/ajánlás a változatos tartalom szemantikai egységességének biztosítására.

OAI-PMH Kommunikációs protokoll HTTP GET, POST kérdések HTTP / XML válaszok Kérdések Identify ListSets ListMetadataFormats ListRecords ListIdentifiers GetRecord