Technické řešení

Sorry, this entry is only available in Czech. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language.

Navržené řešení digitálního archivu vychází ze standardu OAIS (ISO 14721:2003 — Open Archival Information System). Tento standard vymezuje základní koncepci archivu pro uložení elektronických dokumentů a je na něm budována většina současných digitálních archivů. Standard definuje hlavní funkce, které má archiv zajišťovat. Jedná se o příjem, správu dat, archivní uložení, přístup, administraci a plánování uchovávání. Základní model OAIS je na obrázku.

obr1mira_1

Podle standardu OAIS jsou elektronický dokument a všechny informace (metadata) zabaleny do balíčku s jednotnou strukturou. Tyto balíčky jsou podle standardu OAIS nazývány:

  • SIP — Submission Information Package (balíčky přijímané od původců),
  • AIP — Archival Information Package (archivní balíčky zahrnující ukládaný obsah a jeho příslušné popisné informace pro uchovávání — metadata) a
  • DIP — Dissemination Information Package (balíčky vytvořené na základě badatelského dotazu, pro využívání).

Základní navržené schéma digitálního archivu je následující:

obr2mira_2

Digitální dokument, který bude archivářem vybrán za archiválii, bude nejprve připraven u původce do podoby vhodné pro předání do archivu, tzn. bude vytvořen balíček SIP. Balíček bude většinou automaticky generován elektronickým systémem spisové služby. Do balíčku bude zahrnut nejen dokument, ale i metadata, která se k němu váží a která byla pořizována během celého dosavadního životního cyklu dokumentu.

Zaslaný balíček bude v archivu nejprve umístěn do karantény. To znamená, že bude zkontrolován, zda soubory neobsahují škodlivý kód (viry apod.). Kontrola proběhne dvakrát s časovým odstupem třiceti dnů. Pokud dokument nebude obsahovat škodlivý kód, proběhne další kontrola balíčku. Zejména bude kontrolován formát souborů a rozsah vyplnění metadat. Jestliže balíček bude obsahovat škodlivý kód, nevhodný formát souborů či nebude obsahovat požadovaná metadata, bude odmítnut a původce bude o této skutečnosti informován.

Přijatý balíček bude dále zpracováván. Zejména budou doplněna metadata podporující procesy řízení uchovávání a zpřístupňování a dokumentu bude v rámci digitálního archivu přidělen jednoznačný identifikátor. Výsledkem celého procesu bude archivní informační balíček — AIP (všechna metadata a vlastní digitální soubory). Tento balíček bude následně uložen do archivního úložiště s řízeným přístupem, aplikací uchovávacích metod apod.

V průběhu prací na technologickém projektu bylo potřeba řešit otázku dokumentů, které nejsou digitálními archiváliemi v pravém slova smyslu, ale které by bylo vhodné rovněž uchovat. Jako řešení byl do schématu archivu zařazen mezisklad digitálních dokumentů, takzvané Chráněné úložiště. Zejména v počátcích digitálního archivu zde mohou být uchovávány balíčky, které původce zaslal do archivu, ale které nesplňují předepsaná kritéria. Takový balíček bude původci buď rovnou vrácen nebo bude uložen v úložišti a původce ho ve spolupráci s archivem opraví (doplní). Též může jít o dokumenty — potenciální archiválie — s dlouhými skartačními lhůtami, které archiv pomůže původci dlouhodobě uchovat. Dalším způsobem využití úložiště je uchování digitálních obrazů klasických archiválií.

Do archivního úložiště ani do chráněného úložiště nebude možno ukládat nepopsané dokumenty. Každý dokument musí být opatřen alespoň základními metadaty (původce, identifikátor, datum vzniku, název, spisový plán, obsah, informace na základě čeho je ukládán). V počátcích digitálního archivu budou pravidla pravděpodobně benevolentnější, ale ani tehdy nebude možný prostý přesun dat z disku u původce do digitálního archivu.

Zpřístupnění uložených dokumentů

Nedílnou součástí digitálního archivu je zpřístupnění uložených dokumentů. Zpřístupnění bude probíhat pomocí webového portálu Národního digitálního archivu, jehož prostřednictvím zadá uživatel svůj požadavek. Modul přístup následně žádost zpracuje, vytvoří DIP (Dissemination Information Package), který bude uživateli zobrazen prostřednictvím webového portálu. DIP může v závislosti na uživatelském požadavku obsahovat seznam přístupných dokumentů a jejich náhledy, konkrétní dokument a jeho metadata, informaci o eventuálním omezení přístupnosti dokumentu apod.

Způsob uchování

Na rozdíl od archivace klasických listinných dokumentů je způsob uchování digitálních dokumentů komplikovanější. Pro interpretaci digitálního dokumentu vždy potřebujeme technický prostředek, který dokument převede z binární do čitelné podoby. Při uchování dokumentu tedy musíme zajistit nejen vlastní zachování dokumentu (uložení dat), ale i jeho čitelnost (přesná interpretace uložených dat).

Zachování dokumentu

Proti ztrátě bude dokument v archivním úložišti zajištěn uložením na dvou geograficky oddělených místech za použití dvou typů médií s rozdílným fyzikálním principem. Jedno pracoviště obsahující chráněné úložiště a primární archivní úložiště digitálního archivu bude nově vybudováno v Praze v sousedství Národního archivu. Záložní pracoviště bude obsahovat sekundární archivní úložiště a pro jeho umístění bude využit stávající objekt. Obě úložiště budou od sebe vzdálena 100 km. Jako ukládací média archivních úložišť jsou v technologickém projektu navržena disková pole (magnetický princip záznamu) a UDO disky (optický princip záznamu) a jako ukládací média chráněného úložiště technologický projekt uvádí diskové pole zálohované na pásky.

Čitelnost dokumentu, formáty, migrace a emulace

Prosté zachování dokumentu ještě nezaručuje, že dokument bude možno interpretovat (číst). Vývoj formátů souborů používaných k záznamu informací je velmi dynamický, což přináší pro dlouhodobé uchovávání problémy. Z možných řešení zajištění dlouhodobé čitelnosti dokumentů uložených v digitálním archivu (emulace, migrace, virtualizace) byla zvolena metoda migrace. Jejím principem je přizpůsobení dat prostředí. Dokumenty uložené ve formátech, které nebudeme schopni interpretovat, se převedou do jiného (vhodnějšího) formátu. Nelze samozřejmě předpokládat, že v současné době lze touto metodou řešit dlouhodobé uchování veškerých digitálních dokumentů. To ostatně nedokáže zajistit žádná metoda. Migrace se však aktuálně jeví jako velmi efektivní způsob zachování čitelnosti většiny digitálních dokumentů. Prostřednictvím relativně levných migračních nástrojů lze dosáhnout převodu mnoha formátů primárních dokumentů do menšího množství formátů vhodných pro dlouhodobé uchovávání. Čím bude množství formátů menší, tím bude dlouhodobé uchovávání snazší, byť existuje určité riziko v případě, že formát pro dlouhodobé uchovávání bude nevhodně zvolen.

Pro každý formát dokumentu přebíraného do archivu musí mít digitální archiv vypracovánu uchovávací strategii. Pokud taková strategie neexistuje neměl by být dokument převzat. V technologickém projektu jsou posouzeny některé formáty a došlo k jejich rozdělení do tří skupin: preferované, akceptované, neakceptované (s nízkou životností). Při posuzování formátů byla zohledněna tato kritéria: otevřenost, rozšířenost, transparentnost (jednoduchost uložení informací v dokumentu), sebedokumentace, vnější závislosti, vliv patentů, ochranné mechanismy. Rozdělení do jednotlivých skupin je patrno z tabulky.

typ dokumentu preferované formáty akceptovatelné formáty formáty s nízkou trvanlivostí
textový dokument prostý text, XML struktura, PDF A/1a OpenDocument, OpenOffice 1.0, Rich Text Format 1.X, Office Open XML MS-Word, Text602, 602 PC Suite, Amipro, WordPerfect
tabulky Delimited text (CSV) PDF OpenDocument, Office Open XML MS-Excel, Calc602, Lotus
prezentace PDF, OpenDocument, Office Open XML MS-PowerPoint
rastrová grafika TIFF, PNG BMP. JPEG, JPEG2000. TIFF (komprimovaný LZW, JPEG), GIF TIFF (jiná komprese), PCX, interní formáty grafických aplikací
vektorová grafika SVG 1.1 (bez Javy) Computer Graphic Metafile interní formáty grafických aplikací
zvukové dokumenty WAV, AIFF. Broadcast Wave MP3, MP2, OGG Vorbis Windows Media Audio, RealNetworks
video dokumenty MPEG-l, MPEG-2, QuickTime, AVI (nekomprimované) OGG Theora, MPEG-4 AVI, QuickTime (komprimované), Windows Media Video, RealNetworks

Preferované formáty jsou vhodné pro dlouhodobé uchovávání a budou přebírány do archivu bez migrace.

Akceptované formáty jsou pro dlouhodobé uchovávání méně vhodné, ale není nutno je v okamžiku předání migrovat do formátů preferovaných. Vyžadují však zvýšenou pozornost.

Formáty ze skupiny neakceptovaných musí být nejpozději při předání do archivu migrovány nejlépe na preferovaný nebo alespoň na akceptovaný formát. Nejvhodnějším okamžikem pro převod dokumentu do preferovaného formátu se jeví okamžik jeho vyřízení (uzavření) u původce.

Stanovení preferovaných formátů však neznamená, že dokumenty musí vznikat pouze v nich. Dokument může být vytvářen v libovolném formátu, ale ve výše uvedeném okamžiku životního cyklu by měl být převeden do preferovaného formátu. Například u rastrové grafiky mohu použít formát GIMP či Photoshopu, který umožní plně využít vlastnosti editoru (např. vrstvy), ale poté je vhodný převod do PNG či TIFF. Podobně lze úřední dopis ukládat po dobu tvorby ve formátu MS-Office, a teprve v okamžiku uzavření (spisu apod.) ho převést do PDF/A.

V současné době jsou stanoveny výstupní datové formáty statických dokumentů v digitální podobě ze systémů spisové služby vykonávaných elektronickou formou za použití výpočetní techniky a datový formát statických dokumentů v digitální podobě připravovaných pro předání do Národního digitálního archivu. Jedná se o formát PDF/A-1a (ISO 19005-1 — Portable Document Format — Electronic document fileformat for long-termpreservation) pro statické textové, obrazové a kombinované dokumenty v digitální podobě a o formáty PNG (ISO/IEC 15948:2004 — Portable Network Graphics) a TIFF (Tagged Image File Format — revize 6 — nekomprimovaný) pro statické obrazové dokumenty v digitální podobě.

Autenticita

V rámci technologického projektu je autenticita chápána jako prokázání, že dokument je tím, čím má být, že nebyl v průběhu uložení v digitálním archivu změněn a že procesem migrace nedošlo ke ztrátě žádné podstatné informace.

Zvoleným principem zachování autenticity v Národním digitálním archivu je fyzické a procesní zajištění uložených dokumentů oproti změně a transparentní, dokumentovaný způsob migrace. To vyžaduje certifikaci digitálního archivu jako důvěryhodného úložiště. Projekt předpokládá certifikaci archivu třetí stranou, že splňuje požadavky takového úložiště, a to jak po stránce fyzické bezpečnosti, tak po stránce procesní, včetně zajištění dostatečných finančních prostředků pro jeho dlouhodobou činnost. Certifikace proběhne podle aktuálních standardů, či předpisů. Jednou z navržených možností je posouzení archivu Národním bezpečnostním úřadem.

Archiv bude považovat dokumenty předané původcem za autentické a zachová informace, jakými prostředky a s jakým výsledkem byla certifikace ověřena. Například u dokumentu podepsaném zaručeným elektronickým podpisem bude zachována informace, kdo dokument podepsal, že byl podpis ověřen a s jakým výsledkem. Dokument pak bude uložen v archivu spolu s těmito informacemi, ale v podstatě nepodepsaný. Autenticita dokumentu po uložení v archivu bude zajištěna vnitřními prostředky archivu.

Platný zaručený elektronický podpis (či elektronická značka) autora dokumentu (i s časovým razítkem odeslání) má svůj význam v prvotních fázích životního cyklu digitálního dokumentu, kdy po určitou dobu potvrzuje autenticitu digitálního dokumentu. Jeho použití se jeví žádoucí maximálně do chvíle přijetí dokumentu do digitálního archivu. Je na původci, aby ověřil primární autentizační údaje o dokumentu a výsledek ověření uvedl do popisných metadat. Součástí metadat informačního balíčku je sekce pro vložení údajů o ověření elektronického podpisu. Projekt počítá s použitím elektronického podpisu na úrovni NDA pouze pro kontrolu integrity dat při přenosu od původce ke zpracování.

Metadata

Při dlouhodobém uchovávání digitálních dokumentů nestačí jen zajistit, aby byl dokument zachován a čitelný. K dokumentu je potřeba rovněž uchovat další informace, tzv. metadata. Metadata nám například pomohou zařadit dokument do kontextu doby jeho vzniku, poskytnou údaje o manipulaci s dokumentem, informují o formátu, v němž je dokument uložen apod.

V souladu s OAIS budou všechna metadata uložena spolu s dokumentem v rámci AIP (Archival Information Package).

Množinu metadat je možno rozdělit na tři hlavní skupiny: metadata popisná, konzervační (uchovávací) a strukturální. Při stanovení prvků metadat se vychází z mezinárodních norem a doporučení, které jsou v případě potřeby doplněny metadaty specifickými pro české prostředí. To se týká hlavně popisných metadat.

Popisná metadata (například název, popis, autor, původce, typ, kategorie, a další) slouží převážně pro vyjádření obsahu digitálních dokumentů a jsou využívána pro vyhledávání nebo zatřídění objektu a k zjištění základních údajů o něm. Ačkoli mohou vznikat po celou dobu života dokumentu, vznikají hlavně ve dvou etapách životního cyklu: ve fázi příjmu a zpracování u původce a při archivním zpracování.

Fáze příjmu a zpracování u původce je pro vznik popisných metadat klíčová. Popisná metadata, která nebudou zachycena v této fázi životního cyklu, bude později velmi pracné, ne-li nemožné, doplnit. Je však třeba uvést, že záznam popisných metadat neznamená nárůst zátěže pracovníků, kteří s dokumenty pracují. Všechna metadata, která je potřeba zaznamenat, se již dnes k dokumentu běžně evidují (spisový znak, pořadové číslo, rok záznamu, odesílatel, příjemce apod.), případně je generuje systém správy dokumentů (ERMS) automaticky (systémový identifikátor,datum přijetí atd.). Z řečeného vyplývá, že systémy spisové služby a jim podobné informační systémy mají při vkládání popisných metadat nezastupitelnou roli.

Druhým okamžikem, ve kterém dojde k rozsáhlejšímu zadávání popisných metadat, je fáze archivního zpracování. Tato fáze není v současnosti příliš rozpracována, což je ale logické. Nejprve je potřeba dokumenty uchovat a teprve následně mohou být zpracovávány. Již dnes je však možno říci, že nutnost archivního zpracování je nepřímo úměrná kvalitě popisu dokumentu u původce. Čím kvalitnější bude popis, o to menší bude potřeba archivního zpracování.

Popisná metadata vycházejí z doporučení Moreq2 vypracovaného organizací DLM fórum. Uvedené doporučení je předlohou připravovaného Národního standardu pro elektronické systémy spisové služby, který je adaptací Moreq2 na české prostředí a jehož součástí budou i definice metadatových prvků. Na úrovni archivního zpracování budou využívány standardy ISAD(G), ISAAR(CPF), EAD, EAC a množina popisných metadat bude rozšířena o prvky, které z těchto standardů vyplývají.

Konzervační metadata slouží pro podporu uchovávání a rchivačních aktivit. Obsahují údaje o formátu souboru, ve kterém je dokument uložen, technické údaje o uložených digitálních objektech, informace o činnostech či změnách provedených s digitálním obsahem, o migracích dokumentu apod. Tato metadata budou rovněž vznikat po celou dobu životního cyklu dokumentu, převážně však v digitálním archivu. Je to logické, neboť digitální dokumenty trvalé povahy (digitální archiválie) budou větší část svého životního cyklu uloženy v archivu.

Uchování informace o formátu, ve kterém je dokument uložen, je zásadní pro případné znázornění dokumentu a pro volbu správného okamžiku a vhodného způsobu migrace. Informace o změnách dokumentu (vytvoření nového znázornění, migrace) a o manipulaci s ním nám poskytnou podporu při zajištění autenticity. Na základě důvěryhodnosti archivu a jeho schopnosti doložit veškeré operace s dokumentem pak bude možno usuzovat i na věrohodnost dokumentu.

Podobně jako u popisných metadat bude základ konzervačních metadat vycházet z Národního standardu pro elektronické systémy spisové služby. Tato základní množina pak bude rozšířena o metadata standardu PREMIS. K udržování informací o formátu souborů pak bude použit online registr formátů PRONOM.

Strukturální metadata slouží pro sdružení všech částí informačního balíčku do jednoho logického celku. Ukazují, jak spolu jednotlivé součásti dokumentu souvisí. Jak již bylo uvedeno, bude dokument v archivu uložen spolu se souvisejícími metadaty v rámci tzv. archivního informačního balíčku (AIP). Nelze však říci, že jeden AIP bude tvořen právě jedním dokumentem. AIP může být tvořen spisem a v takovém případě může obsahovat i několik dokumentů. Dokument sám pak nemusí být uložen v jednom souboru, ale může sestávat z několika souborů (komponent). Podobná situace je u metadat, která se mohou vztahovat k celému archivnímu balíčku, případně bude každý objekt (spis, dokument, komponenta) obsahovat svá vlastní metadata. Závislosti a vztahy jednotlivých částí popisují právě strukturální metadata.

Struktura informačního balíčku je definována normou OAIS. Pro jeho zápis bude využit standard METS a strukturální metadata budou vycházet právě z tohoto standardu.

na začátek stránky »