Název sekce
|
Digitální přístup k dokumentům
|
Archivace tradičních a elektronických dokumentů: stejný cíl, různé metody
Filip Vojtášek, Ikaros
Na základě srovnání obecných vlastností tradičních a digitálních dokumentů je poukázáno na důležité aspekty dlouhodobé
ochrany
digitálního záznamu (zastarávání platformy, softwarová závislost, datové a metadatové formtáty, životnost médií,
autenticita,
dynamická povaha digitálních dokumentů). Stručně jsou charakterizovány hlavní a doplňkové strategie archivace (emulace a
migrace,
resp. technologické muzeum a tisk). Představeny jsou základní informační zdroje.
ÚVOD
Tištěné noviny, relikt 19. století, bez něhož si však dosud nedovedeme
komunikaci (masovou) představit, a soubor (uložený např. na disketě, ale v roli nosiče může figurovat ZIP nebo CD-R) ve
formátu PDF, který je dnes jedním ze standardů elektronického (internetového) publikování. Dva druhy dokumentů, u nichž byl
použit naprosto odlišný nosič a kódovací systém, jedno mají přesto společné: časem se mohou stát nečitelnými. Jinak řečeno:
při archivaci (ochraně) tradičních a digitálních dokumentů sledujeme stejný cíl – zajištění jejich dlouhodobého
zpřístupnění, ale vzhledem k jejich rozdílnému charakteru je nezbytné aplikovat rozdílné metody, jak tohoto cíle
dosáhnout.
ELEKTRONICKÉ DOKUMENTY A KNIHOVNY
Elektronické publikování je po objevu písma a vynálezu knihtisku třetím
klíčovým milníkem v dějinách dokumentové komunikace, a tedy i v dějinách lidské civilizace. Dá se předpokládat, že jeho
význam s rychlým pronikáním digitálních informačních technologií do všech oblastí života neustále poroste, i když patrně
nikdy (s vědomím, že jednoznačný soud v tak dynamicky se rozvíjející oblasti je troufalý) nenahradí písemnou a tištěnou
formu komunikace.
V kontextu tohoto příspěvku máme na mysli především oficiální publikační aktivity ve vědě, výzkumu, v
žurnalistice, v podnikové sféře a ve veřejné správě, jejichž výsledky (lhostejno, zda jsou volně přístupné či nikoliv)
jsou šířeny z pragmatických důvodů často paralelně v elektronické a tištěné podobě, příp. pouze v elektronické podobě
(typicky na Internetu). Proměnlivost a pomíjivost činí z internetových dokumentů zvláštní kategorii digitálních
dokumentů a jako taková vyžaduje ze strany knihoven zásadní modifikaci v jejich postupech při získávání, zpracování a
archivaci těchto dokumentů. Navzdory sofistikovaným technickým prostředkům (např. vyhledávacím systémům) zůstává část
dokumentů publikovaných na webu skrytá – zejména jde o dokumenty ve formátu PDF (do února 2001 nebyly vůbec roboty
indexovány) a dále částečně o dokumenty, které nejsou samostatnými entitami-soubory – nejsou totiž uloženy v adresářové
struktuře, nýbrž v dynamických databázových systémech a z nich zobrazovány teprve na základě uživatelského
požadavku.
Z výše uvedené skutečnosti vyplývá důležitý závěr, který nemohou zpochybnit námitky poukazující na chaos,
který na Internetu vládne, a jeho jistou nedůvěryhodnost jako komunikačního prostředku (máme více či méně otevřenou
tendenci považovat dokumenty “fyzicky existující” za kodifikující a serióznější informační zdroje): elektronické
publikování již dávno není pouhým technickým výstřelkem využívaným vědeckou komunitou. Elektronické dokumenty tvoří
bezesporu legitimní součást národní literární produkce, což nemohou knihovny ignorovat, pokud mají i nadále plnit svou
funkci, tj. shromažďovat, zpracovávat, uchovávat a zpřístupňovat dokumentové dědictví v různých formách odrážejících
stupeň vývoje technologií použitých pro záznam informací. Konstatovala to ostatně i zpráva zpracovaná expertní skupinou
při americké při National Academy of Sciences pro Library of Congress (2000). Na tuto problematiku jsou proto zaměřeny
projekty, které jsou od poloviny 90. let realizovány buď na úrovni jednotlivých informačních institucí (obvykle
centrálních knihoven nebo archivů), nebo v rámci mezinárodní spolupráce (např. projekty Nordic Web Archive ve
skandinávských zemích, NEDLIB v Evropské unii, PANDORA v Austrálii, CEDARS ve Velké Británii, National Digital Library
Program ve Spojených státech a další). V České republice je řešen pilotní projekt výzkumu a vývoje “Registrace, ochrana
a zpřístupnění domácích elektronických zdrojů v síti Internet” (nositelem je Národní knihovna ČR, 2000–2001).Předmětem
jejich zájmu jsou mj. právní aspekty (povinný výtisk digitálních dokumentů a ochrana autorských práv) a technické
aspekty včetně způsobů efektivní archivace.
VLASTNOSTI DIGITÁLNÍCH DOKUMENTŮ
Digitální dokumenty (v bibliografickém popisu se pod vlivem anglosaské terminologie prosazuje pojem
“elektronický informační zdroj”) se vyznačují několika vlastnostmi, se kterými se u tradičních dokumentů nesetkáme vůbec
nebo jen ve velmi omezené míře. (Adjektivum “tradiční” používáme jako souhrnný výraz jednak pro psané a tištěné dokumenty a
fotografie, jednak pro dokumenty s analogovým záznamem zvuku a videa.) Jde o následující obecné přednosti, z nichž mohou být
u konkrétních digitálních dokumentů podle jejich charakteru a účelu zastoupeny jen některé:
- distribuovanost (umožňující vzdálený a paralelní přístup de facto neomezeného počtu uživatelů, kteří mají k dispozici
nekonečně mnoho “exemplářů” téhož dokumentu)
hypertextová struktura
multimedialita
interaktivita
přidaná hodnota (např. bezprostřední vazba metadata-primární data, vyhledávání ve strukturovaných datech nebo v plném textu
v reálném čase, automatická konverze, generování dokumentu z databáze na základě uživatelského požadavku aj.)
neztrátová reprodukovatelnost (v důsledku toho přestává být rozdíl mezi originálem a kopií patrný)
aktuálnost (vydavatelský proces se výrazně zkracuje, navíc se při něm neuplatňují pouze formální komunikační kanály)
V souvislosti s dlouhodobou archivací digitálních dokumentů však
musíme brát v úvahu jako podstatnější tyto dva jejich specifické znaky: závislost na tzv. digitálním prostředí a naopak
nezávislost na nosiči (v obou případech můžeme konstatovat absolutní závislost, resp. nezávislost).
Závislost na digitálním prostředí
První uvedený atribut výmluvně svědčí o ambivalenci elektronické
komunikace. Digitální dokumenty jsou na jedné straně flexibilní a snadno transformovatelné a modifikovatelné, na druhé straně
mohou během poměrně krátké doby (na rozdíl od tradičních dokumentů) pozbýt svou funkčnost, a tedy i informační hodnotu, protože
digitální prostředí, v němž byly vytvořeny, rychle morálně zastarávají. Digitálním prostředím se rozumí soubor technických
prostředků (hardwarová platforma, operační systém a aplikační software) nezbytných pro správné (či dostatečné) dekódování
digitálních dokumentů, resp. pro provedení zpětné konverze do takové formy, která zajišťuje, aby mohly být vnímány lidskými
smysly (např. tisk na papír, zobrazení na monitoru, zvukový výstup pomocí reproduktoru). Je složité přesně predikovat, kudy se
bude další vývoj ubírat. (Připomeňme, že i u některých skupin tradičních dokumentů se neobejdeme bez dekódovacího technického
zařízení – anologové audio a video a dále např. mikromédia.)
Hrozí tak reálné nebezpečí, že pokud nebude této otázce věnována
adekvátní pozornost, nepodaří se některé digitální dokumenty uchovat do budoucnosti, protože nebudou k dispozici technologie,
které umožní jeho čitelnost, ačkoliv jako artefakty budou nadále existovat (nemluvě o tom, že likvidace digitálního záznamu
představuje podstatně snazší úkon než v případě tradičních dokumentů s hmotným nosičem). Jako střízlivý se proto ukazuje názor,
že tato situace připomíná časovanou bombu, která tiká snad ještě hlasitěji než v případě dokumentů tištěných od poloviny 19.
století na papíru se značným obsahem kyselinotvorných látek. T. Kunny hovoří dokonce o současné éře s výrazným postavením
elektronického publikování v sociální komunikaci jako o “době temna”, v níž jistoty platné z éry tradičního publikování jsou
nenávratně pryč. Do jisté míry to také reflektovala studie Research Libraries Group (1998), která se opírala o výsledky průzkumu
týkající se archivace digitálních dokumentů mezi svými členskými institucemi (zpravidla akademické a veřejné knihovny). Přestože
98 procent respondentů předpokládalo, že v roce 2001 budou mít ve svých fondech zařazeny digitální dokumenty, pouze čtvrtina
formulovala oficiální koncepci v této oblasti.
Interval obměny (úplné či částečné) digitálního prostředí, která se v praxi projevuje nejčastěji např. v
náhradě starší verze téhož softwarového produktu verzí novou, trvá podle zprávy Task Force on Archiving of Digital
Information (1996) maximálně pět let. Dosavadní zkušenosti potvrzují, že tento faktor primárně ovlivňuje životnost
digitálních dokumentů (vzpomeňme v této souvislosti např. několik generací webových prohlížečů od těch prvních,
experimentálních řádkových z roku 1991 až po ty dnešní, které podporují XML), zatímco fyzická trvanlivost nosičů digitálního
záznamu hraje méně významnou roli, i když ve srovnání např. s papírem jako základní psací látkou je řádově kratší. Odhady o
průměrné životnosti CD-ROM jako typickém nosiči v současnosti se pohybují v rozmezí deset až dvacet let podle intenzity
využívání a šetrnosti zacházení – naopak papír a mikrofilm může za příznivých úložných podmínek vydržet stovky let.
Relativní stabilitu v oblasti médií pro digitální záznam posiluje i mezinárodní standardizace, jejíž respektování je v zájmu
producentů čtecích mechanik i vydavatelů dokumentů uložených na těchto nosičích. Aplikační software jsme nuceni aktualizovat
také z toho důvodu, že část dokumentů, s kterými pracujeme, je cizí provenience, což znamená, že nemáme žádnou kontrolu nad
tím, v jakém formátu jsou uloženy. Na toho, kdo je přejímá, je tak mimoděk vyvíjen tlak, aby akceptoval určitou konfiguraci
digitálního prostředí, aniž by ji ze svého hlediska považoval za správné řešení (např. určitý balík kancelářského softwaru –
StarOffice vs. MS Office).
Nezávislost na nosiči
Ochranné metody, které se uplatňují u tradičních dokumentů, jsou
primárně podmíněny skutečností, že v jejich případě představují hmotný nosič a informace, které jsou na něm (nebo v něm)
fixovány, dva neoddělitelné prvky jednoho homogenního objektu. Jelikož v tomto smyslu uchovat dokument čitelný, a tak umožnit
jeho zpřístupnění, znamená totéž co zabezpečit fyzickou celistvost nosiče, soustřeďuje se pozornost (preventivní ochrana
dokumentů) na klimatické parametry prostředí, v němž jsou dokumenty deponovány (teplota, relativní vlhkost a intenzita
světla).
U digitálních dokumentů se díky tomu, že k záznamu se používá jeden univerzální kódovací systém (binární
soustava) bez ohledu na to, jakou formu nebo obsah mají, ruší dosavadní pevná svázanost nosiče a informací (dat), které tak
mohou být podle potřeby po dobu existence digitálních dokumentů uloženy na libovolném nosiči – jediným praktickým
limitujícím faktorem (viděno očima současníka) je jeho paměťová kapacita. V tomto směru se oba výše zmíněné charakteristické
rysy digitálních dokumentů spolu bezprostředně souvisejí. Nosič je pro ně irelevantní, rozhodující je dlouhodobá (ideálně
trvalá) čitelnost digitálního záznamu (spojení konkrétního nosiče a digitálního záznamu nemá charakter osobitého artefaktu,
jako tomu je u tradičních dokumentů, zejména u historických fondů), na druhé straně pro jejich dekódování nestačí archivovat
samotný dokument, je nutná rovněž specifická konfigurace digitálního prostředí, ve kterém bude interpretován (viz dále
migrace a emulace).
Při archivaci digitálních dokumentů je třeba si dále uvědomit, které
jejich objekty jsou z hlediska jejich budoucí zamýšlené interpretace podstatné – tj. určit kritéria, na jejichž základě budeme
posuzovat, zda daný digitální dokument (v původní nebo konvertované podobě) si uchovává svou integritu (tj. validitu,
kompletnost) a autenticitu (druhý pojem je zde chápán šířeji než v právním slova smyslu – autenticita znamená použitelnost
dokumentu pro ty účely, pro něž byl vytvořen), tj. které objekty, z nichž je digitální dokument složen, nesou informační
hodnotu. Obecně platnými kritérii, která se budou samozřejmě lišit podle druhu digitálních dokumentů, které jsou uvažovány jako
potenciální součást digitálních knihoven či repozitářů (zásadní rozdíl tak bude existovat např. mezi textem a databází nebo
multimediálním dokumentem), jsou čtyři:
obsah
př.: text z HTML dokumentu bez grafických a jiných doplňkových souborů?
forma
př.: text se složitou formální strukturou umožňující snadnější orientaci
® prostý text?
funkčnost
př.: HTML dokument bez externích souborů definujících např. Javascript nebo
Flash?
př.: PDF dokument bez odkazů?
kontext
př.: dokument bez odpovídající identifikace ve formě metadat?
Pozn.: Všichni autoři bez výjimky se shodují na tom, že metadata jako odvozená strukturovaná data o jiných,
primárních datech hrají v archivaci digitálních dokumentů klíčovou roli. Vedle funkce popisné a rešeršní (obdobou jsou
bibliografické údaje u tradičních dokumentů) vyniká jejich funkce integritní – metadata jsou jedním z prostředků nutných ke
správnému dekódování digitálních dokumentů, k nimž se vztahují – bez metadat jsou nesrozumitelné. Proto i v tomto případě má
požadavek principiální nesvázanosti s konkrét
STRATEGIE ARCHIVACE DIGITÁLNÍCH DOKUMENTŮ
Tzv. strategie dlouhodobé archivace digitálních dokumentů (digital
preservation strategy), jak je obvykle v odborné literatuře charakterizována, tvoří z technického hlediska rámec této činnosti,
která má však natolik komplexní povahu, že by bychom se dopustili přílišného zjednodušení, pokud bychom od její technické
stránky oddělili stránku organizační (např. řízení toku dat v digitální knihovně či stanovení způsobu a intervalu kontroly
kvality digitálního záznamu na použitých nosičích), knihovnickou (např. definování kritérií výběru dokumentů a sady
identifikačních údajů-metadat) a v neposlední řadě autorskoprávní, jejíž význam a současně složitost je zdůrazňován ve všech
oficiálních materiálech týkajících se této problematiky.
Pro praktické využití přicházejí v úvahu dvě strategie, které se opírají o naprosto odlišné metody (migrace a
emulace), z nichž pouze prvně jmenovaná se dosud implementuje v rutinním režimu. K těmto dvěma základním strategiím je třeba
ještě připojit dvě další (funkční technologické muzeum a konverze digitálních dokumentů do analogové formy), které jsou však
hodnoceny jako dílčí, doplňková a případně extrémní řešení, která lze stěží aplikovat v širším měřítku.
Migrace
Ústřední metoda migrace jako hlavní strategie archivace
digitálních dokumentů v současnosti, jak čelit morálnímu stárnutí informačních technologií jako nevyhnutelného jevu, který
ovlivňuje čitelnost digitálních dokumentů, spočívá v obecném slova smyslu v periodicky probíhajícím procesu jejich konverze z
jednoho digitálního prostředí do druhého. Tuto činnost provádějí podniky, úřady veřejné správy a další instituce na různé
úrovni, které manipulují s datovými soubory, přirozeně v rámci svého běžného provozu. Knihovny s migrací týkající se digitálních
dokumentů nemají zkušenosti, ovšem migrací ve své podstatě je rovněž reformátování fondů (především ochranné mikrofilmování a
digitalizace), jehož cílem je usnadnit přístup k uživatelsky atraktivním dokumentům, které jsou však z různých příčin ohroženy,
formou jejich kopie a současně přispět k jejich uchování. Migraci doporučuje např. již zmíněný materiál Preserving
digital information : report of the Task Force on Archiving of Digital Information. K institucím,
které se k migrací hlásí, patří např. britský Public Records Office.
Migrace je na jedné straně strategie osvědčená (ve srovnání s emulací), na straně druhé však může mít
negativní dopad na integritu digitálních dokumentů jako celku či jejich jednotlivých objektů proto, že původní a cílové
digitální prostředí se zpravidla liší ve všech nebo v některých svých vlastnostech (např. požadavek na dodatečný aplikační
software – plug-in pro webový prohlížeč, aktualizace softwaru, jiné nároky na výkon počítače, jiná konfigurace platformy,
jiný nosič apod.). Rizikovými faktory migrace se detailně zabývá práce Risk management of digital
information vydaná Council on Library and Information Resources (2000). V
reálných podmínkách komplexní migrace, která by zahrnovala změnu všech tří základních prvků digitálního prostředí, se příliš
často neuskutečňuje, spíše jde o migraci částečnou, která může mít trojí podobu:
SW aplikace 1
® SW aplikace 2 (resp. formát 1 ® formát 2)
operační systém 1
® operační systém 2 (např. Linux ® Windows 98)
HW platforma 1
® HW platforma 2 (např. PC IBM ® Apple Macintosh)
Zvláště naléhavý stav z archivačního hlediska panuje, jak zdůrazňuje
J. Rothenberg, v oblasti formátů digitálních dokumentů. Obecně platný problém migrace se dá nazvat “hledání vhodného standardu”.
Nekompatibilita je totiž nástrojem konkurenčního soupeření producentů aplikačního softwaru. Vedle poměrně nepočetné skupiny
formátů, které lze považovat za obecné a široce podporované (např. RTF, TXT, JPG, GIF, TIFF, MP3, HTML a perspektivně XML), se
používá množství dalších proprietárních formátů, k jejichž ideální interpretaci potřebujeme konkrétní software (v opačném
případě se vystavujeme riziku, že dojde k narušení integrity daného digitálního dokumentu). Do jisté míry se můžeme spolehnout
na zpětnou kompatibilitu u aplikačního softwaru od téhož producenta a zejména hardwarových zařízení (ve druhé případě je
umocněna respektovanou mezinárodní standardizací). Podle J. Rothenberga je principiálně nemožné realizovat bezztrátovou konverzi
mezi dvěma logickými formáty (tj. způsoby, jakým jsou data, která reprezentují digitální dokument, uspořádána). Tuto skutečnost
můžeme demonstrovat na příkladu textového procesoru Corel WordPerfect 8, v němž otevřeme soubor uložený ve formátu DOC (interní
formát programu MS Word), přičemž se změní velikost fontu u některých odstavců. K těmto formátům, z nichž některé se díky různým
okolnostem (zejména postavení producenta na trhu) staly de facto standardem u určitého typu dokumentů, patří vedle DOC např. ASX
(Windows Media Player), CDR (CorelDRAW), DjVu (kodéry, plug-in pro webový prohlížeč), MDB (MS Access), PDF (Adobe Acrobat), PPT
(MS PowerPoint), RA/RAM (Real Plyer), SWF (Macromedia Flash) a WPD (Corel WordPerfect).
Přímo “geneticky zakódovanou” limitovanou životnost mají digitální dokumenty, k jejichž spuštění je třeba
speciální aplikační software (např. soubor map portálu MSN.Atlas distribuovaný na CD-ROM, který vyžaduje vedle webového
prohlížeče MS Internet Explorer 5.x také multimediální ovladač DirectX a prohlížeč MaGIS 3D). Obdobně je riskantní
(přinejmenším málo prozíravé) spoléhat se při archivaci na proprietární formáty, které jsou vyvíjeny a podporovány menšími
producenty, jakkoliv se jeví ve srovnání se zavedenými formáty jako momentálně výhodnější (např. rastrové grafické formáty s
kompresními algoritmy založenými na technologii wavelet – DjVU, LuraWave aj.).
Migrace se někdy nesprávně ztotožňuje s její dílčí operací – kopírováním digitálního záznamu, aniž by bylo
nutné jej modifikovat, na nový nosič (tzv. refreshment), které je motivováno dvěma důvody: buď fyzická životnost konkrétního
nosiče (např. CD-R) se chýlí ke konci (příčinou může být např. mechanické poškození nebo chyba při zápisu vypalovací
mechanikou), což se zjišťuje pomocí speciálních měřicích přístrojů, a proto existuje nebezpečí, že záznam bude nenávratně
ztracen, nebo se lze oprávněně domnívat, že aktuálně používaný typ nosiče se výhledově stane morálně zastaralým (např.
náhrada magnetooptického disku CD-ROM).
Emulace
Emulace, která označuje proces, jehož smyslem je co možná nejvěrněji
modelovat funkční vlastnosti digitálního prostředí (morálně zastaralého) či jeho komponentů na jiném počítači, než pro který
bylo (byly) určeny, není v počítačové vědě převratnou novinkou. (Pozn.: Od emulace musíme odlišit simulaci – zatímco emulace
směřuje k funkční shodě a emulující systém může zastoupit systém emulovaný, simulace slouží k napodobování reálných objektů.)
Tento koncept se používá při různých příležitostech – v praxi ověřená je emulace některých procesorů, osmibitových počítačů
Atari a ZX Spectrum, herních konzolí, operačního systému MS-DOS, webových prohlížečů (např. NCSA Mosaic, Netscape 1.0 aj.) a v
poslední době se začínají uplatňovat emulátory, které umožňují v prostředí Linuxu spouštět virtuální stroje s různými operačními
systémy a aplikační software (např. VMWare).
Emulaci jako vůči migraci alternativní strategii archivace digitálních dokumentů formuloval J. Rothenberg v
roce 1995 ve svém článku Ensuring the longevity of digital documents v časopise Scientific American. Značnou odezvu však vzbudila až jeho studie Avoiding technological quicksand : finding a viable technical foundation for digital preservation, kterou vydala v roce 1999 americká CLIR a na niž reagují v podstatě všechny následující
teoretické práce zabývající se archivací digitálních dokumentů i technické zprávy týkající se jednotlivých takto zaměřených
projektů.
Podle J. Rothenberga je emulace nejefektivnějším (tj. de facto bezztrátovým) způsobem uchování digitálního
dokumentu jeho uložení v původní podobě spolu s originálním aplikačním softwarem nezbytným pro jeho interpretaci a operačním
systémem, v němž se spouštěl. K tomu je třeba přiřadit množinu technických metadat, která specifikují příslušnou hardwarovou
platformu s cílem zajistit, aby kdykoliv v budoucnu mohl být vyvinut program-emulátor, který v rámci pozdějšího digitálního
prostředí, jehož architektura je v současnosti neznáma, umožní (jako další vrstva v tomto prostředí) “oživit” digitální
dokument podle potřeby v jeho, tj. v té době již virtuálním prostředí, aniž by byl vystaven riziku narušení integrity jako
důsledku opakované migrace. J. Rothenberg uvádí mezi atributy platformy např. rozlišení monitoru, barevnou kalibraci,
parametry procesoru a pevného disku aj. Uvedeným modelem zapouzdření se nemíní fyzická jednota, nýbrž logická entita – z
praktického hlediska by se aplikační software, operační systém a specifikace emulátoru nacházely zvlášť a z digitálního
dokumentu by na ně bylo odkazováno. J. Rothenberg argumentuje tím, že zápis metadat týkajících se funkčních vlastností
hardwaru je obecně snazší než totéž v případě softwaru.
Díky tomu můžeme získat nezávislost na neustálém a jistě nepředvídatelném vývoji softwarových nástrojů pro
dekódování digitálních dokumentů (a tedy i jejich formátů), protože pro každou platformu (resp. pro všechny dokumenty, které
byly pro ni určeny), kterých je omezený počet na rozdíl od aplikačního softwaru, by měl potenciálně stačit jeden emulátor. I
z této stručné charakteristiky Rothenbergových zásad emulace je zřejmá její největší slabina: Přistoupit na tuto strategii
znamená souhlasit s tím, že jsme (a budeme) schopni ve vyčerpávající podobě popsat současné digitální prostředí.
Emulace je (resp. byla) testována v rámci dvou projektů. Tím prvním byl NEDLIB, tříletý mezinárodní projekt
(1998-2000), který byl realizován s finanční podporou Evropské unie (program Telematics for Libraries). Jeho primárním cílem
je vytvoření modelu obecné infrastruktury depozitní knihovny digitálních dokumentů (DSEP) a jeho začlenění jako samostatného
modulu do tradiční, automatizované knihovny. Na jeho řešení v oblasti archivace digitálních dokumentů se podílel i J.
Rothenberg. Pro tyto účely bylo vybráno několik CD-ROM a CD-I pro PC IBM/Windows 95 (jako zástupce off-line digitálních
dokumentů) a dále články z elektronických verzí online přístupných odborných časopisů z produkce nakladatelství Elsevier
Science a Kluwer Academic. Tyto pilotní experimenty v podstatě potvrdily Rothenbergův předpoklad (zejména byly podrobně
prezentovány výsledky emulace prostředí PC IBM/Windows 95 na počítačích Apple Macintosh). Druhým projektem je
britsko-americký projekt CAMiLEON (1999-2002), který se realizuje ve spolupráci univerzit v Michiganu a Leedsu a který je
financován ze zdrojů britského Joint Information Systems Committee a americké National Science Foundation.
Technologické muzeum
Základní princip konceptu, pro který se vžilo poměrně přesné označení
“technologické muzeum”, spočívá v uložení digitálních dokumentů, aplikačního softwaru a operačního systému v originální podobě a
rovněž – na rozdíl od emulace – udržování platformy (včetně příslušných čtecích zařízení) ve funkčním stavu. V podstatě jde o
konzervaci digitálního prostředí, která je podle zastánců tohoto konceptu efektivnější z archivačního i ekonomického hlediska
(migrace a emulace jsou příliš nákladné strategie a je s nimi spojeno mnoho nezodpovězených otázek). V souvislosti s tím se čas
od času objevují pokusy, které mají lidstvo zbavit závislosti na digitálním prostředí. Jedním z nich je HD-Rosetta od firmy
Norsam, na který je možné uložit až 350 tisíc obrazových souborů ve vysokém stupni rozlišení v miniaturní podobě, které pak lze
číst pomocí mikroskopu (!). Životnost tohoto disku, který je imunní vůči stárnutí technologií a působení elektromagnetického
pole, se odhaduje na dva až deset tisíc let. Ve skutečnosti však technolgické muzem přináší v praxi natolik závažné technické a
organizační problémy, že není možné toto řešení aplikovat jako dlouhodobější strategii. Totéž se týká i dekódovacích zařízení
pro analogové audio a video. Především existuje velké množství kombinací prvků digitálního prostředí. Jako ilustrativní příklad
lze zvolit tuto konfiguraci: PC IBM 80286 + MS-DOS + 5,25’’ FDD + T602. K zachování funkčnosti platformy jsou navíc nezbytné
komponenty, které nebudou nadále vyráběny.
Konverze do analogové formy
Konverze do analogové formy není ničím jiným než přirozeným vyjádřením
obav plynoucích z nejistot, které objektivně archivaci digitálních dokumentů obklopují. Knihovny mají bohaté zkušenosti s
ochrannými metodami týkajícími se analogových dokumentů, jejichž nosiče mají obecně delší životnost za předpokladu, že jsou
uloženy ve vhodných mikroklimatických podmínkách. Tento koncept je evidentně ambivalentní. Analogové kopie si sice mohou déle
achovat čitelnost, ale ztrácejí všechny specifické přednosti digitálních dokumentů, které umožňují snadnou manipulaci s nimi.
Konverze je akceptovatelné, ale nesystémové řešení archivace statických textových a obrazových digitálních dokumentů, které se
svým charakterem blíží tradičním protějškům. Díky tomu, že jsou tyto dokumenty vytištěny, lze zajistit, že budou k dispozici i
tehdy, když elektronický originál nebude dále přístupný. V tomto případě má smysl se zabývat pouze tiskem na tzv. permanentní
(nekyselý) papír, u něhož je díky svým vlastnostem zaručena ve srovnání s dosud běžně používaným, průmyslově vyrobeným papírem
trvanlivost až na stovky let. Alternativou je fixace digitálního dokumentu na mikrofilm (tzv. technologie
computer-output-microfilm, COM). Konverze digitálního audia a videa je krajně problematická, u multimediálních a interaktivních
digitálních dokumentů je principiálně vyloučena.
INFORMAČNÍ ZDROJE
Informační zdroje týkající se archivace digitálních dokumentů
můžeme považovat za typický příklad tzv. šedé literatury. Vzhledem k tomu, že jsou publikovány převážně v elektronické podobě
(zčásti souběžně v elektronické a tištěné podobě), podléhají jen minimální bibliografické kontrole. Články v odborných
časopisech, které jsou excerpovány v dokumentografických systémech, zpravidla obsahují poznatky, které již byly předtím
zveřejněny v prostředí WWW. Tyto zdroje lze pracovně rozdělit do tří skupin:
Teoretické a případové studie, technické, výroční a jiné zprávy, metodiky, průzkumy, výsledky experimentů, příspěvky
přednesené na odborných akcích aj., které jsou volně k dispozici na webových prezentacích projektů a institucí, které se
touto problematikou zabývají. Zvláštní pozornost zaslouží projekty NEDLIB (
www.kb.nl/nedlib) a CEDARS
(www.leeds.ac.uk/cedars), kde lze také
najít odkazy na příbuzné aktivity. Cenné publikace zpřístupňují dvě americké neziskové organizace: Council on Library and
Information Resources (www.clir.org) a Research
Libraries Group (www.rlg.org). V případě CLIR je
možné dokumenty na různá témata včetně archivace digitálních dokumentů stáhnout zdarma v elektronické podobě (ve formátu HTML
nebo PDF), zatímco za tištěnou verzi je třeba zaplatit. Další informace lze získat na stránkách britského programu
eLib (Electronic Libraries Programme – http://www.ukoln.ac.uk/services/elib/). Funkci portálu nebo tzv. startovního bodu v této oblasti plní systém PADI
(Preserving Access to Digital Information – www.nla.gov.au/padi), který spravuje National Library of
Australia. Předmětový index elektronického publikování se sekcí věnovanou archivaci digitálních dokumentů vytváří od roku 1996
Charles W. Bailey z University of Houston (info.libuh.edu/sepb/sepb.htm).
Druhou skupinu tvoří elektronické časopisy. Vedle dnes již renomovaného titulu D-Lib Magazine (
www.dlib.org) je třeba zmínit
šestkrát ročně vydávané bulletiny CLIR a RLG (CLIR Issues, resp. RLG DigiNews).
Tradičním signálním informačním zdrojem jsou elektronické konference, v nichž jsou distribuována např. oznámení o konání
odborných akcí nebo o nových publikacích. V této souvislosti nejdůležitější jsou zřejmě padiforum-l (archiv si lze
prohlédnout na stránkách tohoto portálu) a Digital-Preservation (
http://www.jiscmail.ac.uk/lists/digital-preservation.html).
ZÁVĚR
Nezvratný trend nárůstu podílu digitálních dokumentů (zejména
šířených online) v publikační produkci je východiskem pro formulaci koncepce rozvoje knihoven v 21. století. Hlavní důsledek,
který pro ně ze současného stavu vývoje komunikačních prostředků vyplývá, je nutnost využívat od základu jiné metody než ty,
které se v nich dosud uplatňují při získávání, zpracování, archivaci a zpřístupnění tradičních dokumentů. Znamenají současně
investice do dalšího technického vybavení, ale také do aplikovaného výzkumu, jehož výsledky (pokud je financován z veřejných
zdrojů) jsou často veřejně přístupné, a tak tyto poznatky jsou přenositelné i do jiných institucí, které se nacházejí ve
srovnatelných podmínkách. Projekty, které se realizují v různých informačních institucích a které mají zatím spíše
experimentální charakter (i v těch nejvyspělejších zemích), a konečně i každodenní praxe potvrzují složitost této problematiky.
Jejím projevem je křehkost a proměnlivost jako charakteristické znaky digitálních dokumentů, se kterými jsme konfrontováni nejen
při jejich archivaci, ale i v dalších činnostech vykonávaných informačními institucemi. V oblasti archivace se dnes střetávají
dvě strategie (emulace a migrace), z nichž ani jedna není považována za ideální řešení, jak zabránit tomu, aby morální stárnutí
digitálních informačních technologií mělo fatální vliv na integritu digitálních dokumentů, pro jejichž čitelnost jsou nezbytnými
instrumenty. Dá se předpokládat, že dokud nebude v širším měřítku prokázána efektivita emulace, jak je dosud teoreticky popsána
a experimentálně ověřena (zejména J. Rothenbergem), zůstane migrace primární strategií.
POUŽITÁ LITERATURA:
FRESKO, Marc; TOMBS, Kenneth. Digital preservation guidelines : the state of the art in libraries, museums and
archives
. Luxembourg : European Commission DG XIII/E-4, 1998. 80 s, iii, 39 s. příl. Dostupné též na WWW:
<ftp://ftp.cordis.lu/pub/ist/docs/digicult/study.zip>.
HEDSTROM, Margaret, MONTGOMERY, Sheon. Digital Preservation Needs and Requirements in RLG Member Institutions
[online]. Mountain View (Calif.) : Research Libraries Group, December 1998 [cit. 2001-03-19]. Dostupné na WWW: <
http://www.rlg.org/preserv/digpres.html>.
KUNNY, Terry. The digital ages? Challenges in the preservation of electronic information. International Preservation
News [online]. May 1998, no. 17 [cit. 2001-03-10]. Dostupné na WWW: <
http://www.ifla.org/VI/4/news/17-98.htm>.
Preserving digital information : report of the Task Force on Archiving of Digital Information
[online]. Commissioned by the Commission on Preservation and Access and the Research Libraries Group. Mountain View
(Calif.) : Research Libraries Group, 1996-05-01 [cit. 2001-03-16]. Dostupné na WWW: <http://www.rlg.org/ArchTF/tfadi.index.htm>.
ROTHENBERG, Jeff. An experiment in using emulation to preserve digital publications [online]. Haag : Koninklijke
Bibliotheek, April 2000, rev. 2000-05-11 [cit. 2001-03-19]. Dostupné na WWW: <
http://www.kb.nl/coop/nedlib/results/emulationpreservationreport.pdf>. ISBN 90-62-59-1442.
ROTHENBERG, Jeff. Avoiding technological quicksand : finding a viable technical foundation for digital preservation :
report to the Council on Library and Information Resources [online]. Washington, D. C. : CLIR, January 1999 [cit.
2001-03-16]. vi, 35 s. Dostupné na WWW: <
http://www.clir.org/pubs/reports/rothenberg/pub77.pdf>. ISBN 1-887334-63-7.
ROTHENBERG, Jeff. Using emulation to preserve digital documents. Hague : Koninklijke Bibliotheek, July 2000. 69 s.
ISBN 90-6259145-0
. Dostupné též na WWW: <http://www.konbib.nl/kb/pr/fonds/emulation/usingemulation.pdf>.
RUSSELL, Kelly. Digital preservation : ensuring access to digital materials into the future. [online] University of
Leeds, June 1999 [cit. 2001-03-19]. Dostupné na WWW: <
http://www.leeds.ac.uk/cedars/Chapter.htm>.
PŘÍLOHA č. 1: Narušení integrity statického HTML dokumentu z formálního a
obsahového hlediska (chybějící externí soubory definující kaskádové styly a javascripty)
PŘÍLOHA č. 2: Ztráta integrity textového souboru z formálního hlediska (konverze RTF
® TXT)
PŘÍLOHA č. 3: Emulace webového prohlížeče Netscape 1.0 v operačním systému
Windows 98
PŘÍLOHA č. 4: Neúspěšná migrace souboru ve formátu .SAM (AmiPro 3.0) do formátu
.DOC (MS Word 97)
PŘÍLOHA č. 5: Migrace téhož souboru ve formátu .SAM (AmiPro 3.0) do formátu .WPD
(WordPrefect 8) s přijatelným výsledkem (integrita byla částečně porušena z formálního hlediska)
Mgr. Filip Vojtášek (1972) absolvoval Vyšší školu
informačních služeb (1996) a Ústav informačních studií a knihovnictví FF UK (2000), kde obhájil diplomovou práci na téma
digitalizace historických fondů. V roce 1997 stál se třemi dalšími kolegy u zrodu elektronického časopisu Ikaros
(www.ikaros.cz), kde dosud působí jako redaktor. K jeho profesním zájmům patří design webovských informačních systémů,
zpracování a archivace elektronických dokumentů a digitalizace. V současnosti učí na VOŠIS předměty Elektronické publikování a
Public relations se zaměřením na neziskový sektor, podílí se na řešení programového projektu výzkumu a vývoje “Registrace,
ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet” (Národní knihovna ČR, 2000–2001) a pracuje ve společnosti
Albertina icome Praha v oblasti public relations.
|