1. ÚVOD
Na konferenci INFORUM 2000 (23.-25. května 2000) byl pod názvem Registrace a zpřístupňování elektronických
zdrojů publikovaných v síti Internet - nový program v České národní bibliografii poprvé veřejně představen projekt, řešený v
Národní knihovně ČR v období duben 2000 - prosinec 2001 v rámci programu výzkumu a vývoje Ministerstva kultury ČR. Z těchto
uvedených dat je patrné, že realizace zmíněného projektu stála teprve na začátku. Přednáška proto tehdy vycházela hlavně ze
studia výsledků řešení podobné problematiky ve světě a z představ řešitelů o cílech projektu. Tehdy ještě informace nezaujaly
výjimečnou pozornost, ale také zcela nezapadly, když v anketě registrovaných účastníků konference prezentace obsadila v sekci
Trendy a technologie 6. místo.
Řešením tohoto projektu se Česká republika zařadila mezi nejvyspělejší země, které v poslední době oprávněně
věnují archivaci elektronických (zejména online přístupných) dokumentů značnou pozornost. Během dvouletého řešení pilotního
projektu se tato problematika dostala mezi problémy řešené rovněž na půdě mezinárodních institucí -v této souvislosti jmenujme
např. společnou iniciativu CENL (Conference of European National Librarians) a FEP (Federation of European
Publishers), jejímž výsledkem je deklarace upravující vztahy mezi vydavateli elektronických zdrojů a depozitními institucemi International
declaration on the deposit of electronic publications(český překlad Mezinárodní deklarace k odevzdávání
elektronických dokumentů do konzervačního fondu je dostupný na http://webarchiv.nkp.cz/CENL_FEP.pdf).
Problém trvalého uchování národního bohatství v podobě elektronických publikací, zejména síťových, tedy už přestává být
experimentem “pokrokovějších” zemí, ale stává se obecně naléhavou výzvou pro knihovny i nakladatele, neboť objem digitálních
informací narůstá obrovským tempem a politice ochrany těchto dokumentů a k tomu sloužícím technologiím se dosud
věnovala minimální nebo nulová podpora. Mnohé z elektronických zdrojů, které neexistují souběžně v tradiční (tištěné nebo
analogové) formě (digital born), byly již trvale ztraceny, neboť jejich tvůrci nebo vydavateléodstranili z webu své
elektronické publikace, aniž by zajistili jejich trvalou archivaci. Naléhavost řešení tohoto problému dokládávyjádření IFLA,
která usiluje rovněž o dohody s IPA (International Publishers Association): “I když náklady na dlouhodobou archivaci jsou
vysoké, náklady na nicnedělání v této oblasti by byly katastrofální.”
Registrace, archivace a trvalé zpřístupňování internetových zdrojů je velmi komplexní problematika,
kterázahrnuje aspekty knihovnické, legislativní a technologické. Všechny tyto oblasti jsou ovšem vzájemně propojeny a
řešení dílčí problematiky je podmíněno řešením v ostatních oblastech. Po celou dobu řešení pilotního projektu, který dostal
pracovní název WebArchiv (http://webarchiv.nkp.cz), spolupracovala
řešitelská instituce, Národní knihovna České republiky, s pracovníky Ústavu výpočetní techniky Masarykovy univerzity v Brně
v oblasti problematiky informačních a komunikačních technologií; na řešení okruhu problémů knihovnických a legislativních
se podíleli externí spolupracovníci - odborníci v oblasti elektronického publikování (časopis Ikaros - Ikaros, o. s.).
2. VÝSLEDKY ŘEŠENÍ
Řešení pilotního projektu představovalo principiálně testování dvou metod, které by v optimálním případě
měly být v praxi aplikovány paralelně s cílem umožnit dlouhodobé uchování a využívání elektronických zdrojů:
- shromažďování, registrace a archivace vybraných domácích elektronických online dostupných dokumentů jako legitimní součásti
národní publikační produkce podle stanovených kritérií výběru pro účely České národní bibliografie; tato činnost klade
značné nároky na intelektuální práci zpracovatelů;
- shromažďování a archivace domácích zdrojů z Internetu v relativní úplnosti (automatizovaný proces).
Informace o řešení jsou dále rozděleny do dvou částí: na oblast problematiky knihovnické, resp. vydavatelské a
právní a na oblast problematiky informačních technologií.
2.1 Oblast problematiky vztahů knihoven, vydavatelů a legislativy
a) Legislativa
Mnoho pozornosti bylo věnováno legislativním otázkám, týkajícím se jednak autorského práva (archivace a
zpřístupňování, resp. kopírování archivovaných dokumentů), jednak práva depozitní knihovny/instituce na povinný "výtisk"
elektronického zdroje, resp. jejího oprávnění archivovat internetové zdroje v depozitáři, tedy v digitálním archivu (obdoba
konzervačního fondu klasických dokumentů). V některých zemích je již v platnosti zákon o povinném výtisku (Dánsko, Norsko,
Slovensko), ovšem znění zákonů jsou příliš obecná a bez upřesňujících směrnic ne příliš v praxi použitelná. Přesnější znění
zákonů jsou připravena ke schválení v Austrálii, Finsku a Švédsku. Některé země (Nizozemí, Velká Británie, Německo) aplikovaly
dohody mezi depozitními knihovnami a vydavateli, umožňující dočasné řešení legislativních otázek získávání, archivace a
zpřístupňování zdrojů publikovaných v síťovém prostředí. Velkým přínosem pro řešení této problematiky v dalších zemích
by měla být spolupráce mezi CENL (Conference of European National Librarians) a FEP (Federation of European Publishers).
Také v České republice byly v rámci projektu připraveny podmínky k uplatnění dohod depozitní knihovny s vydavateli
elektronických zdrojů a k postupné přípravě zákona týkajícího se odevzdávání povinného výtisku vydavateli online přístupných
elektronických zdrojů (monografických i seriálových) do digitálního archivu.
b) Využití metadat
Jelikož metadata hrají při dlouhodobé archivaci a zpřístupnění webových zdrojů zásadní roli, byla této otázce
věnována značná pozornost také při řešení projektu. Pro tyto účely byl zvolen Dublin Core
Metadata Element Set (zkráceně označovaný Dublin Core), který je všeobecně považován za nejperspektivnější metadatový
formát, i když je rozšířen méně, než se původně předpokládalo. K hlavním přednostem Dublin Core patří rozšiřitelnost a
jednoduchost, což znamená, že základní sadu prvků a jejich atributů (kvalifikátorů) je možné doplnit nebo upravit tak, aby
vyhovovala potřebám využití tohoto formátu v konkrétních podmínkách.
Využití Dublin Core v projektu se opírá o překlad Dublin Core Metadata Element Set (v poslední verzi 1.1
schválené v červenci 1999) a kvalifikátorů (schválené v dubnu 2000) do češtiny. Tento překlad byl publikován v červnu 2000
(dostupný na http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html);
jeho garantem je Ústav výpočetní techniky MU.
Vzhledem k tomu, že pro vyhledávání dokumentů má nesporně značný význam věcný popis, nejzásadnější změna
Dublin Core provedená v rámci projektu WebArchiv v lokalizované verzi generátoru metadatových záznamů podle tohoto standardu se
týkala prvku Předmět (Subject). Původní tzv. kvalifikátory schématu umožňující věcný popis pomocí v zahraničí používaných
řízených předmětových slovníků a systematických třídění byly nahrazeny, resp. doplněny slovníky a tříděními používanými v
domácích veřejných a odborných knihovnách:
Generátor metadat Dublin Core byl v průběhu řešení testován vybranými vydavateli různých typů elektronických
zdrojů a průběžně upravován pro praktické využití. I nadále se počítá s jeho vývojem.
c) Kritéria výběru
Při formulaci kritérií, podle nichž budou vybírány ty zdroje, které budou zařazovány do České národní
bibliografie, se vycházelo ze strategií archivace webových zdrojů přijatých v rámci obdobných zahraničních projektů (zejména
projektu National Library of Australia PANDORA), ovšem s přihlédnutím ke specifické situaci v České republice. Kritéria jsou
výsledkem diskusí, které provázely experimentální zpracovávání webových zdrojů podle Dublin Core (ve spolupráci s kolegy z
odborných knihoven a vydavateli elektronických seriálů) v druhé fázi řešení projektu. Na tomto místě je třeba zdůraznit, že i
nadále platí, že míra úspěšnosti projektů, které budou zaměřeny na rutinní zpracování webových zdrojů, bude odvozena od ochoty
vydavatelů těchto zdrojů integrovat Dublin Core do svých publikačních aktivit.
Kritéria:
- podle domény (místa uložení zdroje)
Primárně jsou brány v úvahu zdroje přístupné na serverech s doménou prvního stupně .cz. V této
souvislosti však vyvstává problém, jak správně vymezit tzv. národní web (tj. zda uplatňovat pouze teritoriální hledisko nebo
také jazykové hledisko podobně, jako je tomu u tradičních bohemikálních dokumentů). Faktem zůstává, že není možné výše uvedenou
podmínku za všech okolností striktně dodržet, protože v některých případech čeští vydavatelé záměrně nebo nuceně (obvykle z
důvodu předchozí registrace žádané domény ze strany spekulantů) využívají servery s doménami .com, .net a
výjimečně také .org (např. oficiální prezentace Městského úřadu v Hořicích na www.horice.org, fotografický
průvodce New Yorkem od M. Baňkové na www.nycmap.com - aj.). V těchto případech je
třeba identifikovat vlastníka domény druhého stupně pomocí specializovaných služeb. Stejné zkušenosti byly získány při
automatickém sběru švédských webových zdrojů v rámci projektu Kulturarw3 - bylo zjištěno, že až 40 % zdrojů je uloženo na
serverech mimo národní doménu .se.
- podle obsahu zdroje
Jsou brány v úvahu zdroje odborného nebo uměleckého charakteru, u nichž se předpokládá, že mají informační
hodnotu pro větší okruh budoucích uživatelů. Záměrně jsou pominuty zdroje, které jsou výsledkem soukromých, firemních nebo ryze
reklamních publikačních aktivit, i když s vědomím, že i v této oblasti se mohou vyskytovat zdroje, které mohou být pro některé
uživatele zajímavé, resp. zdroje, které nejsou jiným způsobem zveřejněny.
- podle typu zdroje
Repertoár typů zdrojů (vzorek viz http://webarchiv.nkp.cz/dc.php) je poměrně pestrý a je do jisté míry
ovlivněn předchozím kritériem. Při jejich výběru se vychází z běžných klasifikací dokumentů. Jde především o seriály,
konferenční příspěvky, výzkumné a jiné zprávy, studie vzniklé např. jako výstupy vědeckých a výzkumných projektů, akademické
práce, dokumenty veřejné správy. Je příznačné, že tyto zdroje spadají do kategorie tzv. šedé literatury.
- podle formy
Jsou brány v úvahu ty zdroje, které jsou publikovány pouze v elektronické formě, aby se zabránilo duplicitě
zpracování webových zdrojů a tradičních (tištěných) dokumentů s identickým obsahem.
- podle přístupu
Jsou brány v úvahu pouze ty zdroje, které jsou volně přístupné, to znamená, že nejsou k dispozici v rámci
placených informačních služeb.
- podle formátu
Z pragmatických důvodů jsou preferovány formáty, které jsou všeobecně podporovány producenty aplikačního
softwaru (zejména webových prohlížečů), nikoliv tedy proprietární formáty, pro jejichž korektní zobrazení je třeba zvláštní
aplikační software. K tomu je třeba dodat, že některé z těchto formátů se staly - díky dominantnímu postavení producenta na trhu
- standardy elektronického publikování de facto (např. Adobe - pdf, Microsoft - doc). Archivaci webových zdrojů
usnadňuje empiricky dokázaný fakt (harvesting - automatické stahování -českého, švédského, nizozemského a finského webu), že
navzdory velkému množství formátů, se kterými se na webu můžeme setkat, je většina webových zdrojů (85 až 90 procent) uložena v
malém počtu formátů (resp. MIME podtypů) - html/htm (k tomu připojme asp a php v případě dynamických
webových informačních systémů), jpeg, gif (pro statickou grafiku) a txt. Zastoupení zdrojů ve formátech pdf,
doc, rtf a ps (PostScript) na českém webu není výrazné (viz příloha č. 9 závěrečné zprávy projektu), ale jejich
informační hodnota je obvykle vyšší než u zdrojů ve formátu html.
d) Elektronické seriály
Zvláštní pozornost byla v rámci projektu soustředěna na elektronické seriály (periodika), u nichž lze
očekávat serióznější záměry vydavatele ve srovnání s jednotlivými webovými zdroji. K 5. dubnu 2002 České středisko ISSN
registrovalo celkem 253 seriálů přístupných online, které mají různé zaměření: odborné, populárně-naučné, zábavní a
zpravodajské. Z teritoriálního hlediska mezi nimi figurují celoplošné i lokální seriály. V jednom případě (Carolina) byla
přidělena dvě ISSN (pro českou a anglickou verzi). Ne všechny seriály jsou dosud vydávány (237 titulů). Z uvedeného počtu byl k uvedenému
datu pouze časopis Ikaros systematicky excerpován v celostátním měřítku (v databázi knihovnické literatury KKL Národní
knihovny ČR od srpna 1999 a v článkové polytematické databázi ANL, která je součástí České národní bibliografie, od května
1999). S některými vydavateli byla zahájena spolupráce (Ikaros, Česká škola, Elektrorevue). Vydavatel časopisu Ikaros vyvíjí nový publikační systém, který
bude umožňovat generování metadatových záznamů ve struktuře Dublin Core do zdrojového kódu článků.
Registrované seriály lze rozdělit do tří skupin:
- seriály vycházející výhradně v elektronické formě
Početně největší skupina, do níž jsou zařazeny zpravodajské servery a další dynamické webové
informační systémy, které jsou zpravidla aktualizovány průběžně a které tradiční klasifikace seriálů nezná - např. Česká škola, Živě, root.cz,
Svět Namodro, Instantní Astronomické noviny aj. Kromě
nich jsou v této skupině zastoupeny seriály, které do značné míry napodobují tradiční vydavatelský model - mají předem
stanovenou periodicitu. Patří k nim např. Ikaros,
Chirurgie aj.
- online přílohy tištěných seriálů
Rostoucí skupina seriálů, jejichž charakteristickým znakem je částečná obsahová nezávislost na
“originálu” a které mají z technického hlediska rovněž podobu dynamických databází - např. EkoList
po drátě, iDNES, iHNed aj.
- elektronické verze tištěných seriálů
Těmito seriály nemá smysl se z praktického i metodického hlediska zabývat, protože jde o zpřístupnění
téhož dokumentu jiným způsobem. Často mají tyto seriály sloužit k marketingové podpoře svých tištěných protějšků, někdy
elektronické verze nejsou volně přístupné.
2. 2 Oblast informačních a komunikačních technologií
Pro testování vyvíjených, resp. aplikovaných a lokalizovaných softwarových nástrojů sloužil PC suplující
server, pracující pod operačním systémem Linux. V konečné fázi řešení se rovněž využíval páskový robot sloužící již dříve v
Národní knihovně ČR pro řešení příbuzné problematiky digitalizace tradičních druhů dokumentů.
Softwarovými nástroji se podrobněji zabývá přednáška ing. Petra Žabičky publikovaná rovněž v tomto sborníku;
proto uvádím pouze stručný přehled těchto nástrojů, které jsou dostupné pro uživatele na webové prezentaci projektu
WebArchiv (http://webarchiv.nkp.cz).Pro vývoj softwarových nástrojů
byla navázána spolupráce se severskými zeměmi a bylo použito nástrojů, které byly výsledkem řešení projektů NEDLIB a Nordic
Metadata I a II. Řešitelé českého projektu přispěli k dalšímu rozvoji těchto nástrojů.
V současné době jsou k dispozici následující softwarové nástroje:
- Generátor metadat Dublin Core, kterýslouží pro tvorbu metadatových záznamů DC v různých
výstupních formátech (viz příloha č. 1);
- Generátor URN
pro přidělování jednoznačného čísla národní bibliografie pro elektronické dokumenty (URN:NBN - viz příloha č. 2);
- Kalkulátor MD5, použitelný pro zjištění, jak je daný dokument v
archivu zastoupen nebo zda se liší od zdánlivě stejného dokumentu na jiné adrese (viz příloha č. 3);
- Nedlib Harvester, sloužící k automatickému doplňování digitálního
archivu.
3. ZÁVĚR
V rámci pilotního projektu, v podmínkách testování, byly vytvořeny předpoklady pro postupné zajišťování
problematiky registrace, ochrany a zpřístupňování online dostupných elektronických zdrojů v provozních podmínkách.
Konkrétně byly připraveny podklady pro právní zabezpečení získávání, archivace a zpřístupňování domácích elektronických zdrojů
publikovaných v síti Internet, softwarové nástroje pro provádění těchto činností a byla navázána spolupráce s vybranými
vydavateli síťových elektronických zdrojů pro simulaci těchto činností v praxi. Data získaná v rámci automatizovaného
stahování zdrojů z webu mohou být využívána rovněž pro registraci elektronických zdrojů dostupných online v České
národní bibliografii.
Od vytvoření základních předpokladů v podmínkách testování k provoznímu řešení problematiky trvalého
zajištění ochrany a zpřístupnění síťových elektronických zdrojů je však ještě dlouhá a náročná cesta, vyžadující značné finanční
prostředky zejména na investiční vybavení (hardware) a jeho průběžné obnovování i na průběžnou aktualizaci softwarových
nástrojů. Proto je třeba tyto činností koordinovat s řešením podobných činností, jako digitalizace tradičních dokumentů a jejich
zpřístupňování či analytické zpracování a zpřístupňování plných textů článků z elektronických časopisů. Rovněž je třeba počítat
s nároky na lidskou práci související jak s tvorbou bibliografické databáze, tak s řízením výpočetní a
komunikační techniky.
Pilotní projekt skončil v prosinci 2001 a po zrušení ročního programu VaV na rok 2002 Zpřístupňování a
ochrana knihovních fondů formou digitalizace s využitím mezinárodní sítě Internet v souvislosti s vytvářením informační
společnosti, vypsaného Ministerstvem kultury ČR se zdálo, že nebude mít pokračování. Pro rok 2002 se situace alespoň
částečně vyřešila schválením nového projektu v rámci programu VISK3. Součástí jeho řešení by měl být odhad věcných a finančních
předpokladů (hardware a software) pro průběžnou tvorbu a zpřístupňování webového archivu a pro “údržbu" archivovaných zdrojů
(technologie migrace dat, emulace aj. - v souvislosti s morálním stárnutím nástrojů interpretace elektronických zdrojů). Na
základě této analýzy bude třeba hledat finanční zdroje na provozní zpracování online dostupných elektronických zdrojů, a to v kontextu
s problematikou digitalizovaných dat, s níž má zejména po technické stránce mnoho společného, tj. jako komplex
digitální knihovny.
Použitá literatura:
Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet : závěrečná zpráva za
léta 2000-2001 [online]. Praha : Národní knihovna ČR, leden 2002 [cit. 2002-04-08]. Dostupný na WWW: <http://webarchiv.nkp.cz/zprava2001/zprava2001.pdf>.
Příloha č. 1
Příloha č. 2
Příloha č. 3
|