Na konci loňského roku byla odevzdána závěrečná zpráva projektu výzkumu a vývoje “Registrace, ochrana a
zpřístupnění domácích elektronických zdrojů v síti Internet”. [1] Ačkoli byl projekt tímto aktem oficiálně ukončen, bylo díky
výzkumnému záměru CEZ:J07/98:143300004 “Digitální knihovny” Ústavu výpočetní techniky Masarykovy univerzity možné bez přerušení
pokračovat v dalším vývoji infrastruktury, jejíž základy projekt ukončený projekt položil.
Výsledky výzkumného projektu
Softwarová část projektu byla od počátku zaměřena dvěma hlavními směry. První z nich se soustředil na podporu
získávání a tvorby metadat, popisujících elektronický zdroj, zatímco druhý se zaměřil na problematiku archivace online
elektronických zdrojů. Třetí důležitý směr, tedy samotné zpřístupnění archivovaných elektronických zdrojů, byl zatím jen
předběžně analyzován.
V současné době nejdůležitějším prvkem vybudované infrastruktury je Nedlib Harvester - softwarový robot,
procházející vymezenou část webu a ukládající všechny na něm nalezené dokumenty do archivu. Tento archiv, jehož velikost bude
muset být v ostrém provozu počítána v terabajtech, je nyní budován na páskovém robotu Národní knihovny, který hostí i data z
mnoha dalších, především digitalizačních projektů. Z praktického hlediska má však tento archiv zatím jednu nevýhodu - tou je již
zmíněná absence nástrojů pro jeho indexaci a zpřístupnění. Je nutné si uvědomit, že o co snadnější je v současné době vytvořit v
podstatě jakkoli velký sklad digitálních dokumentů, o to obtížnější je takový sklad dlouhodobě rutinně provozovat. Výhodou pro
řešitele projektu byla právě existence vyzkoušené technologie pro archivaci velkého objemu dat přímo v NK.
Pomineme-li první pokusy na poli zpřístupňování archivu, jsou další skupinou programy zaměřené na metadata -
Generátor metadat Dublin Core, Generátor jednoznačného identifikátoru URN a Kalkulátor kontrolního součtu MD5 [2].
Při řešení celého projektu byly s výhodou využity mnohé softwarové nástroje na bázi otevřeného kódu, operačním
systémem Linux počínaje a výše zmíněnými programy včetně Harvesterem využívané databáze MySQL konče. To řešitelskému týmu
umožňuje mimo přímých finančních úspor i snadnou lokalizaci, drobné úpravy funkčnosti a operativní opravy nalezených chyb. Díky
možnosti přístupu ke zdrojovým textům programů je také snadnější propojovat jednotlivé získané nástroje do větších funkčních
celků a spolupracovat se zahraničními týmy, řešícími ekvivalentní problematiku s využitím stejných nebo podobných nástrojů.
Metadatové nástroje
Nejdůležitějším zástupcem skupiny metadatových nástrojů je již zmíněný Dublin Core Metadata
Generator. Tento nástroj, veřejně přístupný na serveru projektu (http://webarchiv.nkp.cz), umožňuje autorům webových stránek
poloautomaticky nebo ručně vytvořit a ve zvolené syntaxi uložit metadata respektující pravidla kvalifikovaného Dublin Core [3,
4]. Pokud již dokument nějaká metadata Dublin Core obsahuje, nebo na ně standardním způsobem odkazuje ( <link rel="meta"
href="URL_souboru_s_metadaty.rdf" /> ), může uživatel zvolit jejich načtení do formuláře a je mu tak umožněna i jejich další
editace, případně konverze do jiného formátu.
Dublin Core Metadata Generator byl původně společně s dalšími nástroji převzat s minimálními úpravami od
Helsinské univerzitní knihovny, která jej vyvinula v rámci projektů Nordic Metadata I a II (http://www.lib.helsinki.fi/meta/).
Na základě výsledků zkušebního provozu byl program postupně upravován až do dnešní podoby. Ačkoli se část úprav týkala spíše
zpřehlednění programu a generovaného kódu html, došlo i k mnoha změnám funkčním. Původní program například obsahoval nepříjemnou
chybu znemožňující korektně analyzovat již uložená pole DC metadat, pokud se v daném dokumentu vyskytovala opakovaně. Analytická
část byla také rozšířena o podporu formátu pdf a ve vývoji je integrace volně dostupných komponent pro podporu analýzy textových
formátů firmy Microsoft. Významným pokrokem bylo také zavedení již zmíněné podpory extrakce metadat ve formátu RDF/XML.
Výstupní formát HTML byl upraven tak, aby vygenerovaná metadata byla kompatibilní s XHTML 1.0, zatímco
výstup ve generovaný ve formátu XML/RDF byl zpřehledněn a byla aktualizována použitá syntaxe.
I samotný formulář pro vkládání metadat doznal určitých změn, z nichž nejvýznamnější je volba kvalifikátorů
prvku Subject tak, aby odpovídaly u nás používaným systémům věcného třídění a také doplnění funkce automatického vložení
jedinečného čísla národní bibliografie ve formátu URN přímo do pole Identifier, pokud bylo toto pole předtím prázdné:
To zajišťuje uživateli větší pohodlí a výrazně zmenšuje riziko chyb, hrozících jinak při kopírování nebo
přepisu identifikátoru. Doufáme, že právě cesta získávání URN autory dokumentů během tvorby metadat popisujících tyto dokumenty
v budoucnosti učiní používání samostatného formuláře pro přidělování URN zbytečným.
Zmíněné přidělení jednoznačného identifikátoru je umožněno propojením Dublin Core generátoru s generátorem
URN. Ten byl nejprve také převzat jen s minimálními úpravami (překlad z finštiny) a právě kvůli propojení s DC generátorem
musel být mírně upraven. Již nyní ale uvažujeme o tom, že systém přidělování URN přepracujeme tak, aby program přidělující URN
fungoval zcela nezávisle na konkrétním způsobu, kterým uživatelé URN získávají. Budou zveřejněny funkce pro získání URN, napsané
v často používaných programovacích jazycích, které umožní snadnou integraci této funkce přímo do publikačních systémů vydavatelů
online zdrojů. Díky tomu by se přidělování URN stalo zcela automatickým procesem.
Řadu pomůcek dostupných na serveru webarchivu doplnil i kalkulátor MD5. Ten umožňuje spočítat kontrolní
součet MD5 zadaného textového řetězce (podrobnosti viz [2]). Pokud je tímto řetězcem platné URL nějakého dokumentu, může
kalkulátor tento dokument stáhnout a spočítat jeho kontrolní součet. Protože jsou tyto kontrolní součty používány pro
identifikaci dokumentů, archivovaných Harvesterem, je jedna z možností využití Kalkulátoru zřejmá: může sloužit jako pomůcka při
analýze práce Harvesteru i při zkoumání archivu samotného.
Jeho využití je však mnohem širší a nemusí s projektem vůbec souviset: za dodržení jistých předpokladů jej
může kdokoli využít například pro ověření autenticity dokumentu, jehož původní kontrolní součet zná.
Nástroje pro archivaci a zpøístupnìní
Základním softwarovým prostředkem projektu zůstává nadále Nedlib Harvester. Jde o nástroj, který je
optimalizován pro plošné stahování a archivaci online dostupných dokumentů. Protože velikost tvořeného archivu snadno dosahuje
obrovských rozměrů, jedno kolo stahování v našich podmínkách představuje stovky GB, nejsou archivované dokumenty ukládány
do databáze ale přímo do souborového systému serveru. Dalším důvodem pro toto rozhodnutí je i snadnější migrace archivu na nové
platformy - je nutné si uvědomit, že budovaný archiv by měl být trvale dostupný i ve vzdálené budoucnosti. Protože žádný
souborový systém se nedokáže rozumně vypořádat s velkým množstvím malých dokumentů, jsou nově získané dokumenty před
uložením do archivu spojovány programem tar do balíků po několika tisících a poté ještě komprimovány programem gzip. Spolu s
každým dokumentem jsou do archivu uložena i metadata, popisující jeho vlastnosti, okolnosti jeho stažení a v případě html
dokumentu i všechna metadata, která v něm byla obsažena.
Ač byl předchůdcem programu NEDLIB Harvester robot pro indexaci webových stránek, v současnosti je Harvester
samostatným produktem, optimalizovaným právě pro archivaci ve velkém. Samozřejmě je, tak jako jiné webové roboty, omezen jen na
“viditelný web”, ten se ale pokouší stáhnout a archivovat v co největší úplnosti, k čemuž přispívá i podpora stahování
stránek zabezpečených heslem (samozřejmě za předpokladu, že heslo bylo předem do programu zadáno). Harvester se snaží být vůči
stahovaným webovým serverům “přátelský” - stahování souborů z každého serveru se snaží rozložit na delší časové období, přičemž
bere ohled na rychlost odezvy daného serveru tak, aby jej jednostranně nepřetěžoval a neblokoval tak jeho internetové
připojení.
Tato vlastnost, ač by se dala hodnotit jako velmi “přátelská”, s sebou nese i riziko zavlečení nekonzistencí do
archivu: mohlo by se totiž stát, že mezi stažením vlastního html dokumentu a stažením do něj vložených grafických prvků uplyne
taková doba, že mezitím dojde k jejich změně. Proto je harvester nastaven tak, aby se při stahování webových stránek choval
podobně jako běžné prohlížeče a vloženou grafiku stáhnul co nejdříve po stažení vlastního dokumentu.
Nejnovější distribuovaná verze harvesteru, se kterou pracuje i náš tým, je verze 1.2. Do ní již byly zahrnuty i
opravy těch chyb předchozí verze, které jsme odstraňovali během testování v loňském roce. Nová verze přinesla mimo větší
stability i několik novinek: podporuje protokol HTTP 1.1 a může díky tomu využívat trvalejšího spojení se servery než v
minulosti. To se pak zpětně odrazilo ve změně architektury harvesteru, který se nyní snaží optimalizovat sklízení tak, aby
stahování několika velkých serverů neblokovalo sklizeň serverů o několik řádů menších. Původně společná fronta URL ke stažení
byla proto rozdělena tak, že každý server má nyní frontu vlastní.
Ani tato verze však neumožňovala snadno měnit konfiguraci - některé docela zásadní parametry systému (název
databáze, cesty k pracovním adresářům a další) byly zakompilovány přímo v programu a nebylo proto snadné je operativně měnit. To
je potřeba především proto, aby mohlo na jednom serveru běžet paralelně více sklizní s různými, uživatelem nastavenými a
průběžně měněnými parametry. Proto byla standardní verze harvesteru upravena tak, že je nyní možné pomocí jednoduchého webového
rozhraní konfigurovat a spouštět libovolné instance harvesteru.
Ačkoli bude toto rozhraní dále zdokonalováno, je již nyní možné nastavovat všechny důležité parametry sklizně:
seznam výchozích URL, hloubku zanoření stahovaných souborů v rámci serveru, čímž se zamezí vzniku nekonečných smyček,
respektování souboru robots.txt, podpora protokolu ftp a logování zamítnutých URL. Dále je možné zakázat nebo povolit přístup k serverům
na základě příslušnosti k určité doméně, určitému serveru, části cesty k souboru, nebo jejich kombinace. Správnost
nastavených omezení lze testovat zadáním URL, které je pak proti těmto omezením ověřeno.
V nejbližší době bude toto rozhraní zdokonaleno tak, aby umožňovalo ještě větší automatizaci činností
spojených s plánováním a konfigurací sklízení jednotlivých webových periodik. Protože každé webové periodikum má jiný rozsah a
je jinak často aktualizováno, bude vytvořena databáze parametrů pro sklizně jednotlivých periodik, na jejímž základě se bude v
průběhu roku automaticky aktivovat jejich stahování. Součástí tohoto systému bude muset být i určitá zpětnovazebná nástavba,
která na základě analýzy probíhajícího stahování upozorní správce harvesteru na nutnost změny některých parametrů.
Základem takové nástavby je již vytvořený modul pro získávání základních statistik o probíhající sklizni. Je
však nutno dodat, že tento nástroj je v současné době operativně použitelný právě jen pro rozsahem omezené sklizně, jeho
nasazení při analýze plošné sklizně je zatím znemožněno dlouhá doba odezvy, která při složitějších dotazech nad celou pracovní
databází harvesteru způsobuje vypršení časového limitu dotazu. Před tímto chováním však varují i autoři harvesteru, kteří
doporučují provádět analýzu archivu pomocí jiných prostředků, než je pracovní databáze generovaná harvesterem. Jediným přiměřeně
funkčním nástrojem pro zkoumání probíhající sklizně je URL lokátor, program, který umožňuje zobrazení v databázi uložených
dokumentů stažených ze zadaného URL.
Procházet všemi archivovanými balíky dokumentů a prohlížet v nich uložené dokumenty i s nimi svázaná archivační
metadata pak dokáže jednoduchý parser.
Další vývoj
Jednotlivé prvky zatím vyvinuté infrastruktury poskytly ve zkušebním provozu jasný obraz toho, jak náročnou ale
i důležitou činností je dlouhodobá archivace online elektronických zdrojů. Práce na projektu také naznačily, kterými směry by se
měl ubírat další vývoj infrastruktury projektu.
V oblasti metadatové bude nutné zajistit logování metadat vytvořených pomocí Dublin Core Metadata Generatoru a
jejich další zpracování. Přímo se zde nabízí automatické předávání zadaných platných URL jako podkladu pro nové sklizně
harvesteru. Zároveň by mohla tato metadata sloužit jako jeden z podkladů pro výběrové analytické zpracování v rámci článkové
bibliografie. Bude pravděpodobně možné vyvinout pro jejich předávání ke zpracování takový postup, který by byl kompatibilní s
postupem, používaným nyní v procesu analytického zpracování článků z Anopressu.
Jako další logický krok se nejen proto nabízí rozšíření nabídky exportních formátů metadatového generátoru o
UNIMARC a MARC21, které usnadní například i katalogizaci českých webových periodik. Vývoj Metadata generátoru tedy bude muset
odrážet jednak změny v nárocích uživatelů a jednak změny technického rázu (podpora dalších vstupních a výstupních formátů,
proměny kvalifikátorů a možná i samotného standardu Dublin Core).
Generátor URN bude muset být přizpůsoben pro automatizované předávání čísel národní bibliografie jiným
softwarovým produktům kdekoli na síti, jinak se ve větší míře neprosadí. Ze stejného důvodu by měla být zaručena funkčnost
tohoto systému v režimu co nejbližším ideálnímu 24x7.
Vývoj NEDLIB Harvesteru bude s velkou pravděpodobností nadále podporován finskou národní knihovnou. Stejně
pravděpodobné je, že dokud budeme tento produkt používat, budeme i my, stejně jako týmy při dalších národních knihovnách, které
jej používají, přispívat určitým dílem k jeho vývoji.
Mimo již popsané problematiky konfigurace harvesteru se pozornost vývojového týmu zaměří i na tu část
harvesteru, která se zabývá ukládáním stažených dokumentů do archivu. V budoucnu by právě odsud mohly být zatím neexistujícímu
indexačnímu nástroji předávány první informace o nově získaném dokumentu.
Koncem letošního roku byl na MFF UK vypsán ročníkový týmový vývojový projekt na vytvoření indexační a
vyhledávací aplikace pro Webarchiv. Tato aplikace by měla zpřístupnit stažené dokumenty v jejich kontextu, tedy s vloženou
grafikou ze stejné doby a s odkazy vedoucími primárně opět do archivu na dokumenty ze stejného období. Vyhledávání v
archivu by mělo být umožněno nejen na základě URL nebo kontrolního součtu dokumentu, ale i na základě z dokumentu
extrahovaných metadat nebo fulltextového vyhledávání. Tato aplikace by měla podporovat (byť nutně omezené) vyhledávání přes
Z39.50 s využitím některého volně dostupného Z39.50 serveru a měla by být otevřená tak, aby bylo možné k ní kdykoli připojit
další moduly pro indexování jiných, než textových typů souborů. Jakkoli se to může zdát na první pohled nereálné, nástroje
tohoto typu již existují a jeden z nich, Convera Retrievalware, je dokonce v NK zkušebně provozován. Jedním z cílů
projektu bude proto pokus o jeho využití pro indexování některých typů souborů obsažených v archivu.
Je bohužel zřejmé, že stávající hardwarová platforma je pro ostrý provoz takového nástroje nevyhovující. To je
dáno jednak nemožností souběhu harvestingu a indexace na jednom serveru, který navíc není na tuto činnost dimenzován. Kapacitní
problémy se ovšem týkají celé hardwarové infrastruktury, která naráží velmi často na finanční strop. Proto bude jedním z
důležitých úkolů snažit se přizpůsobovat nabízené možnosti softwaru parametrům v daném okamžiku dostupných hardwarových
prostředků.
Závěr
Jakkoli je vytvořená infrastruktura vyhovující pro archivaci českého webu již v současné podobě, její
vývoj, jako vývoj v podstatě všech softwarových produktů, nemůže být nikdy zcela ukončen. Zde nejde jen o hledisko potřeb
uživatele nebo provozovatele, ale i o hledisko technického vývoje nebo legislativní problematiku. S tím, jak bude stoupat podíl
čistě elektronické produkce, bude růst i význam její dlouhodobé archivace z hlediska ochrany národního kulturního dědictví.
Literatura
[1] Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet : závěrečná zpráva
za léta 2000-2001 [online]. Praha : Národní knihovna ČR, leden 2002 [cit. 2002-04-09]. Dostupný na WWW: <http://webarchiv.nkp.cz/zprava2001/zprava2001.pdf>.
[2] Žabička, Petr. Nástroje pro tvorbu metadat Dublin Core. In Automatizace knihovnických procesů -
8. Vyd. první. Praha : ČVUT - Výpočetní a informační centrum, 2001, 2001. AKP, ISBN 80-01-02-366-4, s. 86-91.
[3] Soubor metadatových prvků Dublin Core, verze 1.1: referenční popis [online]. Brno : Ústav výpočetní
techniky Masarykovy univerzity v Brně, červen 2000 [cit. 2002-04-09]. Dostupný na WWW: <http://www.ics.muni.cz/dublin_core/DC-czech-1.1.html>.
[4] Kvalifikátory Dublin Core [online]. Brno : Ústav výpočetní techniky Masarykovy univerzity v Brně, červen
2000 [cit. 2002-04-09]. Dostupný na WWW: <http://www.ics.muni.cz/dublin_core/DC-kvalif.html>.
[5] Žabička, Petr. NEDLIB Harvester - technika "sklizně" informací. Ikaros. ISSN 1212-5075, 2000, vol.
4, no. 10, [cit. 2002-04-09]. Dostupný na WWW: <http://www.ikaros.cz/2000/c10/harvest.htm>.
|