Hybridní technologie reformátování knihovních fondů | |
Jiří Polišenský, Národní knihovna ČR, Praha | |
Hybridní technologie reformátování kombinuje mikrofilm a digitální formát za účelem ochrany ohrožených knihovních fondů. Mikrofilm garantuje dlouihodobé dochování obsahu dokumentu, digitální formát slouží pro zpřístupňování uživatelům. Národní knihovna ČR realizovala v letech 1997 až 1999 projekt "Digitalizace mikromédií", v rámci kterého bylo vytvořeno pracoviště skenování mikrofilmů a mikrofiší a zpřístupňování digitálních dokumentů prostřednictvím internetu. |
Digitalizace mikromédií
Digitalizace mikromédií se v současné době doporučuje jako uznávaná hybridní technologie ochranného reformátování, která se využívá k záchraně knihovních dokumentů ohrožených degradací, zejména novin, časopisů a dalších publikací tištěných na kyselém papíru. Mikromédia jsou různé druhy mikrografických nosičů. V knihovnách se nejvíce využívají mikrofilmy 35 mm a mikrofiše formátu A6, s různým počtem polí. V jiných oblastech se využívají také mikrofilmy 16 mm a mikroštítky. Reformátování je technologický postup, jehož pomocí se převádí obsah dokumentu na jiný nosič a to buď při zachování, nebo se změnou původní grafické podoby. Nejvíce používanými technologiemi reformátování v knihovnách jsou mikrofilmování, elektrografické kopírování, digitalizace a v poslední době zejména hybridní technologie, kombinující mikrofilm a digitální záznam.
Reformátování má v oblasti ochrany fondů za cíl vytvořit trvanlivou kopii, která nahradí původní dokument nejen v současné době, ale i po jeho definitivním zničení a to v termínech staletí. Současná trvanlivost mikrofilmu se odhaduje na 500 a více let bez nutnosti složité kontroly, závislé na nákladných zařízeních a dalších operací. Proto se mikrofilm jako jediné médium používá tam, kde je podmínkou uchovat reformátovanou kopii dlouhodobě, nebo trvale. Svitkový mikrofilm je však do značné míry nepříznivý pro zpřístupňování a jeho duplikování je nákladné. Z těchto důvodů je daleko výhodnější používat pro zpřístupňování digitální formát. V případě hybridní technologie tak mikrofilm slouží pro dlouhodobé uchování, digitální formát pro zpřístupňování.
Projekt Digitalizace mikromédií řešila Národní knihovna ČR spolu s Ústavem pro českou a světovou literaturu a firmou Albertina icome Praha v letech 1997 až 1999. Jeho cílem bylo uplatnění hybridní technologie reformátování v oblasti ochrany knihovních dokumentů v podmínkách veřejných knihoven České republiky. Výsledkem řešení projektu je pracoviště digitalizace mikrofilmů a mikrofiší, které je schopno provádět konverzi mikrografických médií do digitálního formátu a zpřístupňovat digitalizované dokumenty prostřednictvím CD-R médií, lokální sítě NK ČR a internetu. Součástí řešení bylo vytvoření metody indexace monografických a periodických dokumentů a tvorby metadat ve formátu DOBM. V tomto bodě byly využity výsledky již řešených projektů NK ČR a Albertiny icome Praha v rámci programu UNESCO Paměť světa. Projekt Digitalizace mikromédií byl řešen také v úzké návaznosti na projekt Kramerius I, projekt ochranného mikrofilmování ohrožených bohemikálních dokumentů.
Proces skenování mikromédií
Koncem r. 1997 a v r. 1998 byl řešen problém skenování mikrofilmů a
mikrofiší. Bylo třeba rozhodnout, jaké parametry by měl tento proces splňovat.
Vzhledem k tomu, že mikrofilmy a mikrofiše zhotovené v knihovnách ČR obsahují
a v budoucnosti budou obsahovat nejrůznější typy dokumentů, noviny, časopisy,
monografie, staré tisky rukopisy atd., bylo nutné, aby přístroj byl schopen
produkovat obrazové soubory s vysokou rozlišovací schopností a v plné šedé
škále. Dalším kritériem, podle kterého se rozhodovalo o parametrech skeneru
byla rychlost skenování a tím daná produktivita pracoviště. Zda bude hybridní
technologie aplikována na velmi omezený počet mikrofilmovaných dokumentů,
nebo bude uplatněna hromadně. Vzhledem ke specifické situaci v NK ČR, kde
bylo mnoho dokumentů mikrofilmováno, aniž byly zhotoveny uživatelské kopie,
a vzhledem k výhodám zpřístupňování dokumentů v digitální podobě, bylo
rozhodnuto konvertovat do digitálního formátu maximální počet dokumentů.
Z toho vyplynul požadavek na vysokou rychlost a produktivitu procesu digitalizace.
Dalším problémem byla skutečnost, že hybridní technologie vyžaduje specifické odborné znalosti, přístroje i programy, dodržování technologických norem a mezinárodních doporučení a samozřejmě vysoké finanční náklady na vybudování takového pracoviště. Nebylo proto reálné předpokládat, že bude možné tuto technologii vybudovat i v dalších veřejných knihovnách v ČR. Naopak výhodnějším postupem je provozovat jediné produktivní pracoviště, u kterého je mnohem snadnější zajistit požadované parametry na výstupech, než u více pracovišť a které bude konverzi mikrofilmů do digitálního formátu zajišťovat v určitém rozsahu i pro další veřejné knihovny. Výše uvedené požadavky směrovaly výběr k nejproduktivnější skupině skenerů Mekel, Wiks and Wilson a SunRise, z nichž nejlépe svými parametry vyhověl posledně uvedený přístroj.
Přístroj SunRise sestává ze základní části obsahující snímací zařízení
s 8800 CCD prvky, které mohou být využívány všechny nebo v omezeném počtu
7200, 4400 a 3600 prvků v závislosti na velikosti předlohy a rozlišovací
schopnosti. V podstavci základní části je zabudovaný PC 300 MHz Pentium,
128 MB RAM, 2 GB hard drive. Další části tvoří dva výměnné adaptery pro
svitkové filmy (16 a 35mm) a pro mikrofiše. Součástí přístroje je složitý
program ScanFlo, který umožňuje eliminovat rozdíly v optické hustotě mikrofilmů,
zlepšovat kontrast a další parametry a tím získávat poměrně kvalitní obrazové
soubory i z nestandardně zhotovených mikrofilmů. Maximální rozlišovací
schopnost je 600 dpi, obrazové soubory je možné ukládat ve formátech TIFF,
JPEG a GIF. Soubory je možné komprimovat. Max. rychlost skenování je v
případě 35mm filmu 1 pole za vteřinu, při rozlišovací schopnosti 200 dpi.
Pří vyšším rozlišení a při použití šedé škály se rychlost skenování
snižuje.
Tvorba metadat
Další oblastí řešení v rámci projektu byla oblast tvorby metadat. Metadata
(data o datech) usnadňují vyhledávání v dokumentech a jsou podmínkou pro
nezávislost digitálních dokumentů na programovém a přístrojovém vybavení.
Zde projekt navazoval na výsledky z předchozích projektů aplikací formátu
DOBM, založeném na standardu SGML, na další typy dokumentů. Byla navržena
specifikace údajů pro monografie a periodika a vytvořeny programové nástroje
umožňující poloautomatickou tvorbu metadat. Tento proces probíhá ve dvou
fázích. V prvé se vytvoří bibliografický popis a struktura dokumentu. V
případě periodik se používá formulář na kterém se shromáždí veškeré potřebné
údaje zjištěné prolistováním dokumentu. Ve druhé fázi se tyto údaje přepíší
do textového formátu, pomocí programu MICTAB. Textový soubor s indexními
daty se stává podkladem pro konverzi do formátu DOBM, která se provádí
pomocí programu DOBM generátor, který také umožňuje vytváření komplexních
digitálních dokumentů spojením obrazových souborů s metadaty. Oba programové
produkty byly vyvinuty firmou Albertina icome Praha v rámci řešení projektu.
Zpřístupňování digitálních dokumentů
Obrazová data vytvořená skenováním mikrofilmů a mikrofiší se ukládají
v robotické magnetopáskové knihovně, metadata na diskovém poli, které současně
slouží jako paměťová cache pro často žádané soubory. Ve veřejné soutěži
byla vybrána knihovna ADIC Scalar 1000, která má 6 mechanik a 65 pásek
AIT 2 po 36 GB. Aktuální kapacita knihovny je 2,34 TB a lze ji rozšířit
až na 8,53 TB, příp. ještě více, při použití pásek 50 nebo 100 GB. Činnost
robotické knihovny řídí systém SAM FS, což je komplexní systém HSM
(Hierarchical Storage Manager) s rozšířenými funkcemi pro vytváření komplexních
archivních systémů. Tato forma zpřístupňování, která se nazývá near-line,
je náročnější na čas, na druhé straně umožňuje uchovávat a pohotově zpřístupňovat
po síti velké objemy dat, při podstatně nižších nákladech.
Dokumenty, které nejsou vázány autorským právem, budou zpřístupňovány
prostřednictvím internetu zdarma, pokud to dovolí výše poplatků hrazených
za přenos dat a finanční situace NK ČR. Většina ostatních dokumentů bude
zpřístupňována prostřednictvím lokální sítě na počítačích ve studovnách
NK ČR. Digitální dokumenty bude také možné zaznamenat pro externí uživatele
na požádání na CD-R média, nebo případně doručit obrazové soubory elektronickou
cestou prostřednictvím modulu pro dodávání dokumentů.
Pro zpřístupňování digitálních dokumentů slouží systém AIP SAFE, vytvořený
firmou Albertina Icome Praha v rámci řešení projektu. Jedná se o modulární
systém pro tvorbu, zpracování, ukládání a poskytování digitálních dokumentů.
Kromě jádra obsahuje systém AIP Safe modul výroby digitálních dokumentů,
sklad digitálních dokumentů a modul pro poskytování digitálních dokumentů.
Část systému AIP SAFE (WWW server) používá pro svůj chod systém SIRIUS,
který tvoří rozhraní mezi klienty na internetu, Web Servery a systémem
AIP SAFE. Sirius je nezávislá otevřená aplikace pro zajištění komunikace
s WWW servery a pro dynamickou tvorbu WWW stránek. Systém SIRIUS je platformě
nezávislý a je možné jej provozovat na jakékoliv platformě podporující
interpretaci jazyka Java 1.1.
Archivace a zálohování digitálních dokumentů
Dlouhodobé dochování obsahu původního dokumentu zajišťuje v rámci hybridní
technologie mikrofilm. Vzhledem k tomu, že digitalizace byla provedena
z archivního negativu, je třeba zálohovat digitální obrazové soubory, aby
v případě ztráty dat nemusela být digitalizace opakována. Vzhledem k předpokládanému
velkému objemu dat byla zavržena CD-R média pro jejich ukládání a pro zálohování
se využívá robotická knihovna a systém SAM-FS. Zálohování se provádí v
několika úrovních. Především jsou identické kopie dokumentů (pásky s identickým
obsahem) uloženy v robotické knihovně pro okamžitou náhradu v případě její
poruchy. Další identická kopie je uložena off-line mimo budovu, ve které
je umístěn robot, pro případ zničení celé robotické knihovny. Pomocí systému
SAM-FS a robotické knihovny je možné provádět úplnou recyklaci digitálních
dokumentů. Zcela automaticky se provádí kontrola expiračních lhůt médií,
dekomprese a dopočítání chybějící informace, zpětná komprese a záznam na
nové médium.
Velikost obrazových souborů
Velikost obrazových souborů se stává často limitujícím faktorem pro
jejich zpřístupnění prostřednictvím internetu. V rámci řešení projektu
byla určena jako limitní, v případě obrazových souborů, velikost 300 KB.
Tato velikost byla zvolena s ohledem na prioritní uživatele, kterými by
měly být knihovny a odborné ústavy. Soubory v této velikosti nebude
možné zpřístupňovat prostřednictvím telefonního vedení a modemu, což znamená
omezení pro běžného uživatele v domácnosti. V případě dokumentů zpřístupňovaných
prostřednictvím lokální sítě, nebo distribuovaných prostřednictvím CD-R
médií může být velikost souborů podstatně vyšší. Vzhledem k tomu, že probíhá
rychlý vývoj i v oblasti přenosových tras, viz např. přechod evropského
projektu TEN z šířky pásma 34Mb/s na 155 Mb/s, lze očekávat, že i podstatně
objemnější soubory bude možné v poměrně blízké budoucnosti zpřístupňovat
také na internetu.
Kvalita obrazových souborů
Výsledná kvalita obrazových souborů závisí na řadě faktorů. Zejména
je to kvalita mikrofilmu a to dosažená rozlišovací schopnost, která by
měla být vyšší než 120 čar na mm a stejnoměrná optická hustota pozadí Dmax.
Kvalita mikrofilmů je pak nejvíce ovlivněná charakterem předlohy, která
je na mikrofilmu nasnímkovaná. Vzhledem k tomu, že se většinou mikrofilmují
noviny a časopisy, které mají nekvalitní tisk a papír zabarvený v důsledku
degradace, příp. obsahují polotónové nebo barevné ilustrace, je dosažení
optimálního výsledku komplikované. Podmínkou je velmi dobré zvládnutí mikrofilmové
technologie jak v oblasti expozice, tak i chemického zpracování a dostatečná
praxe obsluhy. Díky projektu Kramerius I byly vytvořeny podmínky i v dalších
knihovnách spolupracujících v rámci národního programu ochranného reformátování
pro produkci mikrofilmů v požadované základní kvalitě, především rozlišovací
schopnosti.
Dalším důležitým faktorem ovlivňujícím výslednou kvalitu je optimální nastavení parametrů skeneru před skenováním. Přístroj skenuje automaticky všechna pole mikrofilmu, proto nastavení musí být přizpůsobeno všem mezním hodnotám, vyskytujícím se na mikrofilmu. V rámci nastaveného rozmezí je pak skener schopen vyrovnávat rozdíly v denzitě pozadí, odstraňovat šum a provádět další operace s obrazovými daty. Podmínkou je stejnoměrná optická kvalita celého mikrofilmu. U obrazových polí, která přesahují nastavené prahové hodnoty se musí opakovat skenování při jiném nastavení. Vzhledem k tomu, že nové nastavení přístroje trvá 10 až 20 min. je výhodné uchovat v paměti přístroje typická nastavení a ty opakovaně používat a přizpůsobovat pouze některé hodnoty.
Kvalitu a čitelnost digitálního dokumentu ovlivňuje zvolená rozlišovací
schopnost uváděná v „dpi“. Čím je vyšší, tím je možné dosáhnout lepších
výsledků skenování, současně se ale zvětšuje velikost souborů. Volba rozlišovací
schopnosti záleží na účelu, kterému má digitální záznam sloužit. Při volbě
rozlišovací schopnosti je třeba brát v úvahu i další záměry jako např.
pořízení plného textu pomocí technologie OCR, které bude v knihovnách zcela
jistě přicházet v úvahu. Konečně kvalitu dokumentu, tak jak se nám jeví
na obrazovce, ovlivňuje také použitý prohlížeč a rozlišovací schopnost
obrazovky, příp. použití různých pomocných programových prostředků (plug-in).
Kvalitu lze nejlépe prověřit, pokud si vybranou stranu vytiskneme na tiskárně,
na které lze dosáhnout větší rozlišovací schopnosti než na obrazovce. Takto
budou pravděpodobně digitalizované dokumenty také nejvíce využívány.
Další vývoj a kooperace knihoven
Projekty řešené v rámci programu Paměť světa a Digitalizace mikromédií
položily základy pro budování digitální knihovny. V další etapě je třeba
optimalizovat proces tvorby digitálních dokumentů např. úpravami snímkovacích
mikrografických kamer jejichž cílem by měla být vyšší rozlišovací schopnost
a vyšší kontrast i v případě velmi degradovaných dokumentů. Dalším krokem
ve vývoji digitální knihovny by mělo být použití technologie OCR pro konverzi
obrazového záznamu do plného textu, který by sloužil zejména pro vyhledávání
pomocí speciálních fulltextových vyhledávacích nástroj, příp. pro
automatickou tvorbu metadat. To je také předmětem řešení nového dvouletého
projektu, který NK ČR řeší ve spolupráci s dalšími SVK a Moravskou zemskou
knihovnou. Dále bude třeba zaměřit pozornost na použití standardu XML pro
tvorbu metadat a nástrojů pro konverze různých formátů. Bude také třeba
integrovat do celého systému nové kompresní formáty umožňující zmenšit
velikost vytvářených obrazových souborů a tím zefektivnit využití paměťových
médií a přenosových tras.
Je zřejmé, že ochranné reformátování nemohou provádět jednotlivé instituce izolovaně, ale tato činnost musí být koordinována na úrovni celé ČR ale i v mezinárodním měřítku. Tomu slouží Národní program ochranného reformátování Kramerius, jehož cílem je koordinace výběru titulů, šíření specifických znalostí a dovedností formou stáží a odborných seminářů a příprava společných projektů. Knihovny provozující pracoviště mikrofilmování zhotovují mikrofilmy i pro další knihovny v ČR za úhradu nákladů. Náklady na mikrofilmování jedné strany se pohybují okolo 2,50 Kč, náklady na digitalizaci a vytvoření metadat okolo 1,00 Kč. NK ČR má také možnost uchovávat po omezenou dobu archivní negativy ve speciálním skladu v Centrálním depozitáři v Hostivaři, kde jsou vytvořeny mikroklimatické podmínky pro jejich dlouhodobé dochování.
Koordinace této činnosti na mezinárodní úrovni se provádí pomocí sdružení evropských knihoven EROMM (European Register of Microform Masters), které buduje a zpřístupňuje databázi záznamů archivních negativů a projektu DIEPER (Digitised European Periodicals), který vytváří databázi umožňující zpřístupnění digitalizovaných periodik z jediného místa. NK ČR je od letošního roku členem sdružení EROMM.
Polišenský
10. 4. 2000