Memoriae mundi series Bohemica | |
Stanislav Psohlavec, AiP Beroun s.r.o., Beroun | |
Příspěvek dokládá výhody promyšlené koncepce u dlouhodobých projektů. Orientace na uznané standardy, špičková digitalizace, tvorba popisných dat, spojování do digitální knihy. Rutinní elektronická reedice vzácných dokumentů. |
obsah:
Proč SGML,HTML,DOBM, Internet, XML.
O popisech rukopisů, nové možnosti.
Fulltext, UNIMARC, DOBM, různé způsoby záznamu významu textu.
Vážené dámy, vážení pánové,
Dovolte, abych Vás ve svém příspěvku podrobněji informoval o metodice uchovávání digitálních dat v tomto
projektu, o současném stavu a dalších perspektivách, které přináší rozmach Internetu do těchto oblastí.
Ve druhé části se dotknu související problematiky - důležitosti uchování významu (role) textových dat při záznamu informace.
Cílem projektu je hromadné zpřístupnění historických dokumentů v digitální formě, náhrada originálů umožňující přístup k informacím pro širokou
badatelskou veřejnost.
Základní a nejzávažnější úkol vyplynul hned na počátku z poznání, že rozsáhlejší pořizování digitálních
dat tohoto typu se musí vypořádat s požadavkem nadčasovosti těchto dat i jejich identifikace.
Z mnoha důvodů jsme došli k závěru, že tento požadavek mohou splnit pouze data svázaná s textem (metadata) opatřená identifikátory – tagy. Toto
splňovaly v době našich počátků pouze dokumenty HTML, používané pro komunikaci na Inte
Dal
ší vývoj a rozšiřování Internetu i dokončování dalších souvisejících projektů v NK ukazuje, že v krátké budoucnosti bude možné mnohem více pracovat s historickými dokumenty po Internetu, a to i formou kterou jsme tak brzo neočekávali. Co tento fakt přináší? Dokumenty vytvářené v projektu MMSB jsou prvotně tvořeny ve formě vhodné pro komunikaci po Internetu. Něco jiného je však vystavit několik rukopisů na WWW stránky, a něco jiného je vytvoření skutečně nového badatelského prostředí. Badatelské prostředí vyžaduje komunikaci, sdílení a publikování informací, tedy živá data, ke kterým badatel nejen přistupuje a která využívá, ale která sám také spoluvytváří.Nyní připravujeme v Národní knihovně import doposud vytvořených dokumentů do systému SAFE, kde se tyto dokumenty uloží v databázi řízené SQL
serverem, na magnetopáskových kazetách v robotické knihovně.
Do tohoto systému, který bude zpřístupňovatpředevším staré noviny a časopisy budou importovány také dosud digitalizované vzácné rukopisy a tisky. Import
b
V posledním roce se začíná o XML hodně hovořit, proto se zmíním o vztahu naší koncepce a XML.Potřeba vzniku XML vznikla z neschopnosti dosud standardizovaných prostředků (především HTML) pokrýt požadavky záznamu obecných digitálních dat, tedy ze stejných důvodů, proč jsme pro naši specializovanou oblast definovali DOBM. DOBM vz
niklo, protože ještě nebylo XML, naštěstí (nebo zákonitě?) na stejných principech. V současnosti XML již pokrývá plně naši relativně velmi jednoduchou problematiku.První fáze provoz
u systému SAFE bude nejprve zajišťovat zpřístupnění existujících dat.Ohlédněme se pro ilustraci na měnící se přístup k popisu dokumentů. První přístup k popisu digitálních dokumentům byl vyzkoušen ještě před definicí DOBM a vycházel z představy prvotní existence digitálních obrazů rukopisu a z jejich popisu na počítači. Tímto způsobem byly vytvořeny jen dva popisy- Sedlecký Antifonář a Tirschovo dílo Codex pictoricus Mexicanus. V obou případech šlo o podrobný popis díla, který trval měsíce. Oba tyto příklady ukázaly, že je nutno rozdělit základní identifikační popis a následnou badatelskou práci s tímto materiálem. Druhý přístup, který se praktikuje doposud, vychází z toho, že je nejprve vytvořen podle originálu základní popis umožňující následné přiř
azení obrazu. Tato příprava probíhá na třech nezávislých pracovištích, která kapacitně odpovídají možnostem digitalizačního pracoviště využitého. Teprve jsou-li tato metadata připravena, je zahájena digitalizace. Tento postup umožňuje dobré využití techniky, která prakticky nemá prostoje. Po spojení metadat s obrazovými daty vzniká digitální dokument, který je ihned použitelný pro zpřístupnění místo originálu. Tímto způsobem je zpřístupněno cca 500 rukopisů. Metadata jsou i nyní obvykle již dosti propracovaná, protože kromě automatizovaně generovaných prostředků tvořících strukturu elektronické knihy, je k dispozici obvykle i dosti podrobný rozpis obsahu. Zde již může záviset na názoru popisovatele, do jaké hloubky se ve své práci pustí i jaké má odborné zaměření. Přesto je tento popis prvotně určen jen pro identifikaci a usnadnění přístupu k obsahu dokumentůVývoj techniky a rozšiřování Internetu a jeho možností dovoluje nástup třetí generace přípravy popisů a jejich využívání. Představa je taková, že základem zůstane elementární popis zjednodušený tak, aby zachycoval fyzickou podobu dokumentu a jednoznačnou identifikaci. Tento popis bude už spojen s obrazem a bude po Internetu zpřístupněn vybranému okruhu ‚popisovatelů‘, který může být výrazně
obsáhlejší a nejen z okruhu lidí v blízkosti pražského Klementina. Tito popisovatelé, kteří již mohou být kdekoli na Internetu, vytvoří podrobnější rozpis obsahu a připojí základní popisné a identifikační informace dokumentu jako celku a případně i k jednotlivým významným stránkám. Teprve takovýto dokument vybavený potřebnými metadaty (nad nimiž bude možno vyhledávat), bude nabídnut k používání badatelské veřejnosti. Analyzují a připravují se prostředky, které dovolí na Internetu vznik a sdílení dalších nově vznikajících informací.Troufám si říci, že kompatibilita našeho vývoje s celosvětovým trendem není náhodná, logicky vyplývá z přijetí a využití principů tagovaného záznamu dat. Protože při svých diskusích opakovaně setkávám s tím, že není zcela rozpoznáván zásadní význam těchto principů, dovolte a promiňte mi elementární vysvětlení.
Informace obsažené v písemné sdělení jsou dvojího druhu:
samotný text (
Typický příklad strukturovaného záznamu v knihovnách je retrokonverze katalogu z papírové lístkové formy do digitální formy záznamů v UNIMARCU.
Ostatně UNIMARC je dobrý příklad propracovaného způsobu záznamu textových informací se zásadním ohledem na významovou roli tohoto textu.
Záznam o knize v UNIMARCU
LAB -----nam 22----- 450
001 zb9427659
005 19941210
010 -- $a0-930042-31-X$bbrož.
020 -- $aCZ$bzb 9427659
100 -- $a19940621d1980 u u0czey0103 ba
101 1- $aeng$ccze
102 -- $aUS
105 -- $aa - 0|0yy
200 1- $aBaroque in Bohemia$fMilada Součková$gPostscript by Roman Jakobson $g[Přel. z češ.]
210 -- $aAnn Arbor$cUniversity of Michigan Pres
Tento záznam je sice poněkud nepřehledný, ale velmi podrobně podle známých a veřejně dostupných pravidel stanovuje význam jednotlivých segmentů textu. Lze z něj snadno vytvořit jiné, čitelnější formy
tatáž data v textové, lidsky čitelné formě
Autor
Součková, Milada, 1899-1983tatáž data ve formě ISBN
7.03
Součková, Milada, 1899-1983
Baroque in Bohemia / Milada Součková ; Postscript by Roman Jakobson ; [Přel.
z češ.]. -- Ann Arbor : University of Michigan Press, 1980. -- VIII, 216 s.
-- (Michigan Slavic materials ; No. 17)
ISBN 0-930042-31-X
1. umění české - baroko – monografie
I. Jakobson, Roman Osipovič, 1896-1982 II. Název
Obě tyto formy jsou mnohem lépe čitelné, ale obsahují méně informace než UNIMARC.
Z UNIMARCU lze data do této čitelné formy převést, OBRÁCENÝ PŘEVOD ALE NENÍ OBECNĚ MOŽNÝ.
Samozřejmě vše má svá omezení… forma definovaná tak jednoznačně a závazně jako UNIMARC nemůže postihnout všechny oblasti, kde by bylo třeba uchovat
informace o knihá
Vraťme se zpátky k historickým dokumentům. DOBM definuje množinu možných rolí textu při popisu určitého typu dokumentu a dává prostředky jak rozpoznatelným způsobem stanovit role další, to vše v rámci konvencí dokumentu zobrazitelného běžným browserem.
Ukázky z tagovaného zápisu (DOBM)
<!DOCTYPE DOBM PUBLIC "-//AIP//DTD DOBM
2.1//EN">Tento pro člověka nepřehledný text obsahuje jednoznačně strojově rozpoznatelné informace a přitom je každým browserem nezávisle na jeho verzi interpretován takto:
Rozpis obsahu
| Technický popis | Galerie | Kniha
Různé způsoby záznamu významu textu
Roly textu lze samozřejmě v současných editorech vyjádřit například stylem textu. Ale… Byli jsme nedávno postaveni před úkol převést rozsáhlá data zaznamenaná ve formátu editoru AmiPro do Wordu a zároveň do databáze. Bylo nutno rozpoznat a zachovat styly, které vyjadřovaly roli – význam jednotlivých dat. Ačkoliv oba systémy deklarují export a impo
rt standardizovaného formátu RTF, úkol nebyl řešitelný bez náročné ruční úpravy konvertovaných dat, v exportu i v importu byly při složitější struktuře významné chyby.Formáty založené na konkrétním SW, postrádající veřejně přístupný popis struktury pomocí standardizovaných prostředků, nejsou vhodné k dlouhodobému uchování dat.
Výše naznačená forma digitálního dokumentu ve formě DOBM dovoluje interpretaci vhodnou pro práci uživatele, ale nezobrazuje mnoho konkrétních informací, které jsou z hlediska integrity digitálního dokumentu významné, protože uživatel je právě nepotřebuje. Tyto informace jsou však snadnoa jednoznačně rozpoznatelné a využitelné ve vyšších systémech pracujících s těmito informacemi.
Jednoznačného a nezávislého definování role lze dosáhnout každou formou, která je vytvořena a veřejně popsána standardizovanými prostředky. Bezeztrátový přechod mezi formami toto splňujícími je pak jednoduchý a jednoznačný.
Akceptováním těchto principů je splněna první podmínka široké sdílitelnosti digitálních dat.
Druhou podmínkou je vytvoření spojení mezi různými zdroji.
Je totiž nutno zajistit, aby byly správně využity obsahy jednotlivých rozlišených polí, správná identifikace rolí. Protože si nedělám iluze o možnosti
něco takového celosvětově prosadit, j
Pro ilustraci…
MDT
Že je potřeba takovéto kázně ukázalo v minulosti volání po potřebně jazykově a lingvisticky nezávislého zařazení libovolného objektu, které vedlo ke vzniku Mezinárodního desetinného třídění (MDT).
Příklad:
Notace MDT: 091.31Podstatné je, že nějakým jednoznačně definovaným způsobem vymezuji a označuji vlastnosti nějakého objektu. Není
ani tak důležitá konvence, jako významový obsah. Stejný objekt lze vymezit různými slovy v různých řečech, ale musí být myšleno totéž.
Notaci 091.31 konvertuji na AJB.DB velmi sn
Samozřejmě výčet vlastností (rolí textu) používaných při popisu rukopisů v projektu MMSB je podřízen
cílům, pro které slouží a nelze jej srovnávat se záběrem MDT, stejně jako nelze srovnávat záběr XML a DOBM.
Svou jasnou deklarací je však používaný rozsah pojmů popisujících role textů nutnou podmínkou pro sdílení těchto i
Použito: Česká národní bibliografie, CD-ROM, AiP a NKČR
Mezinárodní desetinné třídění , CD-ROM, AiP a NKČR
AiP Beroun s.r.o.- dceřinná společnost Albertina icome Praha s.r.o.
U Stadionu 137, 26601 Beroun 1
stanislav.psohlavec@aip.cz