Příspěvek konference
Budoucnost českého webového archivu
Autor
Jaroslav Kvasnica, Národní knihovna České republiky
Spoluautoři
Rudolf Kreibich, Národní knihovna České republiky
Materiály ke stažení
Foto přednášejícího / Picture Plný text Prezentace
Abstrakt
V prezentaci bude představen český webový archiv (webarchiv.cz), který se stará o dlouhodobou ochranu českých digitálních online zdrojů. Bude představeno, jakým způsobem dnes webový archiv funguje, jak probíhá akvizice zdrojů a jakým způsobem jsou data uchovávána. Prezentace ale bude primárně zaměřena na nově vznikající způsoby zpřístupnění dat v archivu pro potencionální uživatele. Jelikož se domníváme, že pouhé vyhledávání pomocí URL nebo klíčových slov není dostatečné, pro tak velký a specifický objem dat, kterým webový archiv je.
V prezentaci hodláme představit naši ideu zpřístupněni datových setů, které budou výstupem analýz nad velkými daty v archivu. Zaměříme se také na technologickou část věci a představíme clusterovou technologii Hadoop a HBase, které jsou nezbytnými nástroji pro práci s tzv. big daty. Hlavním cílem webového archivu je do budoucnosti motivovat výzkumné pracovníky z nejrůznějších oborů, poskytnutím dat, nástrojů a podpory a provádět výzkum nad unikátními velkými daty webového archivu.
Profesní informace o autorovi
Jaroslav Kvasnica – působí jako vedoucí oddělení webové archivace v Národní Knihovně České republiky. Předtím působil jako kurátor úložiště dlouhodobé ochrany a metadatový specialista v projektu Národní digitální knihovny. V současné době se nejvíce zabývá dlouhodobou ochranou webové zdrojů, v této oblasti i publikuje a napsal diplomovou práci. Zároveň je odborným řešitelem v několika výzkumných projektech zabývajících se archivací webových zdrojů či dlouhodou ochranou digitálních zdrojů.