Přehled příspěvků podle jmen autorů
ACT - počítačové zpracování psaného kulturního dědictví
Autor: Kiril Ribarov, Univerzita Karlova - Ústav formální a aplikované lingvistiky, Praha
Spoluautoři: Jiří Bubník, Jiří Čelák, Vojtěch Janota, Alexandr Kára, Václav Novák, Tomáš Vondra, Matematicko-fyzikální fakulta UK
Plné texty
Abstrakt
Cílem této práce je prezentace nástroje ACT (Annotated Corpora of Text) - skupina modulů pro lexikální a korpusové zpracování (evropských) psaných kulturních památek.
ACT umožňuje zpracování jazykových variant vyskytujících se na různých jazykových úrovních, např. slovních nebo větných. Centrální jednotkou není povrchová slovní forma z rukopisů, nýbrž množina jejich možných interpretací/rozepisování. Každá rozepsaná jednotka může být označkována morfologickými značkami, heslovými slovy (i různých redakcí), překladovými ekvivalenty, komplexy (víceslovné celky), a korelacemi s jinými zdroji. ACT umožňuje definice vlastních třídění a vlastních morfologických značek; značkování je na všech úrovních automatizováno.
ACT dále umožňuje:
- komplexní vyhledávání přes jeden či více zdrojů
- vytváření různých dokumentů jako index verborum, retrográdní indexy, indexy konkordancí, frekvenční indexy a jiné, z jednoho či více zdrojů v nejběžnějších výstupních formátech
- on-line přístup k textům a obrázkům pomocí www stránky (ACT-Web)
Značkování lze provádět i v tzv. "odlehčené" verzi (ACT-light), která umožňuje off-line práci s vybranou množinou dokumentů.
Poslední z modulů je ACT-Distiller, nástroj pro převádění lexikálních kartotéčních lístků do korpusu; implementovaný algoritmus pro vázání kontextů umožňuje zpětnou rekonstrukci původních textů.
Věříme, že systém přispěje k vybudování kontextualizovaného a inteligentního informačního rámce pro zpracování psaných kulturních zdrojů. ACT je v současné době používán pro zpracování staroslověnských a církevněslovanských rukopisů.
O autorovi
RNDr. Kiril Ribarov se narodil 1971 v Ochridu v Makedonii. Své studium započal v roce 1989 na Elektrotechnické fakultě ve Skopji v Makedonii. Od r. 1992 působí v České republice. V roce 1996 ukončil studium informatiky na Matematicko-fyzikální fakultě na Karlově univerzitě v Praze (UK). Od r. 1996 se specializuje na matematickou lingvistiku a pracuje v Ústavu formální a aplikované lingvistiky, dále pak v Centru komputační lingvistiky UK. Je vyučujícím na Matematicko-fyzikální fakultě UK, externím vyučujícím na Českém vysokém učení technickém a na Anglo-americké vysoké škole v Praze. Jeho publikace se týkají oblasti automatických metod zpracování přirozeného jazyka, oblasti počítačového zpracování psaného kulturního dědictví a vztahů nelineárních systému a přirozeného jazyka. Je autorem koncepce počítačového zpracování textů staroslověnských a církevněslovanských památek, pomocí které vznikl první anotovaný korpus zmíněných rukopisů. Od roku 2003 spolupředsedá Komisi pro počítačové zpracování středověkých rukopisů a prvotisků při Mezinárodním komitétu slavistů.
Ostatní příspěvky v sekci:
Soumrak knihovny
Autor: Torsten Schaßan, University of Cologne, Německo
Vize sémantických procesů - aktuální trendy
Autor: Nerutė Kligienė, Institute of Mathematics and Informatics, Litva
Konceptuální rámec virtuálního badatelského prostředí
Autor: Zdeněk Uhlíř, Národní knihovna ČR, Praha
Manusriptorium - základ virtuálního badatelského prostředí
Autor: Stanislav Psohlavec, AiP Beroun s.r.o., Beroun
Digitalizační centrum Akademie věd ČR
Autor: Martin Lhoták, Knihovna Akademie věd ČR, Praha